鄔賀銓：數(shù)據(jù)價值挖掘的挑戰(zhàn)

ainet.cn 2021年01月11日

　　近日，中國工程院院士、2020年世界互聯(lián)網(wǎng)領先科技成果專家推薦委員會中方主任鄔賀銓發(fā)表了《數(shù)據(jù)價值挖掘的挑戰(zhàn)》的主題演講。

　　數(shù)據(jù)融合利用需要標準規(guī)范先行

　　鄔賀銓院士表示，數(shù)據(jù)融合利用需要標準規(guī)范先行，實現(xiàn)數(shù)據(jù)可見性、數(shù)據(jù)易理解性、數(shù)據(jù)可鏈接性、數(shù)據(jù)可信性、數(shù)據(jù)互操作性和數(shù)據(jù)安全性。

　　鄔賀銓院士通過舉例具體介紹，以色列首都特拉維夫把所有交通攝像頭的視頻合成一個完整的視頻，就像城市的領導坐著直升飛機俯視這個城市一樣，可以看到不同的時間用不同顏色標注交通管制、交通事故，并且實時通過5G、4G發(fā)送給行人、駕駛員，供大家選擇自己的出行路線，這是數(shù)據(jù)可見性;新冠肺炎確診除了做核酸檢測，可能還要做CT，一個肺可以做出300張CT，把300張CT照片還原為一個肺，再看看肺有沒有纖維化，肺周邊怎么樣，可以讓數(shù)據(jù)變得可理解;要展示去年和今年的歐洲航空情況，把所有飛機上的數(shù)據(jù)連接起來，形成一個航空的數(shù)字孿生的交通鏡像，就有了全局性;有很多古羅馬的遺址散落在現(xiàn)代建筑之中，如果想看古代羅馬怎么樣，現(xiàn)在可以把這些遺址照片合成一個視頻，把時空分散的照片組合起來，生成一個反映古羅馬街景的視頻，這是數(shù)據(jù)的互操作性。

　　關于數(shù)據(jù)的可信性和安全性，鄔賀銓院士特別提到，如果數(shù)據(jù)本身是不全面的，或者說是有很多差錯的，那這個數(shù)據(jù)挖掘是沒有用的，需要有數(shù)據(jù)質量管理技術，按照規(guī)定程序適當標記、保存和記錄數(shù)據(jù)，在壽命周期內都能夠保護和血緣元數(shù)據(jù)的約束。數(shù)據(jù)安全性方面，需要實現(xiàn)精細化權限管理和審計，定期評估分類標準并測試合規(guī)性。

　　數(shù)據(jù)挖掘面臨算力算法的挑戰(zhàn)

　　鄔賀銓院士表示，數(shù)據(jù)挖掘首先要建數(shù)據(jù)模型。建數(shù)據(jù)模型的前提需要了解模型開發(fā)背景和用途，以及誰來訓練模型，這些數(shù)據(jù)從哪來，模型運用的效果如何，需要關注算法的完整性、可解釋性、公平性和適應能力。同時，模型開發(fā)完還需要不斷地檢驗、迭代和完善。

　　算法現(xiàn)在主要還是用深度神經(jīng)網(wǎng)絡，深度神經(jīng)網(wǎng)絡經(jīng)歷了兩代，第一代主要是知識驅動，就是專家系統(tǒng)，把專家經(jīng)驗找出來，然后邏輯推理?，F(xiàn)在是第二代人工智能，大數(shù)據(jù)來了，是數(shù)據(jù)驅動。鄔賀銓院士認為，這兩個都不夠完整，“目前大數(shù)據(jù)很多應用，我把它叫做大數(shù)據(jù)、大算力、小任務，非常多的數(shù)據(jù)，能力非常強的計算能力，實際上只做了一件很小的事情，而且穩(wěn)定性不夠，知其然不知其所以然，可解釋性差，應用場景窄，怎么解決這個問題呢?最好是小數(shù)據(jù)、小算力、大任務?！编w賀銓院士表示，現(xiàn)在需要發(fā)展到第三代，需要知識與數(shù)據(jù)雙驅動，而且很多人說需要內腦，把人的認知機理用上去，雖然比較困難，但是這個方向還是需要的。

　　鄔賀銓院士談到，往往大數(shù)據(jù)分析不能只靠中心云，很多時候要使用邊緣云，因為邊緣云可以就近處理，適用于那些對數(shù)據(jù)試驗敏感的一些業(yè)務，包括生產(chǎn)線上，一些數(shù)據(jù)不能送到遠遠的地方去處理，這樣就不能起到實時的作用，只能得到經(jīng)驗的總結，有時候需要實時，就要把中心云的能力一部分下沉變成邊緣云。如果所有東西都希望云邊端協(xié)同，但這是這是有挑戰(zhàn)的，怎么協(xié)同，怎么分配這種計算能力，這是大數(shù)據(jù)挖掘需要解決的問題。

　　現(xiàn)在是大數(shù)據(jù)、大算力、小任務，大數(shù)據(jù)也不見得那么全面，人工智能會誤判，而且模型準確性也不是想象中那么好，人工智能需要大量標注或清洗的數(shù)據(jù)，但很多時候只有小數(shù)據(jù)，怎么在小數(shù)據(jù)、小算力的情況下邊提高人工智能的分析能力，這是大數(shù)據(jù)分析面臨的挑戰(zhàn)。

　　大數(shù)據(jù)融合需要人與數(shù)據(jù)融合

　　鄔賀銓院士認為，很多大數(shù)據(jù)融合需要人與數(shù)據(jù)融合。把人的數(shù)據(jù)跟客觀的東西融合在一起，把人的經(jīng)驗介入到大數(shù)據(jù)分析過程，但是人不能永遠介入，什么時候什么場景下能介入，這是需要經(jīng)驗的。大數(shù)據(jù)分析不是不需要人，也不是大數(shù)據(jù)、工業(yè)互聯(lián)網(wǎng)時代的工人、工程師沒用了，里面還需要用到工程師和工匠精神。

　　數(shù)據(jù)只有融合才有價值，但融合就涉及到隱私和商密保護問題。鄔賀銓院士談到，每個企業(yè)都希望用別人的企業(yè)數(shù)據(jù)，不愿意把自己的數(shù)據(jù)拿出去，總覺得這是商業(yè)秘密，那怎么做融合?怎么做到既融合又不會泄露每個企業(yè)的商業(yè)秘密，這是可以做到的，也有很多方案，比如采用多方計算的方式。

　　此外，大數(shù)據(jù)分析本身會用很多軟件，包括很多開源軟件，可以網(wǎng)上宕下來，但是開源軟件漏洞很多，而且版本升級太頻繁，需要檢查它的安全性，采用也可能會出問題。如果用自然語言直接生成代碼，當然反過來就能從代碼判決出原來這個軟件的意圖，如果能知道這個軟件意圖，那就能知道有沒有加入其它不該加入的東西，就能確保代碼是可信的。另外一種，大家往往為了怕數(shù)據(jù)泄露和篡改，采用加密手段，加了密的數(shù)據(jù)是比較難進行安全掃描的，不過加密也不是萬能的，還得從開始階段，從內生設計上讓它更安全。

　　演講的最后，鄔賀銓院士總結談到，智慧城市的管理和工業(yè)互聯(lián)網(wǎng)里有很多需要數(shù)據(jù)融合應用的場景，多元異構的數(shù)據(jù)融合能夠盤活數(shù)據(jù)，通過數(shù)據(jù)挖掘開發(fā)數(shù)據(jù)的價值，發(fā)揮數(shù)據(jù)作為生產(chǎn)要素的作用。但是數(shù)據(jù)挖掘和人工智能的分析要面對海量的處理能力、云邊端的協(xié)同、建模、小數(shù)據(jù)、人與數(shù)據(jù)的融合、數(shù)據(jù)自身安全、隱私和商密保護等挑戰(zhàn)，我們需要從基礎理論跟工程實踐多方面來研究數(shù)據(jù)價值挖掘的問題，要開發(fā)出更高效的大數(shù)據(jù)和人工智能分析技術，整個大數(shù)據(jù)的創(chuàng)新還是任重道遠。

（轉載）

標簽：數(shù)據(jù)價值

我要反饋