鄔賀銓
■本報記者 陸琦
“大數(shù)據(jù)挖掘?qū)χ腔鄢鞘械慕?jīng)濟發(fā)展和社會管理是無形的生產(chǎn)資料,大數(shù)據(jù)價值的合理共享和利用將創(chuàng)造巨大財富。”中國工程院院士鄔賀銓在1月11日舉行的2013中國智慧城市年會上說。
鄔賀銓認為,智慧城市是城鎮(zhèn)化進程的下一階段,是城市信息化的新高度,是現(xiàn)代城市發(fā)展的愿景。智慧城市在產(chǎn)生大數(shù)據(jù)的同時,大數(shù)據(jù)也支撐著智慧城市的建設和發(fā)展。
何謂大數(shù)據(jù)?鄔賀銓援引維基百科的定義說,大數(shù)據(jù)指沒有辦法在允許的時間里用常規(guī)的軟件工具對內(nèi)容進行抓取、管理和處理的數(shù)據(jù)集合。
大數(shù)據(jù)目前的標準是,單一數(shù)據(jù)集的大小在幾十個TB(萬億字節(jié))和幾個PB(千萬億字節(jié))之間。
大數(shù)據(jù)究竟有多大?比如,淘寶網(wǎng)每天交易達數(shù)千萬筆,其單日數(shù)據(jù)產(chǎn)生量超過50TB,存儲量超過40PB;百度每天大約要處理60億次搜索請求,數(shù)據(jù)量達到幾十PB;中國聯(lián)通用戶上網(wǎng)記錄達每秒83萬條,即每月1萬億條,對應數(shù)據(jù)量為每月300TB。
“大數(shù)據(jù)雖然孕育于信息通信技術的日漸普遍和成熟,但它對經(jīng)濟社會生活產(chǎn)生的影響絕不僅限于技術層面。”
鄔賀銓舉了幾個有趣的例子。美國印第安納大學利用谷歌提供的心情分析工具,從網(wǎng)民的上千萬條留言中分類出6種心情,進而對道瓊斯工業(yè)指數(shù)的變化進行預測,準確率達到87%。又如,美國Target超市選出孕婦常常購買的25種典型商品,建立“懷孕預測指數(shù)”,針對性地派送孕婦用品優(yōu)惠廣告,正因為利用了大數(shù)據(jù)分析技術來細分客戶群,2002年到2010年間,其銷售額從440億美元增長到670億美元。
此外,利用搜索關鍵詞,疾控部門可以預測、判斷某地流感暴發(fā)情況;通過關注社交網(wǎng)絡上“糖友”的交流與感悟,醫(yī)院和醫(yī)生可以獲得更好的糖尿病診療和康復經(jīng)驗……鄔賀銓表示,大數(shù)據(jù)的應用領域很廣泛,在醫(yī)療健康、財務管理、物流管理、國土安全等各個領域都有巨大的利用空間。
“物聯(lián)網(wǎng)也好,智慧城市也好,數(shù)據(jù)挖掘是重點。”鄔賀銓說,“獲得數(shù)據(jù)后,不是簡單的數(shù)據(jù)分析,還需要建立模型進行仿真,得出直觀的可視化結(jié)果。”
鄔賀銓以太湖藍藻監(jiān)測為例指出,通過傳感器捕獲太湖水質(zhì)情況,可以得到溶解氧、水溫、電導率、氨氮、pH值等參數(shù)作為參考。但僅僅這些還不夠,還需要結(jié)合視頻圖像、人工采集和衛(wèi)星遙感的數(shù)據(jù)一起分析。“多源異構(gòu)的數(shù)據(jù)才能保證判斷的可靠性。”鄔賀銓說。
收集到各類數(shù)據(jù)之后,到后臺進行分析挖掘,建立模型,跟歷史數(shù)據(jù)進行對比,同時利用3S技術、云計算等,最終實現(xiàn)對污染的處理。
“裝幾十萬個攝像頭,并不表示就是智慧城市。”鄔賀銓直言,“大數(shù)據(jù)的收集、存儲、分析處理及使用,對智慧城市是很大的挑戰(zhàn)。這不僅是技術也是政策和法律需要關注的問題。”
鄔賀銓說,無線城市、數(shù)字城市、寬帶城市、感知城市都是智慧城市的必要條件,創(chuàng)新城市、綠色城市、宜居城市、平安城市、健康城市、幸福城市等更是智慧城市的應有之義。
《中國科學報》 (2013-01-17 第1版 要聞)