讀“圖”智慧:大資料精準“畫像”的應用未來

    網際網路的內容主流,已經出現從文字轉向圖片的趨勢,這標誌著網際網路已經進入“讀圖時代”。在“讀圖時代”的大背景下,影像中的海量非結構化資料的挖掘成為價值潛力的集聚地,如何挖掘其中隱藏的使用者“密碼”,成為大資料“落地”遇到的一大挑戰。

圖片大資料探勘,主要目標是從中提取出圖片的自身特徵,包括語義、質量、關聯度、實體義項等。由於在網際網路的推動下,資訊載體和使用者交流媒介已經從文字轉變到了圖片,圖片的便捷性,使得網站與使用者之間的互動更加頻繁,而圖片的互動輸入與展現,也讓資料的展現更加直觀。

隨著圖片資料規模的增大,萬億量級的資料對演算法的效率提出了更高要求,這不僅僅需要資料結構方面的優化,而且需要對資料的形態進行更深入的把握,以往那些以結構化為主的資料形式,不再能滿足影像分析所需,面向知識本身的資料模型逐步建立起來,這些模型能夠支援支援使用者的任務與決策支援購物、決策,還可以支援資料自動與其任務標的、屬性相結合,對影像背後隱藏的需求進行挖掘,並通過與周邊環境資訊進行關聯計算,形成完整的大資料“畫像”系統。

另外,為了避免圖片質量的良莠不齊,人工智慧計算的引入,將為圖片大資料分析帶來自動預測和計算圖片質量的能力。這一基於影像的大資料“畫像”能力,在谷歌的Gmail中率先得到了應用。

日前,谷歌利用資料庫技術打擊Gmail郵寄兒童色情圖片的行動獲得了成效,一名休斯敦男子在企圖利用Gmail郵寄兒童色情圖片時被警方逮捕,而通知警察的正是他的郵件服務提供商谷歌。谷歌希望利用這種技術與政府合作,防止犯罪,並降低犯罪率。

據稱,谷歌的這項資料庫技術主要是通過對出現在網路上的兒童色情圖片進行掃描,每一張圖片都將擁有一個獨特的數字ID,就如同指紋一樣。而如果谷歌在使用者的Gmail郵件中發現可疑的兒童色情圖片,就會比對圖片“指紋”,通過人工稽核之後提交給相關部門,例如警方之類。

除了線上的應用之外,大資料影像挖掘技術線上下一樣有著廣闊的前景,這最明顯體現就在城市管理和交通優化方面。

通過對交通擁堵建立模型,我們不僅可以對整個城市交通的狀況做實時監測,併發布交通的擁堵狀況,還可以對一個城市交通可能會發生的大面積的交通癱瘓作出提前預測。目前的城市交通路況資訊還只是採集技術,告訴你現在堵和不堵。而更公眾更關心的是,到底什麼時間走,到底多長時間能夠到達,到達之後會不會又堵了?到底要花費多長時間,甚至我要產生多少能耗,我要花多少油錢,基於這些,進而引導公眾的出行,真正實現綠色交通。如此,在交通誘導服務的基礎上,就可以實現城市交通的優化配置。

另外,參照交通優化模型,還可以開發城市環境模型,對持續的城市霧霾給出一個明確的發生原因,以便做出實時監測和應對。例如,可以通過監測到任何一個路段,任何一個區域或者全市實時監測,在這個時間裡面所有車輛碳排放的情況,結合交通系統進行綜合優化,用技術來引導公眾出行,跟資訊服務結合起來,綜合促進智慧城市的形成。

儘管目前線上線下的圖片資料資訊已經極大豐富,但我們對影像中所蘊藏資料價值的探索,還處於初級階段,不論是網際網路方面的資訊服務,還是線下結合物聯網的服務,未來的應用前景都非常廣闊。可以說相關技術已漸成熟,但是普及尚需一段時間。當前的主要問題不是技術方面,而是如何應用這些技術、將技術與相關需求有效結合。在這方面,需要綜合性的跨產業支援策略和智慧協作,才能夠切實推動。