想要玩轉資料視覺化?先弄清我們能用非結構化資料做什麼吧

資料猿發表於2018-03-21
640?wx_fmt=jpeg

【資料猿導讀】 資料視覺化領域從業者面臨的最重要挑戰之一,就是能用非結構化資料來做什麼


作者 | 張雪倩

官網 | www.datayuan.cn

微信公眾號ID | datayuancn


我們越來越擅長理解非結構化資料,但仍未達到理想狀態。


資料視覺化發展近幾年突飛猛進。企業使用愈發令人驚歎的軟體來展現他們收集的海量資訊,使用反應敏捷、互動性強、往往又非常漂亮的表現形式,讓觀看者參與進來——無論是會議室裡的決策者還是科技館裡的孩子們。


資料視覺化領域從業者面臨的最重要挑戰之一,就是能用非結構化資料來做什麼。非結構化資料是指所有不能納入關聯式資料庫的資料,包括視訊、幻燈片、公司記錄、社交媒體、RSS、檔案和文字——基本上就是絕大部分的交流。


據估計,世界上80%的資料都是非結構化的,而且這一數字正迅速增長,IDC預測非結構化資料將從2015年的9.3ZB到2020年增長至44.1ZB。它對企業的重要性也同樣迅速增長著。墨爾本大學客座講師與(商業分析)研究員Ranko Cosic曾指出:“在我看來,運用資料的方式在接下來幾年中的變化將是,雖然企業會繼續收集和分析資料倉儲、傳統資料庫和關聯式資料庫中的結構化資料,也將更多關注收集和分析傳統網站與社交媒體網站上的以錄音、影象、音樂、文字、視訊和互動式內容形式出現的非結構化資料。”


非結構化資料如此重要,其原因是它所提供的語境。分析結構化資料能夠告訴我們什麼正在發生,但是通過分析複雜的非結構化資料流才能知道為什麼會發生。結構化資料包含收入表現和運營指標,但是非結構化資料的文字能夠展示對公司產品的看法、員工資訊和競爭優勢。


然而,對非結構化資料的分析則是一門相對來說比較新的科學,其規模和複雜性以往使得人們難以理解。高效處理非結構化資料是許多創業公司的目標,他們中的大部分現在關注於使用機器學習演算法對其進行解鎖,而不是像以前會將非結構化資料轉化為結構化資料。他們將分析和視覺化都自動化,所以公司能夠立即從非結構化資料庫得到結果。


BrainSpace和DeepDive是其中取得重大進展的兩個創業公司,而且它們都獲得了大型融資。Brainspace的CEO Dave Copps告訴我們:“之前,我們能夠對非結構化資料做的只有搜尋,蒐集起來一堆檔案,然後用關鍵詞去嘗試(搜尋)。Tableau和Quickview之類的技術通常適合檢索結構化資料,但是一旦你從檔案中抽出詞來看,語境就不在了。所以,比如說你在分析簡歷,如果你從一名軟體開發者的簡歷中找到了‘Java’,但你不知道這個詞的存在是否只是因為那個人寫了‘我的Java很差勁’。我們做的,不僅僅只是分析詞句,而是著眼於詞與詞之間的空白——語境。”


然而,我們在非結構化資料的分析上取得了一些顯著進步的同時,實際上仍未發揮資訊的全部潛力。在動態資料專家Logtrust最近受委託的451研究中,有反饋的IT經理中有89%表示他們將結構化資料方案在企業中提升到很高的優先順序,然而只有43%的人認為非結構化資料方案有一樣的優先順序。


改變這些態度的關鍵就是資料視覺化。像BrainSpace這樣的公司提供具有參與性、互動性的自動視覺化,但仍有許多未被發現的潛力。洛克希德馬丁的首席資料科學家Walter Storm指出:“技術確實使得非結構化資料更易被分析——一大問題卻是:‘這種分析有什麼用?’ 主題建模、圖表分析、甚至降維和視覺化都有許多藝術可言。有多少特徵?都是些什麼?深網中有多少層?有多少節點?多大的粒寬能展現良好的差異性?第二、第三順序衍生出的特徵空間中相鄰兩者之間的關係是什麼?這種演算法到底剛學習到了什麼?我的假設是什麼來著?”


探索新鮮事物是件很棒的事情,但是如果你不能說服決策者,讓他們相信你想探索的東西確實是存在的,使他們採取合適的行動,那麼這對企業來說就完全沒有意義。資料視覺化是實現這一點最好的方法,它揭示了資料中無法以其它方式來理解的複雜結構。人類大腦處理資訊的方式意味著,通過視覺的方式將它傳達給人們並使得他們參與其中,讓你可以描述出你所發現的模式,甚至可以發現這種模式的洞察。這也能讓更多的人更易理解資料,可能有助於提升整個企業的資料平民化,並帶來更多的洞察。


相較於傳統數字化的資料,非結構化資料視覺化帶來了獨特的挑戰,且仍處於初期階段。在最近舊金山資料視覺化峰會上,通用汽車的資料視覺化專家Ken Cherven使用以往所有國情諮文做了示範。他的示範結果顯示了為什麼視覺化對於理解非結構化資料是非常有必要的,它也為我們提供了激動人心的機會,來創造性地以之前被認為是不可能的方式來展示資訊,併為我們提供從中學習的機會。


注:本文由TalkingData解決方案架構師 張雪倩 編譯,並由TalkingData投遞並授權資料猿釋出,原文作者為James Ovenden


原文連結:

https://channels.theinnovationenterprise.com/articles/why-we-need-data-visualization-to-understand-unstructured-data


640?wx_fmt=jpeg


4月26日-4月27日,AI in China 之智慧製造-資料驅動產業變革-高峰論壇即將開始,期待我們的見面?


640?wx_fmt=gif


640?wx_fmt=jpeg

相關文章