AI賦能版Excel: 龐大資料,一鍵分析

微軟研究院AI頭條發表於2017-12-15

mmbizgif?wxfrom=5&wx_lazy=1


編者按:在昨天的《微軟Everyday AI釋出會:四大工具把AI帶到你身邊》中,我們給大家留下了一個小懸念:Excel的具體更新情況是什麼?鐺鐺鐺鐺!今天懸念揭曉!我們邀請到了Excel新功能Insights in Excel的幕後的核心技術研發團隊——微軟亞洲研究員軟體分析組為我們詳細解說這一AI賦能版Excel的新功能和相應的技術支援。又是一個漲姿勢的好機會哦!


電子表格無論在專業領域還是在日常生活中都是一種廣泛使用的重要資料形式,對於Excel這一“裝機必備”的電子表格處理軟體相信大家都不陌生。繁雜龐大的電子表格資料在Excel各種強大功能的幫助下都可以變得條理清晰,給我們的工作和生活帶來了極大的便利。


就在前天,微軟Office 365釋出了Excel新的預覽版, 該版本引入了Insights in Excel功能,只需要用Excel開啟電子表格並點選Insights按鈕,機器就能夠在短時間內自動分析表格資料、捕捉資料之間的關聯、挖掘資料中蘊含的洞見、並推薦簡潔明瞭的圖文分析結果。該功能背後的核心技術來自於微軟亞洲研究院軟體分析組。而這也是繼PowerPoint Designer功能之後,微軟再次將人工智慧應用到Office軟體中。


以後我們就能“一鍵變懶”啦!驚喜不驚喜?意外不意外?


640.png?wxfrom=5&wx_lazy=1

Insights in Excel:自動發現資料中的洞見


現有的Excel已經具有強大的功能,可以幫助使用者進行資料加工、計算和基本的統計分析,從而把原始資料製作成面向使用者友好的、有利於高效資訊展示的電子表格。然而製作成電子表格並不是資料處理和分析的全部,甚至只是一個開始。


試想在一個典型的Excel文件中,電子表格可以包含很多行或很多列(資料維度),不同維度之間可以包含不同型別、不同語義的資料,表面上看只是密密麻麻縱橫交錯的時間、文字和數字,而大量潛在的洞見恰恰隱藏在眾多維度的資料及其子集所組合成的巨大的資訊空間裡。比如在一份包含了主要汽車品牌近幾年銷售詳情的電子表格中,某個品牌的某種車型在某地區的銷售趨勢與其他品牌同車型在相同地區的銷售趨勢有很大差異,這就是一種深藏在資料當中的洞見。


在電子表格的製作、編輯或瀏覽的互動式過程當中,及時地發現這種有價值的洞見,並以簡潔明瞭的圖文形式插入到當前電子表格中並儲存或分享出去,是對Excel工具以及資料智慧化的一種革命性提升。這就是Insights in Excel的核心理念和功能。

0?wx_fmt=gif

 Insights in Excel功能演示動畫


640.png?

智慧分析背後的挑戰與技術突破


然而,洞見的隱藏性以及其分佈在巨大資訊空間中的稀疏性,決定了發現這些洞見是人類使用者手動分析所不能及的;即便依靠機器強大的運算能力,想在互動式資料處理的短時間內挖掘出大量有用的洞見,也要依賴高度智慧化的演算法並結合資料分析的大量領域知識。


同時,電子表格具有其領域獨有的資料特點。直觀地講,使用者在設計和製作電子表格的時候,通常會以方便人類閱讀和理解為準則,比如採用交叉或排比化的表格佈局以方便資料定位和比較、插入空白行或列以方便視覺上的整齊和對照、將大的表格拆分成若干小表格以方便分別審閱、在表格周圍新增標題或註腳以做進一步說明等等。但是,這些面向人類使用者友好的特點對於機器來說反而是很不友好的,甚至每一個都能成為巨大的挑戰。因為對於機器來講,統一的資料格式和規範才最有利於自動化批量處理,而電子表格資料通常不滿足這樣的要求,於是就需要智慧化的演算法幫助機器從各式各樣的電子表格中準確高效地提取和轉化出資料,以進行後續的自動化洞見分析。


這項智慧化功能背後的諸多挑戰可以歸結為如下兩大技術模組去解決:Spreadsheet Intelligence(智慧化表格認知)和Auto Insights(自動化洞見分析)。


Spreadsheet Intelligence包括表格檢測(表格在哪裡?除去標題和註腳,表格邊界從哪裡到哪裡?)、結構識別(表格內部是什麼佈局?哪部分是表頭?哪部分是資料?哪些資料屬於同一維度?等等)、後設資料識別(每個維度各是什麼資料型別?有沒有時間序列?聚集函式應該選求和還是取平均?等等)。在研發階段,研究團隊基於大規模訓練樣本,嘗試了多種機器學習和深度學習模型,並有效地將機器學習模型與高效率的啟發式規則結合起來,將最實用的技術轉化到產品中去。經過了Spreadsheet Intelligence技術處理之後,電子表格的資料就可以被轉化為類似於資料庫中的規範化資料以能被機器正確地解讀,再傳送給後續的Auto Insights技術進行自動化洞見分析。


Auto Insights包括以下四個核心問題:


1、洞見(Insight)的泛化定義及形式化闡述;


2、跨型別可比較的、且可推廣到尚未支援的新型別上的洞見打分模型;


3、高度優化的洞見搜尋框架;


4、洞見結果的有機組織和去冗餘。


通過資料中提供的量化指標刻畫的一個或多個具備語義含義的資料子集,如果它們的指標在平凡的假設下具有顯著的統計特性,那麼這就構成了一個洞見。比如一個壟斷的市場在市場份額服從冪律分佈的假設下可以是顯著的,再比如一個具有明顯週期性的銷售額曲線在無週期訊號的假設下可以是顯著的,等等,這些都是洞見的例子。那麼人們自然會想,一個壟斷市場洞見和一個週期性銷售洞見,哪個應該打更高的分數來表示更有價值呢?


對背後打分模型的一種近似但直觀的解讀包含以下兩個主要因素:影響力(Impact)和顯著性(Significance)。一個洞見的影響力可以直觀地近似理解為其資料主體在整個資料集中佔有的分量,而顯著性用來刻畫其資料主體的量化指標偏離平凡情況的程度。由於這兩個因素都是歸一化的且具備單調性,因此融合了這兩個因素的打分模型可以對不同型別的洞見進行公平的打分比較,而且可以推廣到尚未支援的更多的洞見型別。Auto Insights的相關工作已經在今年5月份發表在資料庫領域頂級會議SIGMOD 2017的論文集裡,下圖就摘選自該論文《Extracting Top-K Insights from Multi-dimensional Data 》中闡述顯著性的部分。


論文連結:http://dl.acm.org/authorize?N37708


0?wx_fmt=png洞見打分模型中的顯著性模型示意圖


0?wx_fmt=png

不忘初心,砥礪前行


Insights in Excel的誕生離不開微軟亞洲研究院軟體分析組和Excel產品部門的共同努力。在此之前,軟體分析組就曾和微軟Power BI產品團隊合力將Auto Insights研究成果轉化成了Power BI 的一系列“快速洞察”(Quick Insights)功能。從今年3月份起,軟體分析組的研究團隊針對電子表格資料的特點,對Spreadsheet Intelligence進行技術攻關,僅用了短短九個月的時間,就讓Excel邁出了資料分析智慧化的第一步。相信在未來,軟體分析組與產品團隊的攜手並進,將為大家提供最高效的分析工具,讓資料分析變得更直觀、快速,互動性和洞察性更強。

0?wx_fmt=jpegInsights in Excel幕後研發團隊——微軟亞洲研究院軟體分析組成員


我們也希望在不久的將來,加入人工智慧技術的Office軟體可以為大家提供更有效的幫助,減輕大家的工作負擔,共享輕鬆、高效的生活。


本次Excel預覽版將於本月向Office預覽體驗成員推送,一起來感受一下“進階版”Excel的魅力吧!


點選“閱讀原文”,檢視論文


你也許還想


● 微軟Power BI:幫使用者發現資料洞察

● 成為資料專家,你只差一個Quick Insights的距離

● 微軟Everyday AI釋出會:四大工具把AI帶到你身邊


640.png?

感謝你關注“微軟研究院AI頭條”,我們期待你的留言和投稿,共建交流平臺。來稿請寄:msraai@microsoft.com。


640.jpeg?


相關文章