人機協作是如何自動化分類資料

OReillyData發表於2016-08-23

人工智慧的倡導者與以人為中心的方法的支持者之間的爭論其實是一個錯誤的二分法。機器當然可以幫助人們解決面對的問題,但是它們很少能單獨完成任務。為了更有效,機器必須向人類學習與人相關的知識。建立和實現準確的人工智慧系統要求人的知識的輸入。

這並不意味著我們不能從自動化和人工智慧上得到應有的效率優勢。人類的輸入並不需要很多的時間及精力的投入就可以收集到。換句話說,讓機器不通過直接詢問人類問題,但進而回答與人類有關的問題是可能的。比如,谷歌通過觀察人們點選哪些頁面來學習哪些網頁是人們喜歡的。當將這些作為PageRank演算法的輸入的連結推薦時,這些線上資訊的產生者不是有意與谷歌電腦互動,他們是與人類觀眾交流。谷歌只是簡單地進行“偷聽”,就像寶寶通過反覆的聽到許多成年進行的對話來學習她的語言。學習人們的自然模式和被動訊號是計算機獲取有用的知識的最有效的途徑之一。

智慧“竊聽”計算機的角色

在一個組織中,有大量的訊息來源,可以讓一個智慧竊聽計算機能夠學習資料分析師如何與他們的資料庫進行互動,以及它們應該怎麼做:

查詢日誌

許多查詢“對話”都會被儲存在查詢日誌中。一個查詢日誌中的一條記錄可能展示了使用者Jdoe寫了一個查詢用來從一個客戶表與一個事務表的連線中選取一些列,並通過時間進行過濾。這一事件暗示了Jdoe可能知道並且對那兩個表感興趣,以及那些表可以以此種方式進行連線。如果許多不同的使用者針對這些表中的一個進行查詢時,那表示那個表在組織中十分重要。這類資訊對於一個需要加緊熟悉資料環境的新員工以及需要優先排序資料文件的處理是有用的。如果Jdoe針對事務表寫了格外多的查詢,那麼這意味著她可能是這方面的專家。並且如果許多在事務表上執行的查詢包含資料過濾器(並且如果所有不需要幾百小時來執行的查詢會經常被取消),這就是一個明顯的訊號,說明未來的查詢應該包含這個過濾器。日誌包含了豐富的知識,說明重要的是什麼,對誰重要,誰是專家,以及資料應該怎樣優化地被過濾、連線和使用。但前提是你知道如何閱讀這些訊號。

商業智慧工具

另外一種人們與他們的資料進行對話的記錄可以在商業智慧工具中發現。如果我在Tableau的工作簿中製作了一個圖表,其中y軸叫做“收入”,並且我使用事務表中的數量列的總和來計算該值,我就有效地提供了我對收入的定義。一個計算機能夠將這個定義與其他標記為“收入”的軸進行對比,並且應用各種技術來評估這些定義在邏輯上是否等價。

資料血緣繼承

在沒有許多人類輸入的情況下,計算機可以繪製出一個組織中所有資料資產的來源和出處圖,從基本表到產生的報告,以及之間的ETL指令碼和SQL建立語句。那個圖可以用來放大人類的效用。例如,由於腐敗變質是順流而下的,一個重要的來源表報告的資料質量問題能夠成為一個資料質量告警向下傳播到上千個表和報告指標上。

自然語言語料庫

難以理解的欄位名能夠代表資料分析部門面臨的一個主要挑戰。例如Cmply_bin中的bin代表的是什麼?inis_bin 或者 bin_nbr裡又是什麼意思?通過在內部維基或者商業智慧工具中掃描已完成的文件,計算機可以構建一個語言模型,包含可能的候選項:“bin”在A/B測試中是桶的同義詞,或者也可以是單詞“binary”的縮寫,也可以是“Buy it Now”的首字母縮寫。在學習“成人”(與嬰兒的比喻對應)的語法之後,計算機可以生成一個消歧引擎,基於詞的排列搭配和上下文線索。拼寫規則和自然語言處理技術都可以對已有的組織文件中存在的語料庫進行處理。

資料的值

資料的值本身也可以提供豐富的訊號。某些文件中的九位字串看上去可能是社保號碼,特別是那些名字為soc_sec_num, ssn或者scl_scrty_nbr的欄位。通過上面所述的資料的傳承和連線,這些值可以追溯到其他有不太明顯的標籤的欄位。因此,放置在其中一個包含敏感資訊的欄位上的標誌可以傳播到其餘部分,提高了整個資料集的安全性。

有知識的人類訓練師的角色

對於所有的文件來說,從一個可能敏感的資訊的分類到一個欄位名的英語翻譯,再到一個計算(如求和)或一個度量指標(如收入)的對映,計算機可以提供具有相當置信度的猜測,之後具有相關知識的人可以進行確認。這種確認不僅僅是另一個人對其進行標註從而增加可信度,更是在教計算機,使得它對自己未來的猜測更為自信。

許多現代的資料驅動的組織都在積極地生成資料目錄,這是一種綜合性的儲存,包括一個組織中的所有的資料資產,它們的質量和來源,以及它們應該如何使用。只通過人力來試圖建立這種工件在有限的資源下是很難完成的。而完全自動化的專案(例如讓計算機自行抓取資料,不需要人為輸入)通常會帶來不準確和可信度不高的結果。

結論

人類在查詢日誌、BI工具、維基、譜系、資料值這些場景裡,以及它們之間的各種連線時留下了大量的隱藏訊號。通過從中提煉出知識,計算機可以學習一個資料環境,它是如何工作的,以及它過去是如何工作和應該如何工作等等重要資訊,並由此自動化地填充一個資料目錄分類。通過具有相關知識的人的顯式反饋,計算機可以提高資料目錄分類的廣度和精度。

計算機猜測,專家確認,而後計算機再學習,更好的猜測,人類受益。當人與計算機進行協作,我們人類的需要花費的力氣可以被最小化,而我們得到的收益被最大化。這在人和計算機的世界都是最好不過的結果。

 

640?wx_fmt=jpeg

Aaron Kalb

Aaron Kalb的職業生涯致力於改進人機互動,特別是通過自然語言介面。在以符號系統學士和碩士學位畢業離開史丹佛之後,他在蘋果公司從事iOS和Siri的相關工作(做工程、研究和設計先進的開發組-Advanced Development Group)。Aaron是Alation公司的共同創始人,他目前擔任產品主管。Alation提供了第一個企業資料目錄,由機器學習與人協作相結合來進行生成和更新,這目前正幫助像eBay和Safeway這樣的組織來做更多的資料驅動的決策。


相關文章