這套取代人的直覺與演算法的系統,優於906個人類團隊中的615個團隊。

1458665921-8604-3417eb9bbd90185aea5117
大資料分析包括尋找有某種預測能力的埋藏模式。但是,選擇哪些資料的“特徵”來進行分析通常需要靠人類的直覺。在一個包含資料庫中,舉個例子,各種促銷和每週的利潤的開始和結束日期,其關鍵資料可能不是日期本身而是它們之間的跨度,或著不是總利潤,但平均跨越這些跨度。

麻省理工學院的研究人員的目標是,用一個不僅能搜尋模式也能設計特徵的新系統把人類元素從大資料分析中剝離出來。為了測試他們系統的第一個原型,他們參加了三個資料科學競賽,它與人類團隊比賽,在不熟悉的資料集中找到預測模式。906個團隊參與了三項比賽,研究人員的“資料科學機器”先於615個團隊完成。

在三項比賽中,資料科學機器的預測的準確率是94%和96%。第三個數字則是一個更為溫和的數字87%。人類的團隊通常需要進行好幾個月的預測演算法,而資料科學機器產生它的每一個條目只花了2-12小時。

“我們把資料科學機器視為人類智慧的自然補充,”Kanter說,他在麻省理工的碩士論文是《資料科學機器的基礎》。“有這麼多的資料需要進行分析。現在它(機器)只是待在那裡沒有做任何事。因此,也許我們可以拿出一個至少讓我們能夠開始著手、讓我們前進的解決方案。”

專案之間

Kanter和他的導師Kalyan Veeramachaneni,麻省理工學院電腦科學和人工智慧實驗室的研究科學家(CSAIL),在他們的論文中描述了資料科學機器,Kanter將在下週的IEEE國際科學資料和先進分析會議上發表。

Veeramachaneni統一領導電腦科學與人工智慧實驗室的所有成員組,在大資料分析的實際問題中採用機器學習技術,如依據風電場場址確定其發電能力或預測學生從線上課程中輟學的風險。

“我們從解決一些工業資料科學問題的經驗中觀察到的是一個非常關鍵的步驟,稱為特徵工程,”Veeramachaneni說。“你要做的第一件事就是把你的資料從資料庫或結構中提取出來,為了做這個,你必須得有很多想法。”

例如,2個關鍵指標被用在預測輟學上:一個學生花多少時間解決一個問題集和一個學生相比他或她的同學花了多少時間在課程網站上。麻省理工學院的線上學習平臺MITx不記錄那些統計數字,但它可以從推斷中收集資料。

1458665921-7776-3417eb9bbd90185aea4916
特色組成

Kanter和Veeramachaneni使用了一些技巧來制定資料分析候選特徵。一種是利用資料庫設計中固有的結構關係。資料庫通常在不同的表中儲存不同型別的資料,使用數字標識表示它們之間的相關性。資料科學機器跟蹤這些相關性,將它們作為一個線索進行功能建設。

例如,一個表可以列出零售專案和它們的成本;另一個表可能包括在個別客戶購買的專案中列出的專案。資料科學機器將從第一個表中的第一個表輸入到第二個。然後,從第二表的關聯的幾個不同的專案中選擇相同的購買數量,它將執行一套操作,以產生候選功能:總成本,每個訂單,每個訂單的平均成本,最低成本,每個訂單,等等。作為跨表格的數字標識,資料科學機器會在各自層的頂端進行相互操作,找到最小的平均值、平均數、和等。

它也尋找所謂的分類資料,這似乎是限制在一個有限的範圍內的值,如一週的天數或品牌名稱。然後,它會依據劃分現有的跨類別的功能產生新的功能。

一旦它生成了一系列的備選項,它會減少它們的數量以確定這些值具有相關性。然後開始測試其樣本資料的簡化特徵,使它們以不同的方式來優化它們預測收益率的準確性。

“資料科學機器是一個令人驚奇的、最前沿的研究解決實際問題的專案,是一種看問題的全新的方式。”Margo Seltzer說到,他是一個沒有參與這項工作的哈佛大學電腦科學教授。“我想他們所做的將迅速成為一種標準——很快就會。”

作者:Larry Hardesty 麻省理工學院新聞辦公室