MIT、浙大等打造AutoML視覺化工具:模型自選、超引數自調

dicksonjyl560101發表於2019-06-06


MIT、浙大等打造AutoML視覺化工具:模型自選、超引數自調

【新智元導讀】 MIT、香港科技大學和浙江大學的研究人員開發了一種互動式工具,首次實現讓使用者對自動化機器學習(AutoML)系統的工作方式和流程進行檢視和控制,提高系統定製化程度,向開啟機器學習“黑盒子”的目標邁進了一大步。

為特定任務設計機器學習模型(如影像分類,疾病診斷和股市預測等)是一個艱鉅而耗時的過程。研究人員首先要從多種不同的演算法中進行選擇來構建模型。然後在模型開始訓練之前,手動調整“超引數”,確定模型的整體結構。

近期出現的自動機器學習(AutoML)系統可以對演算法和超引數進行迭代式的測試和修改,並在此過程中選擇最適合的模型。但系統的執行機制是不透明的,相當於一個“黑盒子”,也就是說系統選擇了什麼技術、什麼模型,使用者是看不見的。因此,使用者就可能不信任模型給出的結果,而且很難根據自己的搜尋需求來對系統進行定製。

定製化AutoML工具:模型自選,超引數自調

近日,在ACM CHI計算系統中人的因素會議上,麻省理工學院,香港科技大學和浙江大學的研究人員共同研發出一種工具, 將AutoML方法的分析和控制權給到使用者手中。

MIT、浙大等打造AutoML視覺化工具:模型自選、超引數自調

該工具名為ATMSeer,它將AutoML系統、資料集和有關使用者任務的一些資訊作為輸入,然後在使用者友好型的介面內實現視覺化搜尋過程,介面中還能提供更多關於模型效能的深入資訊。

“使用ATMSeer,使用者可以自己選擇和觀察AutoML系統是如何工作的,”該研究論文的共同作者之一Kalyan Veeramachaneni說道,他是麻省理工學院資訊與決策系統實驗室(LIDS)的首席研究科學家,負責將資料引入AI團隊。 “使用者可以只選擇一些效能最好的模型,或者結合其他因素或某些領域的專業知識,來指導AutoML系統去搜尋某些特定模型。”

在對AutoML新手的案例研究中,研究人員發現大約85%使用ATMSeer的人對系統選擇的模型充滿信心。幾乎所有參與者都表示,該工具讓使用AutoML系統變得更舒服了。

ATMSeer會生成一個使用者友好的介面,顯示有關所選模型效能的深入資訊,以及可調整的演算法和引數的選項。

MIT、浙大等打造AutoML視覺化工具:模型自選、超引數自調

ATMSeer自動機器學習定製化工具的使用者友好型互動介面

“資料視覺化是實現人與機器之間更好協作的有效方法。ATMSeer體現了這一理念, ”論文合作者之一、香港科技大學的Wang Qianwen說。 “ATMSeer主要會讓機器學習從業者受益,無論他們從事什麼領域,專業水平如何,都能獲益。ATMSeer可以緩解手動選擇機器學習演算法和調整超引數的不便。”

便捷視覺化工具實現“可視即可調”

ATMSeer工具的核心是一款定製的AutoML系統 ,名為“自動調整模型”(ATM),由Veeramachaneni等研究人員在2017年開發。與傳統的AutoML系統不同的是,ATM在嘗試擬合模型時會對所有搜尋結果進行完整的編目。

ATM將任何資料集和編碼預測任務作為輸入。系統隨機選擇演算法類別 ,比如神經網路,決策樹、隨機森林和邏輯迴歸, 並選擇模型的超引數, 如決策樹的大小或神經網路層數等。

然後,系統針對資料集執行模型,迭代式調整超引數,並衡量模型效能。ATM利用掌握到了模型效能來選擇另一個模型。最後,由系統針對任務輸出幾個表現最理想的模型。

訣竅在於, 每個模型基本上可以被視為帶有一系列變數的資料點:這裡說的變數包含演算法,超引數和效能。 在此基礎上,研究人員設計了一套系統,在指定的圖形和圖表上繪製資料點和變數。以此為起點,開發了一系列新技術,能夠實時重新配置資料。 “亮點在於,使用這些工具, 你能夠視覺化的任何東西,都可以修改。 ”史密斯說。

類似的視覺化工具專門用於分析一種特定的機器學習模型,並能夠在有限的搜尋空間內實現定製化。“因此,這些工具可以為分析和觀察AutoML的執行流程提供了有限的支援,還需要對許多搜尋模型的配置進行分析。相比之下,ATMSeer支援分析使用各種演算法生成的機器學習模型。”

將AutoML控制權交給使用者,使用體驗和信心明顯提升

ATMSeer的視覺化介面由三部分組成。使用者可以透過控制皮膚上傳資料集和AutoML系統,並啟動或暫停搜尋過程。下圖是一個概覽皮膚,顯示了基本統計資料,如搜尋的演算法和超引數的數量,還有按降序排列的最佳模型的“排行榜”。Veeramachaneni表示:“如果你不是特別在意技術細節的專家,這可能是你最感興趣的點。”

ATMSeer包含一個“AutoML Profiler”,其中的皮膚包含有關演算法和超引數的深入資訊,這些資訊都可以進行調整。皮膚可以將所有演算法類別表示為直方圖形式,用條形圖顯示演算法效能分數的分佈,範圍為0到10,具體取決於其超引數。用一個單獨的皮膚呈現散點圖,顯示不同超引數和演算法型別的效能折衷。

對沒有AutoML經驗的機器學習專家的案例研究表明,讓使用者掌握控制權確實有助於提高AutoML應用的效能和效率。對生物學、金融等不同科學領域的13位研究生的研究也表明,確定使用者對AutoML的搜尋的自定義關鍵有三點:搜尋的演算法數量、系統執行時間以及查詢表現最好的模型。研究人員表示,這些資訊可用來為使用者量身定製系統。

研究人員表示,目前對AutoML的應用缺乏足夠的靈活性。“現在所有這些資訊都集中在一個地方,如果人們能夠清楚看到幕後發生的事情,有能力控制這些流程,未來對AutoML的應用將跨入一個嶄新的階段。”

參考連結:

論文連結:


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/29829936/viewspace-2646902/,如需轉載,請註明出處,否則將追究法律責任。

相關文章