四說大資料時代“神話”:從大資料到深資料

weixin_33763244發表於2019-04-12

在機器學習方面始終有個基礎性的誤會,即更大的資料會形成更快的學習效果。殊不知,更大的資料並非意味著能發現更深刻的資訊。事實上,與資料的規模相較,資料的質量、價值和多樣性更最該關注,即資料的“深度”勝於“廣度”。文中從三個角度思索了大資料時代的問題並提出了一些建議的做法以改進這些問題。

現今,人們看待資料理應更為深思熟慮,而不是不加刷選地蒐集全部可獲取的資料來實現“大資料”。我們如今需要讓某些資料落實到位,並搜尋數量和質量的多樣性。這一措施將產生很多長久的利益。

四種大資料神話:

任何資料都能夠而且理應被捕捉和儲存。

大量的資料總是有利於建立更精確的分折模型。

儲存大量資料的成本基本上為零。

計算大量資料的成本基本上為零。

殊不知:

來自物聯網和網路流量的資料明顯超出了人們的捕捉能力。許多資料都需要在抓取時進行預處理便於儲存和監管。人們需要按照其價值對資料做好歸類與篩選。

重複使用一千次同樣的資料開展訓練並不會提升預測模型的精確性。

儲存更多資料的成本不僅是亞馬遜網路服務向您收取的以 TB 計費的美金。同時也包含系統在查尋和監管好幾個資料來源的超額複雜性,及其員工移動和運用該資料的“模擬重量”。這些成本一般高過儲存和計算費用。

人工智慧演算法對計算資源的需求會迅速超過彈性雲基礎設施能夠提供的算力。在沒有專業的管理模式的情形下,計算資源會呈線性增長,而計算需求則會出現超線性增長,乃至指數級增長。

假如輕信了這些神話,你所構築的資訊系統將會看上去會好似紙上談兵,或從長久角度看上去非常好,但在即時性的架構中實現起來則是繁雜且低效的。

四種大資料問題:

重複的資料對模型無益。在為 AI 構建機器學習模型時,訓練樣本的多樣性尤為重要。緣故是模型試圖明確概念界限。比如,假如您的模型試圖通過年紀和職業來界定“退休人員”的概念,那麼像“32 歲的註冊會計師”這樣的重複樣本對該模型並沒什麼價值,因為這些人大也沒有退休。在 65 歲的概念邊界中獲得樣本並掌握退休怎樣隨職業而轉變則更具備價值。

低質量資料會對模型有害。在 AI 試圖學習兩個概念之間邊界的過程中,如果新資料是不精確的,或存在錯誤,那麼它會混淆這個邊界。在這種情況下,更多資料無濟於事,並且還有可能會降低現有模型的準確性。

大資料增加了時間成本。針對不一樣學習演算法,在 TB 級的資料上構建模型將會會比在數 GB 的資料上構建模型多花費約千倍、乃至萬倍的時間。資料科學本就是迅速實驗,雖不完美卻輕量的模型更具備未來趨勢。資料科學一旦失去了速度,則失去了未來。

大資料環境下便於實現的模型。任何預測模型的最後目的都是構建一個可用於商業部署的高度精確的模型。有時使用來自資料庫深處陰暗面的模糊資料將會會產生更高的精確性,但所使用的資料針對實際部署可能是有風險的。應用一個不太準確卻能夠快速部署和執行的模型往往更好。

四種更好的措施

學會在準確性和執行性之前權衡。資料科學家大都喜愛將目標定為更精確的模型。事實上,你理應依據準確性和部署速度,測算合理的 ROI 期待,隨後再開始你的專案。

應用隨機樣本搭建每一模型。如果你已經獲取了大資料,那麼沒理由不採用它。假如能使用好的隨機抽樣方法,那麼你可以先使用小樣本建立模型,隨後在全部資料庫上開展訓練和調節以獲取更精確的預測模型。

丟棄一些資料。倘若你對來源於物聯網設施和其它來源的流資料覺得手足無措,請拋下一些資料,不必有太大的負擔。如果你沒法購買足夠的磁碟來儲存多餘的資料,它會損毀你在電腦科學生產線末期的全部工作。

找尋更多資料來源。人工智慧近期的很多突破並非歸因於更大的資料集,而是能夠將機器學習演算法成功的應用於這些資料,這在以前是沒法實現的。比如,現今普遍存在的大中型文字,影像,視訊和聲頻資料集在20年前並非存在。你理應持續探尋新的資料以找出更好的機會。

相關文章