四說大資料時代“神話”:從大資料到深資料
在機器學習方面始終有個基礎性的誤會,即更大的資料會形成更快的學習效果。殊不知,更大的資料並非意味著能發現更深刻的資訊。事實上,與資料的規模相較,資料的質量、價值和多樣性更最該關注,即資料的“深度”勝於“廣度”。文中從三個角度思索了大資料時代的問題並提出了一些建議的做法以改進這些問題。
現今,人們看待資料理應更為深思熟慮,而不是不加刷選地蒐集全部可獲取的資料來實現“大資料”。我們如今需要讓某些資料落實到位,並搜尋數量和質量的多樣性。這一措施將產生很多長久的利益。
四種大資料神話:
任何資料都能夠而且理應被捕捉和儲存。
大量的資料總是有利於建立更精確的分折模型。
儲存大量資料的成本基本上為零。
計算大量資料的成本基本上為零。
殊不知:
來自物聯網和網路流量的資料明顯超出了人們的捕捉能力。許多資料都需要在抓取時進行預處理便於儲存和監管。人們需要按照其價值對資料做好歸類與篩選。
重複使用一千次同樣的資料開展訓練並不會提升預測模型的精確性。
儲存更多資料的成本不僅是亞馬遜網路服務向您收取的以 TB 計費的美金。同時也包含系統在查尋和監管好幾個資料來源的超額複雜性,及其員工移動和運用該資料的“模擬重量”。這些成本一般高過儲存和計算費用。
人工智慧演算法對計算資源的需求會迅速超過彈性雲基礎設施能夠提供的算力。在沒有專業的管理模式的情形下,計算資源會呈線性增長,而計算需求則會出現超線性增長,乃至指數級增長。
假如輕信了這些神話,你所構築的資訊系統將會看上去會好似紙上談兵,或從長久角度看上去非常好,但在即時性的架構中實現起來則是繁雜且低效的。
四種大資料問題:
重複的資料對模型無益。在為 AI 構建機器學習模型時,訓練樣本的多樣性尤為重要。緣故是模型試圖明確概念界限。比如,假如您的模型試圖通過年紀和職業來界定“退休人員”的概念,那麼像“32 歲的註冊會計師”這樣的重複樣本對該模型並沒什麼價值,因為這些人大也沒有退休。在 65 歲的概念邊界中獲得樣本並掌握退休怎樣隨職業而轉變則更具備價值。
低質量資料會對模型有害。在 AI 試圖學習兩個概念之間邊界的過程中,如果新資料是不精確的,或存在錯誤,那麼它會混淆這個邊界。在這種情況下,更多資料無濟於事,並且還有可能會降低現有模型的準確性。
大資料增加了時間成本。針對不一樣學習演算法,在 TB 級的資料上構建模型將會會比在數 GB 的資料上構建模型多花費約千倍、乃至萬倍的時間。資料科學本就是迅速實驗,雖不完美卻輕量的模型更具備未來趨勢。資料科學一旦失去了速度,則失去了未來。
大資料環境下便於實現的模型。任何預測模型的最後目的都是構建一個可用於商業部署的高度精確的模型。有時使用來自資料庫深處陰暗面的模糊資料將會會產生更高的精確性,但所使用的資料針對實際部署可能是有風險的。應用一個不太準確卻能夠快速部署和執行的模型往往更好。
四種更好的措施
學會在準確性和執行性之前權衡。資料科學家大都喜愛將目標定為更精確的模型。事實上,你理應依據準確性和部署速度,測算合理的 ROI 期待,隨後再開始你的專案。
應用隨機樣本搭建每一模型。如果你已經獲取了大資料,那麼沒理由不採用它。假如能使用好的隨機抽樣方法,那麼你可以先使用小樣本建立模型,隨後在全部資料庫上開展訓練和調節以獲取更精確的預測模型。
丟棄一些資料。倘若你對來源於物聯網設施和其它來源的流資料覺得手足無措,請拋下一些資料,不必有太大的負擔。如果你沒法購買足夠的磁碟來儲存多餘的資料,它會損毀你在電腦科學生產線末期的全部工作。
找尋更多資料來源。人工智慧近期的很多突破並非歸因於更大的資料集,而是能夠將機器學習演算法成功的應用於這些資料,這在以前是沒法實現的。比如,現今普遍存在的大中型文字,影像,視訊和聲頻資料集在20年前並非存在。你理應持續探尋新的資料以找出更好的機會。
相關文章
- 大資料時代,從零學習資料思維大資料
- 大資料時代的資料治理!大資料
- 大資料時代來臨大資料
- 薪資福利上漲龜速——大資料從業者有話說大資料
- 圖資料庫——大資料時代的高鐵資料庫大資料
- 大資料資訊時代,如何防止資料洩露,大資料防洩漏解決方案大資料
- 大資料時代,如何做資料探勘與分析!大資料
- 大資料時代,人人都在談資料視覺化。大資料視覺化
- 大資料四大常識,不會你敢說自己在做大資料?大資料
- GoldenGate實時投遞資料到大資料平臺(7)– Apache HbaseGo大資料Apache
- 大資料時代下如何保障資訊保安?大資料
- Ocient報告:從大資料到超大規模資料集的轉變大資料
- 大資料成神之路大資料
- 大資料如何採集資料?大資料的資料從何而來?大資料
- 阿里巴巴資深大資料工程師:大資料處理實踐阿里大資料工程師
- 大資料時代,我們如此赤裸大資料
- 大資料引領我們走向資料智慧化時代大資料
- 大話 資料入門
- 《大話資料結構》讀後總結(四)資料結構
- 大資料時代之你不得不知道的大資料概念大資料
- 大資料到底怎麼學:資料科學概論與大資料學習誤區大資料資料科學
- 物件代理資料庫:大資料時代下的應需之作物件資料庫大資料
- Bond——大資料時代的資料交換和儲存格式大資料
- 大資料時代,資料倉儲究竟是幹嘛的?大資料
- 白話說大資料演算法C4.5大資料演算法
- AI時代,還不瞭解大資料?AI大資料
- 華為雲大資料輕量級解決方案,讓資料“慧”說話大資料
- 資訊化時代大資料系統整合應用大資料
- 大話 Redis 資料結構Redis資料結構
- 白話大資料 | 從買菜這件小事來聊聊資料倉儲大資料
- 大資料時代我們是否還需要資料庫設計?VG大資料資料庫
- 深入分析大資料時代中的資料倉儲技術大資料
- 大資料時代下,金融行業資料安全防護如何落地?大資料行業
- 大資料這麼火,大資料到底可以用來做什麼?大資料
- 【大資料】大資料行業洞察:未來2-3年或迎資料時代的真正高潮大資料行業
- 大資料的四大特點大資料
- “數智化”時代,掌握資料分析四大要素很重要!
- 在大資料時代如何保護個人資訊保安?大資料