解決AI的小資料問題
解決AI的小資料問題
對深度學習演算法,如果沒有足夠多的資料進行訓練,有兩種方法可以解決這個問題:生成合成資料,或者開發可利用小資料展開工作的 AI 模型。
眾所周知,深度學習需要資料,其模型訓練都是在大量標記資料的基礎上進行的,比如,利用數以百萬計的動物標記影像訓練 AI 學會識別。但大量標記資料對某些應用來說並不適用,在這種情況下,從頭開始訓練一個 AI 模型,即使可能,也充滿了困難。
一個潛在的解決方案是用合成資料擴充真實資料集。這在自動駕駛領域得到了廣泛的應用。自動駕駛汽車在逼真的模擬環境中行駛數百萬英里,會面臨暴風雪以及行人突發行為等各種情況,而針對這些情況,我們很難獲取到真實資料。
圍繞資料問題的另一種解決方案是開發能夠基於小資料集進行學習的 AI 模型。一種名為遷移學習(transfer learning)的方法已在計算機視覺任務中得到應用。該方法使用預先訓練的 AI 演算法來執行一個有大量標記資料的任務(如識別影像中的汽車),然後將該知識轉移到另一個資料很少的不同任務上(如識別卡車)。使用預先訓練的模型就像包餃子時使用現成的餃子皮,免去了和麵的步驟。
雖然預先訓練的模型在計算機視覺領域已經取得了長足的發展,但在自然語言處理(NLP)領域,由於缺乏標記資料,到目前為止,一直是一項極具挑戰的工作。不過,一種名為自我監督預訓練(self-supervised pre-training)的方法在自然語言處理領域中逐漸流行起來。
所謂自我監督預訓練,首先要根據網路上的大量資料訓練 AI 模型。例如,OpenAI 進行了一項計算極其密集的任務:用 800 萬個網頁作為訓練資料,訓練一個基於給定文字預測下一文字詞彙的 AI 模型。這一方法被稱為自我監督學習,因為這裡不涉及“標籤”:AI 透過基於句子中的其他單詞預測一個隱藏的單詞來學習語言。
另一個典型的例子是谷歌 BERT,其 AI 語言模型不僅可以根據前文內容進行預測,還可以基於後文展開,也就是說該模型採用了雙向語言模型的方式,能夠更好的融合前後文的知識。
由 Yann LeCun 領導的 Facebook AI 研究部門一直都看好自我監督。比如,他們首先會訓練出一個語言模型(類似上文),然後進行預訓練,並對其進行微調以進行仇恨言論的識別。
最近,Facebook 還開源了其自我監督語音識別模型,很好地解決了小型研究專案對人工標記文字的需求問題。非英語語言的標註訓練資料往往數量有限,針對這個問題, Facebook 開源了程式碼 wav2vec,這對非英語語言的語音識別尤其有用。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69946223/viewspace-2675284/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 解碼智慧治理 用大資料解決民生小問題大資料
- 2017開發者盤點:是我在解決AI的問題,不是AI解決我的問題AI
- 解決hive資料庫 插入資料很慢的問題Hive資料庫
- 一個小問題的解決方案
- AI|經常崩潰的問題解決AI
- 臭名昭著的資料清理和準備問題,如何利用AI完美解決?AI
- 解決兩相同資料庫資料同步的問題 (轉)資料庫
- 解決Gson解析Date資料格式的問題
- 解決被掛起的資料庫問題資料庫
- zabbix 小問題解決彙總
- 安裝資料庫和資料庫解決問題資料庫
- 資料庫層面問題解決思路資料庫
- sbt配置——資料來源問題解決
- 資料探勘主要解決四類問題
- 使用bulkCollect解決資料遷移問題
- 資料倉儲的效能問題及解決之道
- 微信小程式支付全問題解決微信小程式
- 10款解決數學問題的最佳AI工具AI
- 解決「問題」,不要解決問題
- 嘗試解決微信小程式分頁最後setData資料太大限制的問題微信小程式
- 解決memory_target設定過小導致不能啟動資料庫的問題資料庫
- 資料編號+1 併發問題解決
- SqlServer資料庫中文亂碼問題解決SQLServer資料庫
- 【Spark篇】---Spark解決資料傾斜問題Spark
- oracle 資料庫解決問題思路總結Oracle資料庫
- 使用AI和LiDAR標註來解決道路擁堵問題 | 資料標註AI
- junit測試出現的小問題解決方案
- 一個使用SQL語句解決的小問題SQL
- Laravel5的資料庫表建立問題 資料庫遷移操作報錯問題解決Laravel資料庫
- 徹底解決Hive小檔案問題Hive
- AI 閘道器零程式碼解決 AI 幻覺問題AI
- 從小眾到火爆,圖資料庫能為我們解決什麼問題?資料庫
- 解決資料庫高併發訪問瓶頸問題資料庫
- DataPipeline CTO陳肅:從ETL到ELT,AI時代資料整合的問題與解決方案APIAI
- SSM解決中文存入資料庫亂碼問題(記錄自己的問題)SSM資料庫
- 解決latch free問題的資料庫引數調整資料庫
- Swoole - TCP流資料邊界問題解決方案TCP
- 基於vue解決大資料表格卡頓問題Vue大資料