解決AI的小資料問題
解決AI的小資料問題
對深度學習演算法,如果沒有足夠多的資料進行訓練,有兩種方法可以解決這個問題:生成合成資料,或者開發可利用小資料展開工作的 AI 模型。
眾所周知,深度學習需要資料,其模型訓練都是在大量標記資料的基礎上進行的,比如,利用數以百萬計的動物標記影像訓練 AI 學會識別。但大量標記資料對某些應用來說並不適用,在這種情況下,從頭開始訓練一個 AI 模型,即使可能,也充滿了困難。
一個潛在的解決方案是用合成資料擴充真實資料集。這在自動駕駛領域得到了廣泛的應用。自動駕駛汽車在逼真的模擬環境中行駛數百萬英里,會面臨暴風雪以及行人突發行為等各種情況,而針對這些情況,我們很難獲取到真實資料。
圍繞資料問題的另一種解決方案是開發能夠基於小資料集進行學習的 AI 模型。一種名為遷移學習(transfer learning)的方法已在計算機視覺任務中得到應用。該方法使用預先訓練的 AI 演算法來執行一個有大量標記資料的任務(如識別影像中的汽車),然後將該知識轉移到另一個資料很少的不同任務上(如識別卡車)。使用預先訓練的模型就像包餃子時使用現成的餃子皮,免去了和麵的步驟。
雖然預先訓練的模型在計算機視覺領域已經取得了長足的發展,但在自然語言處理(NLP)領域,由於缺乏標記資料,到目前為止,一直是一項極具挑戰的工作。不過,一種名為自我監督預訓練(self-supervised pre-training)的方法在自然語言處理領域中逐漸流行起來。
所謂自我監督預訓練,首先要根據網路上的大量資料訓練 AI 模型。例如,OpenAI 進行了一項計算極其密集的任務:用 800 萬個網頁作為訓練資料,訓練一個基於給定文字預測下一文字詞彙的 AI 模型。這一方法被稱為自我監督學習,因為這裡不涉及“標籤”:AI 透過基於句子中的其他單詞預測一個隱藏的單詞來學習語言。
另一個典型的例子是谷歌 BERT,其 AI 語言模型不僅可以根據前文內容進行預測,還可以基於後文展開,也就是說該模型採用了雙向語言模型的方式,能夠更好的融合前後文的知識。
由 Yann LeCun 領導的 Facebook AI 研究部門一直都看好自我監督。比如,他們首先會訓練出一個語言模型(類似上文),然後進行預訓練,並對其進行微調以進行仇恨言論的識別。
最近,Facebook 還開源了其自我監督語音識別模型,很好地解決了小型研究專案對人工標記文字的需求問題。非英語語言的標註訓練資料往往數量有限,針對這個問題, Facebook 開源了程式碼 wav2vec,這對非英語語言的語音識別尤其有用。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69946223/viewspace-2675284/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 解碼智慧治理 用大資料解決民生小問題大資料
- 解決hive資料庫 插入資料很慢的問題Hive資料庫
- AI|經常崩潰的問題解決AI
- 臭名昭著的資料清理和準備問題,如何利用AI完美解決?AI
- 資料倉儲的效能問題及解決之道
- 資料庫層面問題解決思路資料庫
- sbt配置——資料來源問題解決
- 使用AI和LiDAR標註來解決道路擁堵問題 | 資料標註AI
- 使用 Intellij IDEA 解決 Java 8 的資料流問題IntelliJIdeaJava
- 資料編號+1 併發問題解決
- SqlServer資料庫中文亂碼問題解決SQLServer資料庫
- 【Spark篇】---Spark解決資料傾斜問題Spark
- 10款解決數學問題的最佳AI工具AI
- DataPipeline CTO陳肅:從ETL到ELT,AI時代資料整合的問題與解決方案APIAI
- 解決資料庫高併發訪問瓶頸問題資料庫
- SSM解決中文存入資料庫亂碼問題(記錄自己的問題)SSM資料庫
- 徹底解決Hive小檔案問題Hive
- 微信小程式支付全問題解決微信小程式
- 嘗試解決微信小程式分頁最後setData資料太大限制的問題微信小程式
- 資料併發操作帶的的問題及解決辦法
- Windows共享資料夾常見問題解決方法Windows
- Swoole - TCP流資料邊界問題解決方案TCP
- 安裝mysql資料庫及問題解決方法MySql資料庫
- 從小眾到火爆,圖資料庫能為我們解決什麼問題?資料庫
- 【資料庫】解決Mysql資料庫提示innodb表不存在的問題!資料庫MySql
- AI 閘道器零程式碼解決 AI 幻覺問題AI
- 解決pl/sql developer中資料庫插入資料亂碼問題SQLDeveloper資料庫
- 解決 Unexpectedlexicaldeclarationincaseblock的問題BloC
- 解決 PbootCMS 搜尋未搜尋到任何資料的問題boot
- 介面測試時依賴前置資料的問題解決了...
- 資料庫連結時的時區問題serverTimezone永久解決資料庫Server
- 解決PHP Post獲取不到非表單資料的問題PHP
- Vuex持久化外掛-解決重新整理資料消失的問題Vue持久化
- 解決python3 json資料包含中文的讀寫問題PythonJSON
- 解決資料災難需要回答的十個問題
- 解決Mysql資料庫插入資料出現問號(?)的解決辦法MySql資料庫
- 去水印小程式downloadFile域名問題解決方式
- 解決小程式遮罩層滾動穿透問題遮罩穿透