使用 AutoNLP 和 Prodigy 進行主動學習 - huggingface
機器學習中的主動學習是一個過程,在該過程中您可以迭代地新增標記資料、重新訓練模型並將其提供給終端使用者。這是一個永無止境的過程,需要人工互動來標記/建立資料。在本文中,我們將討論如何使用AutoNLP和Prodigy構建主動學習管道。
AutoNLP和Prodigy
AutoNLP是 Hugging Face 建立的框架,可幫助您在自己的資料集上構建自己的最先進的深度學習模型,幾乎無需編碼。AutoNLP 建立在 Hugging Face 的轉換器、資料集、推理 API和許多其他工具的巨大肩膀上。
使用 AutoNLP,您可以在您自己的自定義資料集上訓練 SOTA 變換器模型,對其進行微調(自動)並將其提供給終端使用者。使用 AutoNLP 訓練的所有模型都是最先進的並且可以投入生產。
在撰寫本文時,AutoNLP 支援諸如二元分類、迴歸、多類分類、標記分類(例如命名實體識別或詞性)、問答、摘要等任務。您可以在此處找到所有受支援任務的列表。AutoNLP 支援英語、法語、德語、西班牙語、印地語、荷蘭語、瑞典語等語言。還支援帶有自定義標記器的自定義模型(以防 AutoNLP 不支援您的語言)。
Prodigy是由 Explosion(spaCy的製造商)開發的註釋工具。它是一種基於 Web 的工具,可讓您實時註釋資料。Prodigy 支援命名實體識別 (NER) 和文字分類等 NLP 任務,但不限於 NLP!它支援計算機視覺任務,甚至可以建立您自己的任務!您可以嘗試 Prodigy 演示:這裡。
請注意,Prodigy 是一種商業工具。您可以在此處瞭解更多資訊。
我們選擇 Prodigy 是因為它是最流行的資料標記工具之一,並且可以無限定製。它也很容易設定和使用。
。。。
結論
模型之所以是最先進的,是因為訓練它們的資料。
更多的相關資料將產生更好的模型,從而產生更好的結果。透過這個實驗,我們成功地建立了一個模型,它不僅可以對新聞文章中的實體進行分類,還可以對它們進行分類。使用 Prodigy 和 AutoNLP 之類的工具,我們投入了時間和精力來標記資料集(即使透過 Prodigy 提供的介面變得更簡單)。AutoNLP 為我們節省了大量時間和精力:我們不必弄清楚要使用哪些模型、如何訓練它們、如何評估它們、如何調整引數、使用哪個最佳化器和排程器、預處理、後處理等。我們只需要標記資料集,讓 AutoNLP 做其他一切。
我們相信使用 AutoNLP 和 Prodigy 等工具可以非常輕鬆地建立資料和最先進的模型。而且由於整個過程幾乎不需要編碼,即使是沒有編碼背景的人也可以建立通常不向公眾開放的資料集,使用 AutoNLP 訓練他們自己的模型並與社群中的其他人分享模型(或者只是使用他們用於自己的研究/業務)。
詳情點選標題
相關文章
- 使用Mobilenet和Keras進行遷移學習!Keras遷移學習
- 使用PyTorch進行主動遷移學習:讓模型預測自身的錯誤PyTorch遷移學習模型
- 使用 SVM 和決策樹進行整合學習
- Huggingface使用
- 主動學習年度進展|VALSE2018
- 「AutoML」啟用函式如何進行自動學習和配置TOML函式
- 類的主動使用和被動使用
- 使用Gensim進行主題建模(二)
- 使用Gensim進行主題建模(一)
- (資料科學學習手札159)使用ruff對Python程式碼進行自動美化資料科學Python
- 「AutoML」如何使用強化學習進行模型剪枝?TOML強化學習模型
- 【2】使用MATLAB進行機器學習(迴歸)Matlab機器學習
- 【MongoDB學習筆記】-使用 MongoDB 進行 CRUD 操作(下)MongoDB筆記
- 【MongoDB學習筆記】-使用 MongoDB 進行 CRUD 操作(上)MongoDB筆記
- 使用Keras進行深度學習:(六)LSTM和雙向LSTM講解及實踐Keras深度學習
- shiro入門學習--使用MD5和salt進行加密|練氣後期加密
- 使用Keras進行深度學習:(五)RNN和雙向RNN講解及實踐Keras深度學習RNN
- Qt學習第四篇(主視窗和ui的使用)QTUI
- 心智閱讀系列:如何主動學習
- (資料科學學習手札93)利用geopandas與PostGIS進行互動資料科學
- 機器學習-無監督學習(人臉識別,使用NMF進行特徵提取)機器學習特徵
- 使用Docker進行Redis主從複製實踐DockerRedis
- 4_關於類的主動使用和被動使用
- HuggingFace TransformersORM
- 使用vCenter對ESXi主機進行補丁升級
- Python機器學習筆記:使用Keras進行迴歸預測Python機器學習筆記Keras
- 如何使用機器學習進行影像識別 | 資料標註機器學習
- 【譯】使用 ML.NET 進行機器學習 - 叢集完整指南機器學習
- Blazor和Vue對比學習(進階2.1.1):生命週期,基本理解和使用BlazorVue
- Blazor和Vue對比學習(進階.路由導航一):基本使用BlazorVue路由
- React使用axios的post方式和後端進行資料互動ReactiOS後端
- 【PWA學習與實踐】(7)使用Notification API來進行訊息提醒API
- COVID-19:利用Opencv, Keras/Tensorflow和深度學習進行口罩檢測OpenCVKeras深度學習
- 如何為機器學習進行資料標籤、版本控制和管理機器學習
- 用Python進行機器學習(附程式碼、學習資源)Python機器學習
- 使用 PostMan 進行自動化測試Postman
- 使用PostMan進行自動化測試Postman
- 使用 nuxi generate 進行預渲染和部署UX