使用 AutoNLP 和 Prodigy 進行主動學習 - huggingface

banq發表於2022-01-01

機器學習中的主動學習是一個過程,在該過程中您可以迭代地新增標記資料、重新訓練模型並將其提供給終端使用者。這是一個永無止境的過程,需要人工互動來標記/建立資料。在本文中,我們將討論如何使用AutoNLPProdigy構建主動學習管道。
 

AutoNLP和Prodigy

AutoNLP是 Hugging Face 建立的框架,可幫助您在自己的資料集上構建自己的最先進的深度學習模型,幾乎無需編碼。AutoNLP 建立在 Hugging Face 的轉換器資料集推理 API和許多其他工具的巨大肩膀上。
使用 AutoNLP,您可以在您自己的自定義資料集上訓練 SOTA 變換器模型,對其進行微調(自動)並將其提供給終端使用者。使用 AutoNLP 訓練的所有模型都是最先進的並且可以投入生產。
在撰寫本文時,AutoNLP 支援諸如二元分類、迴歸、多類分類、標記分類(例如命名實體識別或詞性)、問答、摘要等任務。您可以在此處找到所有受支援任務的列表。AutoNLP 支援英語、法語、德語、西班牙語、印地語、荷蘭語、瑞典語等語言。還支援帶有自定義標記器的自定義模型(以防 AutoNLP 不支援您的語言)。
 

Prodigy是由 Explosion(spaCy的製造商)開發的註釋工具。它是一種基於 Web 的工具,可讓您實時註釋資料。Prodigy 支援命名實體識別 (NER) 和文字分類等 NLP 任務,但不限於 NLP!它支援計算機視覺任務,甚至可以建立您自己的任務!您可以嘗試 Prodigy 演示:這裡
請注意,Prodigy 是一種商業工具。您可以在此處瞭解更多資訊。
我們選擇 Prodigy 是因為它是最流行的資料標記工具之一,並且可以無限定製。它也很容易設定和使用。
 
。。。

結論
模型之所以是最先進的,是因為訓練它們的資料。
更多的相關資料將產生更好的模型,從而產生更好的結果。透過這個實驗,我們成功地建立了一個模型,它不僅可以對新聞文章中的實體進行分類,還可以對它們進行分類。使用 Prodigy 和 AutoNLP 之類的工具,我們投入了時間和精力來標記資料集(即使透過 Prodigy 提供的介面變得更簡單)。AutoNLP 為我們節省了大量時間和精力:我們不必弄清楚要使用哪些模型、如何訓練它們、如何評估它們、如何調整引數、使用哪個最佳化器和排程器、預處理、後處理等。我們只需要標記資料集,讓 AutoNLP 做其他一切。
我們相信使用 AutoNLP 和 Prodigy 等工具可以非常輕鬆地建立資料和最先進的模型。而且由於整個過程幾乎不需要編碼,即使是沒有編碼背景的人也可以建立通常不向公眾開放的資料集,使用 AutoNLP 訓練他們自己的模型並與社群中的其他人分享模型(或者只是使用他們用於自己的研究/業務)。
詳情點選標題

相關文章