本文由 「AI前線」原創,原文連結:手把手教你快速構建自定義分類器
作者|Shashank Gupta
譯者|劉志勇
編輯|Emily
AI 前線導讀:”對於資料探勘來說,分類是一種非常重要的方法。分類器就是在已有資料的基礎上學會一個分類函式或者構建出的一個分類模型。這個函式或模型能夠把資料庫中的資料記錄對映到給定類別中的某一個,從而可以應用資料預測。今天,AI 前線就給大家帶來了由 Towards Data Science 的 Shashank Gupta 撰寫的一篇文章,題為《介紹自定義分類器——在沒有任何培訓資料的情況下構建自己的文字分類模型 》(Introducing Custom Classifier — Build Your Own Text Classification Model Without Any Training Data)[1],給大家介紹瞭如何利用 ParallelDots 公司提供的 AI 驅動的 Web 服務,在沒有任何訓練資料的情況下,快速構建屬於自己的文字分類器。”
介紹
機器學習最成功的範例之一是監督學習(supervised learning),它允許您通過從大量訓練例項中學習來構建泛化模型。監督學習廣泛應用於自然語言處理(Natural Language Processing,NLP),構建多類或多標籤的文字分類器,用於解決垃圾郵件檢測、情感分析、表情分析、客戶意向分析等多種用例。任何熟悉構建文字分類模型過程的人都知道,它包含以下三個步驟:
準備訓練資料:訓練資料(也稱為標記資料)是特定領域的語料庫,它是用分類器預期分類的標籤手工標註的。
訓練文字分類模型:然後選擇合適的機器學習演算法來訓練標記資料集上的模型。我們已經在之前的博文《Breakthrough Research Papers and Models for Sentiment Analysis》[2] 中介紹了構建情感分析模型的一些技巧。
測試和驗證:標記的資料集的一部分被留出用於測試和驗證已訓練的模型以評估其泛化能力。
當我們沒有足夠的標記資料來訓練可靠的模型時,傳統的監督學習正規化就會崩潰。現實世界中的文字分類專案常常面臨最大的障礙,即訪問大量資料並手動註釋資料。結果,大多數實際專案都滯留在第一步。那些成功邁過第一步的人們經常發現他們的資料要麼不夠充分,要麼偏向某些類,導致 AI 模型出現偏差。
什麼是自定義分類器?
深度學習的許多研究都是為了從更少的資料中學習更好的表徵,而一個令人興奮的領域是零樣本學習(Zero-shot learning)。引用 Ian Goodfellow 在 Quora 的回答:“即使沒有收到任何訓練案例,零樣本學習也能解決任務。”換句話說,設想一下在不提供任何帶有情感標籤的推文的訓練例子的情況下,預測推特表達的情緒。
ParallelDots 的內部研究團隊提出了他們自己的“零樣本學習”的文字分類模式,並發表了一篇研究論文《一次訓練,隨處測試:文字分類的零樣本學習》(Train Once, Test Anywhere: Zero-shot Learning For Text Classification)[3]。
另外,我們要履行承諾,讓人工智慧觸手可及。我們決定將這一激動人心的研究成果轉化為商業應用,因此,我們推出了一個新的 API,使您能夠利用零樣本學習的全部功能,為您的文字分類提供用例。我們稱之為自定義分類器,因為它可以讓你在自定義類別上構建你的文字分類器。這是我們開發尖端 AI 解決方案的革命性的一步,讓使用者無需構建任何訓練資料即可開發和整合自定義文字分類模型。
通過例項學習–構建示例文字分類模型
由於不需要訓練資料,因此它也降低了建立文字分類模型所需的成本和時間。有了所有的背景知識,讓我們嘗試在操作中檢視自定義分類器。在下圖所示自定義分類器演示 [4] 螢幕截圖中,我們選取了一個體育新聞標題並定義了五個類別,我們要把這個標題分為:世界政治、體育、宗教、娛樂、商業。
從結果中可以看出,體育類別的概率得分最高,因此也是我們輸入文字最有可能的類別。請注意,我們在測試的時候定義了類別,而底層的 AI 模型並沒有對它們進行明確的訓練。接下來,我們試著進一步將體育類別分為足球、高爾夫等不同類別,看看我們的分類器是否可以理解它們。
我們再次看到,分類器在沒有明確訓練的情況下準確地識別了體育類別。我希望現在您已經開始瞭解這項技術的潛力。作為最後一步,我們試著進一步將我們的足球類別劃分成全球各地的不同型別的聯賽,看看我們的分類器是否能夠正確地預測同樣的情況。
確實不可思議!我們的分類器正確地挑出了聯賽。
綜上所述,“自定義分類器”可以讓您對文字分類的未來有一個粗略的瞭解,在這種分類中,很少或沒有必要的訓練示例可以可靠地將一段文字分類為自定義的定義類別。這種能力將為無數休眠的文字分析專案開啟了無限的可能性,並賦予它們新的生機,由於缺乏訓練資料或訓練資源,這一專案將永遠不能見天日。
設定自定義分類器
設定自定義分類器非常簡單,可以通過以下三個簡單步驟來完成:
- 到 www.paralleldots.com/ 註冊免費的 ParallelDots API 帳戶並登入到控制皮膚。
- 導航到控制皮膚中的自定義分類器部分,提供示例文字並定義一些類別來分析文字。預設情況下,您將處於測試模式,您可以隨意多次調整您的類別列表,而無需花費任何費用。
- 一旦您對分類準確性感到滿意,請單擊“Publish”按鈕來部署分類器以供生產使用,並獲取分類器 ID。一旦釋出,您就可以通過 API 端點訪問您的自定義分類器。
自定義分類器的 API 文件可以在 www.paralleldots.com/docs 找到。專門為 Microsoft Excel 提供的載入項功能即將推出。
在這篇博文中,我們介紹了文字分類中的一個新範例,希望我們的使用者能夠從中受益。我們已經看到一些激動人心的用例被我們的使用者通過自定義分類器解決,比如招聘資訊分類、新聞文章分類、處理開放式調查反饋等等。通常,分析原始資料的第一步就是將其分類到您關心的類別中,並隨著時間的推移監控這些趨勢以獲取可行的見解。
自定義分類相較標準文字分類的優勢
在分析客戶語音等非結構化資料時,像情感分析這樣的標準文字分類模型並不總是足以獲得整體檢視。另一方面,自定義分類器可以使您能夠將這些資料分類為我們所關心的更細微的類別。例如,通過自定義分類器,快餐連鎖店主可以通過社交媒體,將從她的顧客的反饋分類,包括價格、環境、員工行為、食品質量等類別,更好地瞭解她需要改進哪些方面的業務。使用簡單的情緒分析,她可能知道自己的業務整體如何,但也可能會遺漏關鍵的趨勢,比如員工的行為和客流量之間的關聯。自定義分類器的潛力在於,將文字分類為情感標籤(正面、負面或中性)[5],這樣您不僅可以知道產品有多少負面的反饋,而且也可以瞭解到使用者在那些負面評論中提到的內容。
我們相信自定義分類器可以讓沒有資料科學背景的使用者構建、部署他們自己的分類器,並在他們的競爭者中獲得優勢。它還將幫助企業從根本上轉變為資料驅動型組織,最終加速人工智慧和機器學習的產業化程式。您也可以訪問以下網址探索更多的文字分類部落格。
blog.paralleldots.com/category/pr…
ParallelDots AI API 是由 ParallelDots 公司提供的深度學習驅動的 Web 服務,可以理解大量的非結構化文字和可視內容,從而為您的產品提供支援。
參考文字:
[1] Introducing Custom Classifier — Build Your Own Text Classification Model Without Any Training Data
towardsdatascience.com/introducing…
[2] Breakthrough Research Papers and Models for Sentiment Analysis
blog.paralleldots.com/data-scienc…
[3] TRAIN ONCE, TEST ANYWHERE: ZERO-SHOT LEARNING FOR TEXT CLASSIFICATION
[4] Custom Classifier DEMO
[5] Analyze the sentiment of content on social networks, customer feedbacks and surveys
www.paralleldots.com/sentiment-a…
更多幹貨內容,可關注AI前線,ID:ai-front,後臺回覆「AI」、「TF」、「大資料」可獲得《AI前線》系列PDF迷你書和技能圖譜。