手把手教你快速構建自定義分類器

AI前線發表於2018-08-07

原文網址 : https://flycode.co/archives/289497

本文由「AI前線」原創，原文連結：手把手教你快速構建自定義分類器
作者｜Shashank Gupta
譯者｜劉志勇
編輯｜Emily

AI 前線導讀：”對於資料探勘來說，分類是一種非常重要的方法。分類器就是在已有資料的基礎上學會一個分類函式或者構建出的一個分類模型。這個函式或模型能夠把資料庫中的資料記錄對映到給定類別中的某一個，從而可以應用資料預測。今天，AI 前線就給大家帶來了由 Towards Data Science 的 Shashank Gupta 撰寫的一篇文章，題為《介紹自定義分類器——在沒有任何培訓資料的情況下構建自己的文字分類模型》（Introducing Custom Classifier — Build Your Own Text Classification Model Without Any Training Data）[1]，給大家介紹瞭如何利用 ParallelDots 公司提供的 AI 驅動的 Web 服務，在沒有任何訓練資料的情況下，快速構建屬於自己的文字分類器。”

介紹

機器學習最成功的範例之一是監督學習（supervised learning），它允許您通過從大量訓練例項中學習來構建泛化模型。監督學習廣泛應用於自然語言處理（Natural Language Processing，NLP），構建多類或多標籤的文字分類器，用於解決垃圾郵件檢測、情感分析、表情分析、客戶意向分析等多種用例。任何熟悉構建文字分類模型過程的人都知道，它包含以下三個步驟：

準備訓練資料：訓練資料（也稱為標記資料）是特定領域的語料庫，它是用分類器預期分類的標籤手工標註的。

訓練文字分類模型：然後選擇合適的機器學習演算法來訓練標記資料集上的模型。我們已經在之前的博文《Breakthrough Research Papers and Models for Sentiment Analysis》[2] 中介紹了構建情感分析模型的一些技巧。

測試和驗證：標記的資料集的一部分被留出用於測試和驗證已訓練的模型以評估其泛化能力。

當我們沒有足夠的標記資料來訓練可靠的模型時，傳統的監督學習正規化就會崩潰。現實世界中的文字分類專案常常面臨最大的障礙，即訪問大量資料並手動註釋資料。結果，大多數實際專案都滯留在第一步。那些成功邁過第一步的人們經常發現他們的資料要麼不夠充分，要麼偏向某些類，導致 AI 模型出現偏差。

什麼是自定義分類器？

深度學習的許多研究都是為了從更少的資料中學習更好的表徵，而一個令人興奮的領域是零樣本學習（Zero-shot learning）。引用 Ian Goodfellow 在 Quora 的回答：“即使沒有收到任何訓練案例，零樣本學習也能解決任務。”換句話說，設想一下在不提供任何帶有情感標籤的推文的訓練例子的情況下，預測推特表達的情緒。

ParallelDots 的內部研究團隊提出了他們自己的“零樣本學習”的文字分類模式，並發表了一篇研究論文《一次訓練，隨處測試：文字分類的零樣本學習》（Train Once, Test Anywhere: Zero-shot Learning For Text Classification）[3]。

另外，我們要履行承諾，讓人工智慧觸手可及。我們決定將這一激動人心的研究成果轉化為商業應用，因此，我們推出了一個新的 API，使您能夠利用零樣本學習的全部功能，為您的文字分類提供用例。我們稱之為自定義分類器，因為它可以讓你在自定義類別上構建你的文字分類器。這是我們開發尖端 AI 解決方案的革命性的一步，讓使用者無需構建任何訓練資料即可開發和整合自定義文字分類模型。

通過例項學習–構建示例文字分類模型

由於不需要訓練資料，因此它也降低了建立文字分類模型所需的成本和時間。有了所有的背景知識，讓我們嘗試在操作中檢視自定義分類器。在下圖所示自定義分類器演示 [4] 螢幕截圖中，我們選取了一個體育新聞標題並定義了五個類別，我們要把這個標題分為：世界政治、體育、宗教、娛樂、商業。

從結果中可以看出，體育類別的概率得分最高，因此也是我們輸入文字最有可能的類別。請注意，我們在測試的時候定義了類別，而底層的 AI 模型並沒有對它們進行明確的訓練。接下來，我們試著進一步將體育類別分為足球、高爾夫等不同類別，看看我們的分類器是否可以理解它們。

我們再次看到，分類器在沒有明確訓練的情況下準確地識別了體育類別。我希望現在您已經開始瞭解這項技術的潛力。作為最後一步，我們試著進一步將我們的足球類別劃分成全球各地的不同型別的聯賽，看看我們的分類器是否能夠正確地預測同樣的情況。

確實不可思議！我們的分類器正確地挑出了聯賽。

綜上所述，“自定義分類器”可以讓您對文字分類的未來有一個粗略的瞭解，在這種分類中，很少或沒有必要的訓練示例可以可靠地將一段文字分類為自定義的定義類別。這種能力將為無數休眠的文字分析專案開啟了無限的可能性，並賦予它們新的生機，由於缺乏訓練資料或訓練資源，這一專案將永遠不能見天日。

設定自定義分類器

設定自定義分類器非常簡單，可以通過以下三個簡單步驟來完成：

到 www.paralleldots.com/ 註冊免費的 ParallelDots API 帳戶並登入到控制皮膚。
導航到控制皮膚中的自定義分類器部分，提供示例文字並定義一些類別來分析文字。預設情況下，您將處於測試模式，您可以隨意多次調整您的類別列表，而無需花費任何費用。
一旦您對分類準確性感到滿意，請單擊“Publish”按鈕來部署分類器以供生產使用，並獲取分類器 ID。一旦釋出，您就可以通過 API 端點訪問您的自定義分類器。

自定義分類器的 API 文件可以在 www.paralleldots.com/docs 找到。專門為 Microsoft Excel 提供的載入項功能即將推出。

在這篇博文中，我們介紹了文字分類中的一個新範例，希望我們的使用者能夠從中受益。我們已經看到一些激動人心的用例被我們的使用者通過自定義分類器解決，比如招聘資訊分類、新聞文章分類、處理開放式調查反饋等等。通常，分析原始資料的第一步就是將其分類到您關心的類別中，並隨著時間的推移監控這些趨勢以獲取可行的見解。

自定義分類相較標準文字分類的優勢

在分析客戶語音等非結構化資料時，像情感分析這樣的標準文字分類模型並不總是足以獲得整體檢視。另一方面，自定義分類器可以使您能夠將這些資料分類為我們所關心的更細微的類別。例如，通過自定義分類器，快餐連鎖店主可以通過社交媒體，將從她的顧客的反饋分類，包括價格、環境、員工行為、食品質量等類別，更好地瞭解她需要改進哪些方面的業務。使用簡單的情緒分析，她可能知道自己的業務整體如何，但也可能會遺漏關鍵的趨勢，比如員工的行為和客流量之間的關聯。自定義分類器的潛力在於，將文字分類為情感標籤（正面、負面或中性）[5]，這樣您不僅可以知道產品有多少負面的反饋，而且也可以瞭解到使用者在那些負面評論中提到的內容。

我們相信自定義分類器可以讓沒有資料科學背景的使用者構建、部署他們自己的分類器，並在他們的競爭者中獲得優勢。它還將幫助企業從根本上轉變為資料驅動型組織，最終加速人工智慧和機器學習的產業化程式。您也可以訪問以下網址探索更多的文字分類部落格。

blog.paralleldots.com/category/pr…

ParallelDots AI API 是由 ParallelDots 公司提供的深度學習驅動的 Web 服務，可以理解大量的非結構化文字和可視內容，從而為您的產品提供支援。

參考文字：

[1] Introducing Custom Classifier — Build Your Own Text Classification Model Without Any Training Data

towardsdatascience.com/introducing…

[2] Breakthrough Research Papers and Models for Sentiment Analysis

blog.paralleldots.com/data-scienc…

[3] TRAIN ONCE, TEST ANYWHERE: ZERO-SHOT LEARNING FOR TEXT CLASSIFICATION

paralleldots.xyz/Zero-Shot-L…

[4] Custom Classifier DEMO

paralleldots.xyz/Zero-Shot-L…

[5] Analyze the sentiment of content on social networks, customer feedbacks and surveys

www.paralleldots.com/sentiment-a…

更多幹貨內容，可關注AI前線，ID：ai-front，後臺回覆「AI」、「TF」、「大資料」可獲得《AI前線》系列PDF迷你書和技能圖譜。

《從零構建前後分離的web專案》：前端完善 - 手把手教你快速構建網站佈局
2018-11-23
Web前端網站
《從零構建前後分離的web專案》：前端完善 – 手把手教你快速構建網站佈局
2019-03-02
Web前端網站
[譯] 教你如何用 Flutter 的 GestureDetector 構建自定義滑塊
2018-07-09
Flutter
OpenHarmony自定義構建函式：@Builder裝飾器
2023-09-26
函式UI
超乾貨 | 手把手教你快速構建一個企業自有“微信”!
2022-04-26
手把手教你用Python構建你的第一個多標籤影象分類模型（附案例）
2019-05-15
Python模型
Android 自定義構建型別 BuildType
2019-03-04
Android型別UI
Zepto自定義模組打包構建
2018-07-28
手把手教你在本地構建 Nervos AppChain 全家桶
2018-09-29
APPAI
教你如何自定義AlertView
2019-02-28
View
flutter：教你自定義Dialog
2019-07-01
Flutter
手把手教你構建一個音視訊小程式
2018-10-18
手把手教你用DGL框架進行批次圖分類
2019-01-29
框架
手把手教你用DGL框架進行批量圖分類
2019-01-29
框架
C++：使自定義類支援迭代器
2024-09-10
C++
使用CSS自定義屬性構建骨架屏
2019-03-04
CSS
Java整合系列：高效構建自定義外掛
2024-04-22
Java
Pytext實戰-構建一個文字分類器有多快
2019-03-02
文字分類
如何用50行程式碼構建情感分類器
2018-06-20
行程
5分鐘教你使用idea除錯SeaTunnel自定義外掛
2024-03-20
Idea除錯
使用 Laravel Resource 類時自定義分頁資訊
2021-11-27
Laravel
【JAVA】自定義類載入器實現類隔離
2023-03-04
Java
零基礎可上手 | 手把手教你用Cloud AutoML做毒蜘蛛分類器
2018-03-17
CloudTOML
[一、基本語法]4@Builder裝飾器：自定義構建函式
2024-06-28
UI函式
手把手教你快速搭建React元件庫
2022-07-12
React元件
自定義類載入器驗證類載入機制
2021-08-23
基於Tensorflow + Opencv 實現CNN自定義影像分類
2021-09-22
OpenCVCNN
自定義異常類
2019-04-13
手把手教你使用LabVIEW OpenCV dnn實現影像分類（含原始碼）
2022-10-08
ViewOpenCVDNN原始碼
Java註解-後設資料、註解分類、內建註解和自定義註解
2019-07-26
Java
QingScan 快速整合自定義工具
2022-01-16
手把手教你快速搭建專屬的storybook
2019-01-05
自定義分頁格式
2020-03-21
如何構建自定義人臉識別資料集
2018-06-26
【小白學PyTorch】18 TF2構建自定義模型
2020-10-04
PyTorchTF2模型
手把手教你如何用Crawlab構建技術文章聚合平臺(一)
2019-03-15
手把手教你如何用Crawlab構建技術文章聚合平臺(二)
2019-03-21
手把手教你寫DI_2_小白徒手擼建構函式注入
2021-09-09
函式

手把手教你快速構建自定義分類器

相關文章