訓練資料也外包?這家公司“承包”了不少註釋訓練資料,原來是這樣做的……

AIBigbull2050發表於2020-03-17

  作者 |  Lionbridge AI

譯者 | 天道酬勤 責編 | 徐威龍

封圖| CSDN│下載於視覺中國


在機器學習領域,訓練資料準備是最重要且最耗時的任務之一。實際上,許多資料科學家聲稱資料科學的很大一部分是預處理的,並且一些研究表明,訓練資料的質量比你使用的演算法型別更為重要。
事實上,越來越多的公司進入了人工智慧市場,來幫助滿足這種對訓練資料的需求。

 你如何獲取機器學習訓練資料?


獲取訓練資料的主要方法有以下三種:

  • 開源資料集 :透過Kaggle、Google資料集搜尋或資料集聚合器等網站線上查詢。
  • 自己構建資料集 :收集/建立資料並在內部進行註釋。
  • 外包資料收集和註釋服務 :訓練資料提供商提供的服務。

對於個人專案或學校作業,有時開啟的資料集可以為你需要完成的任務提供足夠的資料量。 但是,在為商業目的構建和訓練人工智慧解決方案時,開源資料集通常無法用於你的用例,也不能用於商業化獲利。
此外,當你擁有數千條資料並且只有少量員工時,內部採購和註釋訓練資料通常效率不高。這給我們提供了第三個選擇: 外包訓練資料服務
 

機器學習訓練資料服務


 

 Lionbridge透過各種機器學習訓練資料服務來幫助客戶改善其模型。

目前,有一家相關的企業:Lionbridge 就正在做這型別的工作。當我們去了解之後,發現   其中的一些核心服務如下:

  • 資料收集 :語音/話語資料,手寫資料,聊天機器人訓練短語。
  • 影像和影片註釋 :邊界框,多邊形,圓形,直線,關鍵點。
  • 文字註釋 :情感,實體,實體連結,分類。
  • 音訊註釋 :逐字記錄,智慧逐字記錄,音訊分類。
  • 內容評估 :廣告評估,搜尋評估,地理位置資料評估。


從翻譯到訓練資料


Lionbridge 利用他們的全球資料科學家、計算語言學家、翻譯和註釋者的專業知識,為各種用例建立機器學習訓練資料。
為什麼翻譯公司適合資料註釋?
例如 Lionbridge ,是意識到他們的全球社群是進行資料註釋的理想勞動力。      

尤其是對於自然語言處理(NLP),專業的語言學家是實體提取、搜尋查詢分類和其他基於語言的註釋專案的理想註釋者。 經過全面的測試和培訓之後,這些相同的員工可以輕鬆地執行各種影像註釋任務,來實現計算機視覺。
 

翻譯質量等於訓練資料質量嗎?

         

沒必要質量相等。 但是,翻譯中的質量保證過程非常類似於人工智慧訓練資料的質量檢查協議。
例如,本地化專案的質量檢查流程之一就是編輯審查。在進行翻譯時,通常我們需要一位或多位編輯來稽核翻譯人員的輸出。 同樣,在我們的許多人工智慧專案中,我們有多個貢獻者註釋同一條資料來檢查是否一致。  
很多時候,質量管理意味著對貢獻者的管理 。為了確保準確性,你的資料必須經過許多流程。

  • 管理輸出       


社群需要有許多協議可以確保每個貢獻者都盡其所能。例如檢查註釋者之間的協議,來確保每個註釋正確。 此過程還可以幫助其驗證資料本身是否清晰以及任務是否簡單。 對於某些專案,最多有五個貢獻者對同一資料進行註釋。 此外,還可以實施自我協議檢查,來確保每個貢獻者與其工作保持一致。

機器學習訓練資料質量保證的一個很好的例子,是他們的話語/語音資料收集過程:

  • 首先,我們有聲音工程師確保每個貢獻者正確地說出該短語,他們確保貢獻者沒有遺漏任何單詞,並以自然的語調說話(與單調閱讀相反)。
  • 接下來,我們將音訊檔案傳送給每種語言的母語者,他們來根據指令碼檢查聲音片段。
  • 最後,他們傳送檔案以進行音訊質量檢查,以確保在特定閾值內沒有噪音,以及客戶要求的其他標準。

這些只是他們已經實施的質量檢查措施中的一部分,看起來正在持續完善中。

 

資料質量是主觀的


歸根結底,資料質量的定義取決於專案。“ 當談到訓練資料的質量時,沒有客觀的定義。這取決於使用者要嘗試做的事情。” Lionbridge日本AI服務總監Cedric Wagrez說。  “質量與使用者的最終目標和各種因素有關,例如使用者的KPI、精度和量身定製的用例。”
高質量的機器學習訓練資料是以可以幫助使用者實現目標的方式收集、註釋和校準的資料。
在開始管理質量之前,首先必須瞭解這對使用者的意願是什麼。

  • 試驗專案

在專案開始之前會提供免費諮詢,來解釋收集或註釋資料的最佳方法。
接下來,執行測試和試驗專案以符合客戶預期。假設你有10,000條要註釋的資料。為確保所有人都在同一頁上,他們將獲取前100個資料,在系統中設定專案,並讓社群為資料新增標籤。如果最終結果與你的想象完全一樣,那麼將繼續處理其餘資料。如果需要更改,將根據反饋進行重新校準。
重要的是,質量資料不僅僅是關於清晰的影像和緊密的邊界框。你必須考慮選擇標籤資料的人員,提供資料的準則以及收集資料的環境。


  文字、音訊、影像和影片的資料收集和註釋工具
       
有員工為你的資料新增標籤,但是需要一個平臺對其進行標籤? 如今, 這類需求也得到了滿足,已經有服務商將資料註釋平臺釋出為消費產品。
人工智慧行業有望在未來十年內為世界經濟增加15萬億美元。隨著市場的持續增長,對訓練資料的需求也將不斷增長。因此,我們可能會看到更多類似的服務公司進入機器學習訓練資料行業。

一切都在發展,這個行業將會越來越豐富,越來越值得期待!

原文:


【end】

https://mp.weixin.qq.com/s/ua5DWNu4gAZZgUmuu0zEBQ

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69946223/viewspace-2681009/,如需轉載,請註明出處,否則將追究法律責任。

相關文章