AI輔助,資料標註行業發展的新引擎丨曼孚科技

曼孚科技發表於2020-08-10
AI輔助,資料標註行業發展的新引擎丨曼孚科技

人工智慧是研究如何透過機器來模擬人類認知能力的科學,目前人工智慧應用最廣泛的計算機視覺與語音互動依賴於監督學習下的深度學習方式,而監督學習下的深度學習演算法訓練則十分依賴人工標註資料。

相關資料顯示,目前一個新研發的計算機視覺演算法需要上萬張到數十萬張不等的標註圖片訓練,新功能的開發需要近萬張標註圖片訓練,而定期最佳化演算法也有上千張圖片的需求。

這些海量訓練資料集的背後是無數標註員共同努力的成果,正如著名科幻作家劉慈欣所言,“現在的人工智慧,前面有多少智慧後面就有多少人工。”

AI輔助,資料標註行業發展的新引擎丨曼孚科技

不過,隨著人工智慧落地程式的加快,這種過於依賴人力的方式也暴露出很多弊端。

首先,AI商業化對資料標註行業提出了新的要求,想要更加契合落地需求、解決垂直場景具體痛點,還需要海量且優質的標註資料做支撐,這在無形中增加了資料服務供應商的管理以及人力成本。

此外,資料需求量的提升對服務商的交付能力也提出了新的要求,容易造成專案延期等連鎖反應。

為了解決這些問題,透過在資料標註以及質檢的環節中應用AI輔助,進行人機協作,可以有效提高標註效率,充分發揮AI對於資料標註行業的反哺作用。

1.AI預標註

在語音轉寫類標註專案中,資料標註員需要仔細聆聽每一個詞語的發音,判斷並轉寫其語義,這對於標註員的聽寫能力以及在長時間多工下的專注力有著極高要求。

透過在此環節應用AI輔助,對語音資料進行語音識別、文字轉寫和自然語言理解的預處理操作,自動完成標註後,再由人工進行校對,不僅降低了標註難度還可以有效提高標註效率。

以曼孚科技語音標註工具為例,預標註技術加持下,標註工具會自動識別轉寫語音資料,標註員只需要在預標註的結果上略作修改即可,相比於傳統轉寫操作,AI輔助可以成倍提高標註效率,實現更少的人力完成更多的專案。

2.AI質檢

一個完整的標註流程,需要經歷標註-稽核-質檢等多個流程,其中質檢在標註的過程中發揮著查缺補漏、提高整體標註質量的關鍵性作用。

目前,資料質檢主要以人工質檢為主,透過抽查的方式發現標註資料集中的重複樣本和不合格樣本。然而,人工抽查的方式校驗,在準確率和時效性方面都大有不足,很容易忽視錯誤樣本,遍查的方式在成本上又難以接受。

透過在質檢過程中引入AI輔助可以有效解決這些問題。相比於人力質檢,機器質檢無論是在效率還是執行力上都更具優勢,且可以做到覆蓋全部資料,有效發現各種問題,提高資料質量。

經過曼孚科技的實際測試,相比於傳統的人力抽檢,AI輔助質檢平均可以提升5%以上的資料準確率。

目前,標註與質檢是AI輔助應用效果最好的兩個環節,未來在標註方案創立到交付的全工作流過程中,都可以引入AI輔助,充分發揮AI對於資料標註行業的反哺作用,實現效率與質量的雙重提升。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69956378/viewspace-2710588/,如需轉載,請註明出處,否則將追究法律責任。

相關文章