資料採集,AI產業落地的“助推器”丨曼孚科技

曼孚科技發表於2020-09-15

演算法、算力與資料是構成人工智慧的三個基本要素。隨著人工智慧技術在演算法與算力層面達到階段性基本成熟,人工智慧行業掀起一輪落地應用的熱潮。

從技術層面分析,本輪人工智慧落地熱潮主要集中於計算機視覺領域和語音互動領域,較為依賴機器學習領域中的深度學習方式。

目前,主流的深度學習方式以有監督學習模式為主。在該模式下,演算法訓練需要依靠標註資料對學習結果進行反饋,對於資料有著強依賴性需求,這也帶動了AI基礎資料服務行業的繁榮。

AI基礎資料服務是指為AI演算法訓練及最佳化提供相關產品與服務,主要以資料集產品和資料資源定製服務為主,具體包括資料採集、資料清洗和資料標註等內容。

其中,資料採集是指對目標領域、場景的特定原始資料進行採集的過程,採集的資料以影像類、文字類、語音類、影片類等非結構化資料為主。從業務流程角度來看,資料採集是AI基礎資料服務行業全流程服務中的“第一步”,採集到的非結構化資料經過清洗與標註,才能被用於機器學習訓練。

資料採集,AI產業落地的“助推器”丨曼孚科技

採集到的原始影像類資料

因此資料採集業務也是眾多資料服務企業較為核心的業務之一,一家優秀的資料採集服務企業應當具備如下優勢:

1.擁有豐富的採集渠道

採集的資料按照不同型別可以劃分為影像、語音、文字、影片等內容,每一個大類又可以細分為眾多小類。

以語音採集為例,按照語種的不同,可細分為普通話採集、方言採集、英語採集、小語種採集等,這對資料採集服務企業的採集覆蓋能力提出了極高的要求。

正常情況下,出於成本等多方面因素的考量,資料採集服務企業多采用與渠道或者供應鏈合作的方式來執行專案。

因此,擁有更豐富的方言、小語種、全球各地人臉採集渠道,以及更加穩定採集供應鏈的資料採集服務企業,將在獲取與執行專案時更具優勢。

2.擁有對資料預處理的能力

透過採集得到的資料均為原始資料,這些非結構化的資料只有經過清洗與標註才能被喚醒價值,用於演算法學習訓練。

對於資料標註企業而言,原始資料質量越高、錯誤越少,標註的效率就會越高,最終產出的資料集質量也越好。

以語音採集為例,每段採集好的語音內容裡都會存在有效部分與無效部分。有效部分主要指實質性語音內容,這些是需求方需要的內容;無效部分主要指靜默部分、雜音等,這些是需求方不需要的內容。

目前,絕大部分資料服務企業在採集資料的過程中,都不會對資料進行預處理,這與技術能力與採集工具有關。

曼孚科技在實際處理語音採集業務時,會依靠自身採集平臺對採集到的原始資料進行預處理,VAD自動切片功能會自動刪除資料中的無效部分,切實提升資料質量。

資料採集,AI產業落地的“助推器”丨曼孚科技

曼孚科技語音處理平臺具備VAD切片功能

3.擁有特殊場景搭建、採集能力

隨著人工智慧應用在多個垂直場景領域實現落地,需求方對於場景化資料集的需求量也越來越高。

以目前應用廣泛的語音助手為例,為了提高語音助手在不同場景下的識別能力,需要採集特殊場景下語音對話資料集,比如“室外對話資料集”、“室內對話資料集”、“嘈雜環境下對話資料集”等,這對資料服務企業的特殊場景搭建能力提出了新的要求。

未來,隨著人工智慧商業化程度的不斷加深,如何對海量資料進行有效獲取、合理分析和妥善利用是擺在一眾人工智慧企業面前的核心問題。

海量資料浪潮下蘊藏的是無盡的商機,基礎資料服務尤其是資料採集服務在資料時代下,將擁有更加廣闊的發展空間。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69956378/viewspace-2721166/,如需轉載,請註明出處,否則將追究法律責任。

相關文章