演算法、算力與資料是構成人工智慧的三個基本要素。隨著人工智慧技術在演算法與算力層面達到階段性基本成熟，人工智慧行業掀起一輪落地應用的熱潮。

從技術層面分析，本輪人工智慧落地熱潮主要集中於計算機視覺領域和語音互動領域，較為依賴機器學習領域中的深度學習方式。

目前，主流的深度學習方式以有監督學習模式為主。在該模式下，演算法訓練需要依靠標註資料對學習結果進行反饋，對於資料有著強依賴性需求，這也帶動了AI基礎資料服務行業的繁榮。

AI基礎資料服務是指為AI演算法訓練及最佳化提供相關產品與服務，主要以資料集產品和資料資源定製服務為主，具體包括資料採集、資料清洗和資料標註等內容。

其中，資料採集是指對目標領域、場景的特定原始資料進行採集的過程，採集的資料以影像類、文字類、語音類、影片類等非結構化資料為主。從業務流程角度來看，資料採集是AI基礎資料服務行業全流程服務中的“第一步”，採集到的非結構化資料經過清洗與標註，才能被用於機器學習訓練。

資料採集，AI產業落地的“助推器”丨曼孚科技

採集到的原始影像類資料

因此資料採集業務也是眾多資料服務企業較為核心的業務之一，一家優秀的資料採集服務企業應當具備如下優勢：

1.擁有豐富的採集渠道

採集的資料按照不同型別可以劃分為影像、語音、文字、影片等內容，每一個大類又可以細分為眾多小類。

以語音採集為例，按照語種的不同，可細分為普通話採集、方言採集、英語採集、小語種採集等，這對資料採集服務企業的採集覆蓋能力提出了極高的要求。

正常情況下，出於成本等多方面因素的考量，資料採集服務企業多采用與渠道或者供應鏈合作的方式來執行專案。

因此，擁有更豐富的方言、小語種、全球各地人臉採集渠道，以及更加穩定採集供應鏈的資料採集服務企業，將在獲取與執行專案時更具優勢。

2.擁有對資料預處理的能力

透過採集得到的資料均為原始資料，這些非結構化的資料只有經過清洗與標註才能被喚醒價值，用於演算法學習訓練。

對於資料標註企業而言，原始資料質量越高、錯誤越少，標註的效率就會越高，最終產出的資料集質量也越好。

以語音採集為例，每段採集好的語音內容裡都會存在有效部分與無效部分。有效部分主要指實質性語音內容，這些是需求方需要的內容;無效部分主要指靜默部分、雜音等，這些是需求方不需要的內容。

目前，絕大部分資料服務企業在採集資料的過程中，都不會對資料進行預處理，這與技術能力與採集工具有關。

曼孚科技在實際處理語音採集業務時，會依靠自身採集平臺對採集到的原始資料進行預處理，VAD自動切片功能會自動刪除資料中的無效部分，切實提升資料質量。

資料採集，AI產業落地的“助推器”丨曼孚科技

曼孚科技語音處理平臺具備VAD切片功能

3.擁有特殊場景搭建、採集能力

隨著人工智慧應用在多個垂直場景領域實現落地，需求方對於場景化資料集的需求量也越來越高。

以目前應用廣泛的語音助手為例，為了提高語音助手在不同場景下的識別能力，需要採集特殊場景下語音對話資料集，比如“室外對話資料集”、“室內對話資料集”、“嘈雜環境下對話資料集”等，這對資料服務企業的特殊場景搭建能力提出了新的要求。

未來，隨著人工智慧商業化程度的不斷加深，如何對海量資料進行有效獲取、合理分析和妥善利用是擺在一眾人工智慧企業面前的核心問題。

海量資料浪潮下蘊藏的是無盡的商機，基礎資料服務尤其是資料採集服務在資料時代下，將擁有更加廣闊的發展空間。

資料採集，AI產業落地的“助推器”丨曼孚科技

相關文章