資料採集典型案例,如何助力企業搭建資料方案

景聯文科技發表於2023-01-17

資料在人工智慧發展中尤為重要,是人工智慧演算法得以有效運營的關鍵環節。

景聯文科技為企業提供專業資料方案設計,幫助企業快速搭建與自己演算法模型匹配的資料方案,進行新業務領域的探索。

景聯文科技是長三角地區規模最大的AI基礎資料服務商,構建全國27個省市直轄市全球52個國家的資料採集資源網路,支援計算機視覺、語音工程、自然語言處理等多型別資料採集專案。憑藉高質量採集資料服務與全球上百家大型科技企業、科研機構保持深度合作。

資料採集典型案例,如何助力企業搭建資料方案

使用者案例

1. 頭部掃地機器人廠商 掃地機器人影像採集

一、需求:

10萬張影像400個種類物體採集

二、專案難點:

1)採集資料量大,工期緊張。

2)掃地機器人採集種類多標籤多,且對不同時段採集資料的差異性要求較高。

三、解決方案:

1)針對採集規則體系,配置專屬商務、專案經理、標註員、質檢員、技術人員。

2)針對不同時段採集時出現的資料差異性,和甲方技術部門反覆多次協商,最後確定採集時段佔比。

四、交付結果:

工期內足額完成交付,一次合格率98%。

資料採集典型案例,如何助力企業搭建資料方案

2. 自動駕駛影像採集專案

一、需求:

8輛車輛、28個種類駕駛員行為型別標註

二、專案難點:

1)資料總數46639段影片,235,598張影像,採集標註種類多(疲勞駕駛、著裝規範、副駕駛及後排座椅、未系安全帶、抽菸、吃喝、後擋風玻璃置物臺、主駕駛防護欄、中控臺、故意遮擋鏡頭、手持手機打電、未超載、中央扶手處、聊微信看影片等28種),工期緊張。

2)影片抽幀、資料清洗較為耗時。

三、解決方案:

1)針對採集規則體系,安排專業的商務、專案、標註、質檢、技術人員對專案背景及目的、規則、注意事項、難點、平臺操作、專案要求(準確率、日產量)進行培訓。

2)景聯文標註平臺連續幀預標註功能有效提高標註效率與質量

四、交付結果:

工期內足額完成交付,一次合格率98.5%。

此外,在計算機視覺領域,景聯文科技在街景道路採集、車輛圖片採集、人臉識別採集、手勢採集、步態採集、3d人臉影片採集等專案上均有豐富的採集經驗。

3. 頭部車企 車載語音採集

一、需求:

車載場景下3w個id216w條語音採集

二、專案難點:

1)資料量大,工時短。

2)採集規則對地域口音多樣性較高,需要在全國範圍內建立採集渠道。

三、解決方案:

1)配備3年以上語音採集專案管理經驗的專案經理和多人採集團隊,嚴格控制關鍵時間節點。

2)針對不同地域採集人員要求,構建全國27個省市直轄市的資料採集資源網路,及時反饋採集過程遇到的問題並準備多個解決方案。

四、交付結果:

工期內足額完成交付,一次合格率98%。

資料採集典型案例,如何助力企業搭建資料方案

此外,在語音工程領域,景聯文科技在語音識別ASR採集、語音合成TTS採集、小語種採集、多人對話採集等專案上均有豐富的採集經驗。

4. 國家級實驗室 文字採集

一、需求:

文字採集110萬條,包含21國語種如阿拉伯語、波蘭語、德語、俄語、法語、馬來語、泰語、土耳其語、西班牙語、義大利語、英語等,每種語種包含天氣、導航、影片、應用、系統相機、鬧鐘、日程、提醒、音樂、設定、頁面控制、語音助手控制、翻譯、打電話等30個意圖。

二、專案難點:

1)採集內容涉獵廣難度大,在限制多的情況下,要用不同的句式來表達同一個意思,比如,需要表達“今天天氣怎麼樣”,所有的句子裡都必須有“天氣”這個詞,然後使用1000種不同說法表達,因此對採集人員素質能力要求高,專案經理、採集人員及質檢人員需要精通對應語種。

2)文字型別多、場景多、篇幅長、標籤數量多。

3)準確率要求99%,工期緊張。

三、解決方案:

1)配備3年以上文字採集專案管理經驗且精通多國語言的專案經理和採集團隊。

2)安排採集團隊對專案背景、目的、規則、注意事項、難點、平臺操作、專案要求(準確率、日產量)進行培訓和考核,考核淘汰40%,剩餘60%人員進入正式任務。

3)根據專案採集要求進行專案結構分析,基於WBS原理將專案按照其內在結構和實施過程的順序進行逐層分解成樹狀圖,形成相對獨立、易於管理和檢查的專案各單元專案責任、進度等具體地落實到本專案每個參與者,確保標註質量。

四、交付結果:

工期內足額完成交付,一次合格率 99%。

資料採集典型案例,如何助力企業搭建資料方案

此外,在自然語言處理領域,景聯文科技在槽位提取、聊天記錄、知識庫、語句泛化、句子編寫、情緒判斷等專案上均有豐富的採集經驗。

關於景聯文

景聯文科技成立於2012年,有科研背景以技術發展為導向的高新技術企業和AI基礎資料服務企業。為全球數千家人工智慧從業公司和高校科研機構提供AI資料採集、資料標註、資料集產品、標註平臺定製開發、假指紋採集和指紋防偽演算法服務。景聯文始終踐行“做全球AI行業客戶的資料參謀”的企業使命,助力人工智慧技術加速數字經濟相關產業質量變革、動力變革與效率變革,賦能傳統產業智慧化轉型升級。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/70025739/viewspace-2932416/,如需轉載,請註明出處,否則將追究法律責任。

相關文章