AI產品經理之資料標註
前兩篇筆者分別為大家介紹了AI產品經理需要了解的概率論通識、線性代數通識、微積分通識,本篇文章中,筆者將繼續為你介紹AI產品經理需要了解的資料標註,供大家一參考學習。
前幾天參加京東的AI技術沙龍,在提問環節,有個小夥說:
“我是做銷售的,剛才您講的我都沒聽懂,我就知道,現在AI是風口,只要做AI相關的就能掙錢,您能說幾個現在我們這類人能做到嗎?能掙錢就行!”
臺上技術出身的老師自然一時語塞。小夥說的沒錯,百團大戰的時候確實一批刷 單公司賺得盆滿缽滿。但是這些投機取巧註定不能長遠。
讓更多人捲進這次AI浪潮的可能就是資料標註了,All in AI的百度擁有大量的標註業務,大部分河南標註工廠用的是百度的標註工具,乾的是百度的活。開始的時候標註的利潤空間可以達到60%—70%。有些企業盲目擴張,一下子招了幾百人;但是陸奇離開後,百度需求減少。準確率又普遍提高至95%-96%,活難幹了。這些工廠只會百度的標註工具,很難接別家的業務,因此死了一批。
現在來看標註行業是一個苦行業,“如果你和誰有仇,就勸他幹標註吧。”這是標註圈有名的段子。幹標註就像將水倒進一個水桶裡,每拉一個框就是添一碗水。目前,誰也不知道還能添多久,只有水溢位來時,才知道。
資料是AI公司的必需品。資料對於AI模型的重要性尤為重要,AI建模沒有門檻,資料才是門檻。 現階段的人工智慧是簡單的認知智慧。分類器的構造是個數學問題,就是由資料堆起來的。或者說深度學習本質上是個數學問題,是由大量的樣本空間資料反向構造分類器的係數空間的過程。
資料標註模型
資料標註業務的配置是一個複雜的數學模型。比如,有些任務需要串並聯的工作流,並聯的工作流是多人協同的工作。串聯的工作流是後一個結果是基於前一個結果進行處理的,串並聯的工作流需要平臺來實現業務工作流的配置。比如一些NLP型的文字標註作業,需要多個人來標,最後N選一或者投票。串並聯配置涉及到底層資料流的分發等。或者說更像是一個流水線作業流程。
不斷地用標註後的資料去訓練模型,不斷調整模型引數,得到指標數值更高的模型。
資料的質量直接會影響到模型的質量,因此資料標註流程設計和監督糾錯就顯得異常重要。
一般來說,資料標註部分可以有三個角色:
- 資料標註員:標註員負責標記資料。(文字、影象、視訊)
- 資料稽核員:稽核員負責稽核被標記資料的質量。(抽檢)
- 標註管理員:管理人員、發放任務、跟進流程。
只有在資料被稽核員稽核通過後,這批資料才能入庫使用。
一般眾包資料標記流程
- 任務分配:一般資料分配由後臺自動分發,根據使用者選擇標註型別每次分發幾條內容,標註完成後再次分發。
- 複核入庫:一般一條任務會分配給大於三個人的基數人員完成,根據少數服從多數原則確定該條資料的最終標籤。
- 質量驗收:一般會根據使用者標註總數量和入庫數量計算該使用者的標註質量,和計算有效標註數量,質量高的和質量低的薪酬計算方法會有差別,以此來淘汰不能完成高質量標註的人員。
資料標註型別
影象標註-線標註
根據需求標註檢測物件相對應的線型位置,例如:車道線。
影象標註-邊框標註
標註檢測物件相對應的區域,例如:汽車/行人等各種物體。
影象標註-3D邊框標註
將影象中待檢測物體以立體形式標註,例如汽車檢測。
影象標註-語義分隔
根據檢測區域不同,將影象標註為不同的畫素,例如來自汽車拍攝的影象。
影象標註-多邊形標註
根據需求標註檢測物件的形狀,例如:標註影象中的汽車輪廓(示例圖)或標記汙損邊界。
影象標註-點標註
根據需求標註檢測物件參考點的畫素座標,或者影象中的關鍵點標記,如人臉。
影象標註-3D點雲標註
在3D空間中,標註點雲資料中指定的檢測物件,如汽車、行車道等。
視訊標註-跟蹤標註
在視訊或者連續的影象中跟蹤標註檢測物件,形成有ID關聯的運動軌跡。
文字標註-中英文語音轉寫與校對
英文語音轉中文文字,或中文文字轉英文語音。
文字標註
實體命名,標註文字中的實體。
語音標註-客服語音標註
外呼機器人進行外呼記錄語音標註呼叫成功或者失敗,從而訓練話術。
標註流程
- 需求確認:對標註任務需求確認,標註資料集準備完成,規範標註需求,指定標註模型。
- 人員篩選:確定標註人員及人員角色
- 人員培訓:針對不同角色培訓標註規範和標註標準
- 開始試標:先標註少量資料,試用標註資料,調整標註流程,使得效率最優。
- 正式標註:完成整體標註任務。匯出資料。
總結
快速、高效的進行資料標註,是機器學習和深度學習的基礎,現在一些標註工具通過深度學習模型和主動學習技術,通過NLP模型來提高標註效率,集資料標註、資料管理、模型訓練和模型服務於一體,使資料標註更加輕鬆、更高效。離AI最近的重複複雜的工作,是首先會被機器取代的。
#相關閱讀#
作者:老張,宜信集團保險事業部智慧保險產品負責人,運營軍師聯盟創始人之一,《運營實戰手冊》作者之一。
http://www.woshipm.com/ai/2705229.html
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/29829936/viewspace-2654079/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 如何成為一個AI產品經理?AI
- 產品經理
- 資料包表產品經理生存法則
- 優秀產品經理 Vs. 偉大產品經理
- AI產品經理的進階路線圖AI
- 一個AI產品經理怎麼看AI的發展AI
- 作為產品經理,你真的有資料 sense 嗎?
- 產品經理必會的10種資料分析方法
- Android 音訊資料流分析之程式設計師幹架產品經理Android音訊程式設計師
- 帶你瞭解資料標註之文字標註
- 產品讀書《電商產品經理》
- 產品經理之「使用者故事實戰」
- 產品經理面試面試
- AR/VR產品經理VR
- AI 資料標註不是“髒活累活”AI
- [產品經理之路] 0:持續優化著世界的產品經理優化
- NPDP|產品經理怎樣進行市場目標定位?
- 如何做一枚合格的資料產品經理
- 如何成為一名合格的資料產品經理?
- 淺說AI產品經理的定義與分類AI
- 產品讀書《人人都是產品經理 2.0》
- AI產品經理成長路AI
- 宿命之戰:程式設計師 VS 產品經理程式設計師
- 產品經理基本功之PRD實踐篇
- 產品經理課-需求分析
- 聊聊敏捷的產品經理敏捷
- 資料產品經理職業發展的四個階段
- 產品經理如何做好產品和需求管理
- AI產品經理的探索:技能、機遇與未來展望AI
- 四年進階|產品助理(專員)、產品經理、高階產品經理、產品總監是什麼樣子?
- 產品必備技能(三):網際網路資料分析師、產品經理和運營常用資料網站合集網站
- 【產品經理入門記】產品經理在早期如何快速學習?
- Java技術轉(兼顧)產品經理——讀《快速轉行做產品經理》有感Java
- 產品經理不能錯過的資料包表製作小tips
- 產品經理 深入淺出(6)
- 產品經理 深入淺出(5)
- 產品經理 深入淺出(4)
- 產品經理和產品負責人之間的職責是如何劃分? - Reddit