訓練資料也外包?這家公司“承包”了不少註釋訓練資料,原來是這樣做的……
作者 | Lionbridge AI
譯者 | 天道酬勤 責編 | 徐威龍
封圖| CSDN│下載於視覺中國
-
開源資料集 :透過Kaggle、Google資料集搜尋或資料集聚合器等網站線上查詢。 -
自己構建資料集 :收集/建立資料並在內部進行註釋。 -
外包資料收集和註釋服務 :訓練資料提供商提供的服務。
機器學習訓練資料服務
Lionbridge透過各種機器學習訓練資料服務來幫助客戶改善其模型。
-
資料收集 :語音/話語資料,手寫資料,聊天機器人訓練短語。 -
影像和影片註釋 :邊界框,多邊形,圓形,直線,關鍵點。 -
文字註釋 :情感,實體,實體連結,分類。 -
音訊註釋 :逐字記錄,智慧逐字記錄,音訊分類。 -
內容評估 :廣告評估,搜尋評估,地理位置資料評估。
從翻譯到訓練資料
-
管理輸出
機器學習訓練資料質量保證的一個很好的例子,是他們的話語/語音資料收集過程:
-
首先,我們有聲音工程師確保每個貢獻者正確地說出該短語,他們確保貢獻者沒有遺漏任何單詞,並以自然的語調說話(與單調閱讀相反)。 -
接下來,我們將音訊檔案傳送給每種語言的母語者,他們來根據指令碼檢查聲音片段。 -
最後,他們傳送檔案以進行音訊質量檢查,以確保在特定閾值內沒有噪音,以及客戶要求的其他標準。
-
試驗專案
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69946223/viewspace-2681009/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 資料集訓練
- 資料集訓練+1
- fashion資料集訓練
- 原來大資料 Hadoop 是這樣儲存資料的大資料Hadoop
- 資料標註員|《人工智慧訓練師》國家職業技能標準釋出人工智慧
- Sora竟是用這些資料訓練的?OpenAI CTO坦白惹眾怒SoraOpenAI
- Question | 標註下資料、訓練個模型,商用的智慧鑑黃有這麼簡單嗎?模型
- 阿里和浙大的“AI 訓練師助手”是這樣煉成的阿里AI
- 訓練指南:資料訓練定期儲存【GpuMall雲平臺特價】GPU
- Mxnet R FCN 訓練自己的資料集
- DeepLab 使用 Cityscapes 資料集訓練模型模型
- yolov3訓練自己資料教程YOLO
- 梯度會洩漏訓練資料?MIT新方法從梯度竊取訓練資料只需幾步梯度MIT
- 用 Java 訓練深度學習模型,原來可以這麼簡單!Java深度學習模型
- 大資料解讀:原來你是這樣的Z世代!大資料
- keras-retinanet 用自己的資料集訓練KerasNaN
- 用SSD-Pytorch訓練自己的資料集PyTorch
- Mxnet-R-FCN-訓練自己的資料集
- 如何改善你的訓練資料集?(附案例)
- java大資料開發訓練營--NginxJava大資料Nginx
- java大資料開發訓練營--ImpalaJava大資料
- MXNet的資料格式轉化為tensorflow訓練用的資料格式
- 5招訓練你的資料敏感度,資料高手都在用
- 用PyTorch版本R-FCN訓練自己的資料PyTorch
- 谷歌colab訓練自己的資料集YOLOv3谷歌YOLO
- 預訓練BERT,官方程式碼釋出前他們是這樣用TensorFlow解決的
- LLM並行訓練3-資料並行並行
- yolov5 自建資料集訓練測試YOLO
- 使用 TensorBoard 視覺化模型、資料和訓練ORB視覺化模型
- 亮資料:高效率資料採集,加速大模型訓練!大模型
- CocoStuff—基於Deeplab訓練資料的標定工具【三、標註工具的使用】
- 大牛祕笈!谷歌工程師是如何改進訓練資料集的?谷歌工程師
- 飛槳帶你瞭解:基於百科類資料訓練的 ELMo 中文預訓練模型模型
- 關於AI訓練資料侵權的碎碎念AI
- Caffe-SSD-Ubuntu16-04-訓練自己的資料集Ubuntu
- Caffe SSD Ubuntu16 04 訓練自己的資料集Ubuntu
- 西部戰略 | GBase資料庫訓練營華西專場培訓資料庫
- 模型訓練:資料預處理和預載入模型