機器學習的命脈:自定義資料集的6個關鍵步驟,你知道幾個?

曼孚科技發表於2022-08-04

高質量資料是機器學習的命脈,建立合格的資料集對模型培養至關重要,本文將簡要介紹自定義資料集的6個關鍵步驟:

選擇收集方式

資料集收集有三種方式,第三方購買、開源平臺收集、手動收集。

在手動收集方面,可以利用資料抓取工具幫助收集部分素材,也可使用自己的裝置,如相機或感測器。

以手動收集自動駕駛自定義資料集為例,自動駕駛公司在車上配備攝像頭、鐳射雷達感測器等裝置,便駕駛多輛汽車在城市街道徘徊,收集視覺資料。

分層收集資料

在收集足量資料後,需將大資料分解為較小資料集。

分層可將小型資料集分批套入模型中,並適時調整,在模型效能及產生最佳結果所需的時間和成本方面,通常需要分三到四個層級的資料集才能實現最佳效果。

使用分層方法進行資料收集,將顯著降低由低質量資料廢棄模型的風險,防止資料中出現不必要的偏差,及時根據結論調整試驗方向。

驗證資料

驗證資料集能確保資料質量合乎指標(即方差、質量、數量、密度) 。在開始標註前,這是防止因偏差導致再次收集資料的最佳時機。許多人會忽略這一步驟,但驗證資料至關重要,資料收集質量可以確保接下來的操作步驟更加順利。

標註資料

確認獲得高質量資料後,下一步將開始專案中最耗時的任務:資料標註。

通常,資料標註的勞力有三種選擇:

自己標註

第三方平臺眾包

擁有自身標註平臺的技術類標註公司

資料標註依賴於優秀的標註平臺,按標註型別可分為影像、點雲、語音、影片等型別,以曼孚科技的SEED平臺為例,SEED擁有幾十種資料標註工具,以影像與點雲標註為例,影像標註擁有2D框、多段線、語義分割、多邊形、關鍵點、橢圓、曲線,點雲標註擁有立體框、多變立體框、車道線,可實現全景語義分割、點雲分割、連續幀、融合等多種技術。

標註資料是演算法模型的養料,直接影響機器智慧化進度,選擇更加專業的技術類公司不僅可節省大量時間與精力,也會獲得更高質量的成品資料。

驗證模型

在獲得標註完成的資料後,便可將其輸入演算法模型中,這是確定標註資料是否符合演算法的關鍵步驟,也是檢驗演算法質量的時機,進一步瞭解模型與預想結果的一致性。

此步驟可能會反覆多次,原因在於不同標註資料型別套入模型的效果不一,演算法模型也需隨著資料不斷改進。

重複

機器學習不是一次性的練習,優秀的資料集必定會經歷反覆收集、標註、驗證的步驟,即使在模型走出實驗室後也不能停下,以便應對日益更新的現實世界。

如2020年COVID-19的突然造訪,給人來帶來沉痛打擊,人工智慧也在此期間發揮了巨大作用,利用新資料集訓練出的智慧機器被應用至更多場景,最大限度降低了疫情擴散風險。只有不斷更新資料與演算法模型,才能跟上時代發展程式,為人類提供更多便利。

結語

建立資料集需要在反覆訓練與驗證資料中找尋調整方向,需要對流程、人員分配、技術有足夠的把握,在資料收集、資料標註、資料驗證方面考慮的越周到,自定義的資料集質量也將越高。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69956378/viewspace-2908971/,如需轉載,請註明出處,否則將追究法律責任。

相關文章