Varp 計算機視覺結合的智慧點框架 (可以推薦觀望)

陈子昂發表於2024-09-23

計算機視覺

https://varp-agent.github.io 使用智慧體和 Gpt 結合做計算機視覺的決策,拿的是挑戰黑悟空為例子。
目前似乎還沒有開源和共享資料集,在官網頁面的 2 個按鈕無法跳轉。

傳統的計算機視覺

介紹下傳統的做法

  1. Yolo 分類器分類目標 (萬丈高樓平地起,選型和訓練滿足模型要求)。需要先評估拍攝定義維度,選擇預訓練模型和需要分類的目標。
    • 對優質的資料集,進行打標和訓練漲點滿足效能精度,對模型感受野進行實戰適配。
    • 不止一個分類器,分類器會和下面場景學習結合,不同的 map。 PS: 顯示卡好訓練快,CPU 也可以,這裡需要基建很多,可以把需要命令列和檢視訓練漲點流程變成自動化執行迭代和提醒。
  2. 分類器模型:業務繫結的區分是普通怪物,各種寶箱,Boss 等等。
    • 實時性提升:低開銷傳輸圖片,模型蒸餾,推理凍結,轉 runtime onnx 部署
  3. 視覺跟蹤 (最難):目標物件移動軌跡和距離推斷做影像理解成 JSON 資料結構。
    • 3D 比較麻煩,需要處理攝像機的遮擋和給每個分類的物件綁 ID
  4. 封裝原子的操作
    • 業務繫結的 (翻滾,攻擊,防禦等等遊戲業內的)
    • 技能釋放時機,技能 cd 的 2-3 個狀態光亮度做畫素點特徵來判斷釋放時機和帶計時器狀態。
  5. 場景學習: 對場景地圖的不同範圍做定製的深度學習,一般是通用的場景和特殊地形,比如巖洞裡面區域,室內,高低地形房子等
  6. 決策邏輯:
    • 強化學習的方式:傳輸影像,按影像理解的 JSON 資料結構結合場景的學習,根據第 3 部分內容寫強化學習的機制來給出當前情況應用的函式和得分。
    • 行為樹的方式:根據觸發點的行為樹做決策,跳轉到行為樹的節點執行完在根據下個條件跳轉到不同的節點,規避大量條件判斷和狀態機的程式碼。
    • 行為樹推薦看文章:https://blog.csdn.net/weixin_43735634/article/details/135604081

展望

根據過往對 AI 理解,AI 不能完全全包,混用模式和圍繞結果做開發在傳遞給其他 AI 是不二之選
可以等這個專案開源後,我來寫下如何結合的文章。

相關文章