人工智慧中的情景環境與順序環境

banq發表於2024-05-15

人工智慧中的情景和順序環境是人工智慧軟體代理執行的區域。這些環境的不同之處在於代理的經驗如何構建以及它們影響後續行動和行為的程度。瞭解這些環境的特徵為設計針對不同任務的人工智慧系統和解決各種問題奠定了堅實的基礎。

人工智慧中的情景環境
在情景環境中執行的人工智慧代理沉浸在各種任務中,這些任務可以定義為代理的整體體驗被分割成幾個獨立且獨立的片段或試驗。在每一集中,主體都是一個獨立的身份,主體在某一集中所做的事情和所看到的與擴充套件完全無關,而擴充套件是情景性的。

當智慧體處於起始狀態時,它發現自己處於一個剛剛開始的情景環境中。透過與環境啟用行動的互動以及接收觀察和獎勵,情節結束。它要麼達到最終狀態,要麼在預定數量的步驟後停止。情節結束後,環境恢復到初始狀態,並啟動新的情節。

人工智慧情景環境的特徵
人工智慧中情景環境的主要特徵如下:

  • 情節重置:在每個新情節開始時,環境都會重置為隨機初始化狀態,確保代理之前的操作和觀察不會影響新情節。
  • 獨立劇集:每一集都是獨立的,與下一集已經發生或將要發生的事情無關。環境的狀態和動態不會受到遊戲過程中智慧體的觀察和行動的顯著影響。
  • 終止狀態:通常,直到達到終止或最終狀態(成功或失敗)或截止日期已過,場景才會結束。
  • 清晰的邊界:不同情節之間有明確的輸入,此過程有助於智慧體從早期情節中汲取教訓,並在即將到來的情節中調整其行為。

情景環境的示例:在影像分析等情景環境中,每批分析的影像都被視為一個情節,其中影像特徵是狀態,分類是動作,準確性決定獎勵。


人工智慧中的順序環境
在人工智慧環境中,順序性是指代理的狀態和控制透過先前的狀態和動作連線(依賴)的任務或環境。在順序環境中學習時,當前代理的觀察和行動的結果會受到過去的觀察和行動的影響。
順序環境中的一個明顯區別是,情景設定(情景作為自主和自我維持的實體)與順序設定不同,在順序設定中,智慧體當前的行動或決策可以繼續影響這些環境中的未來事件。
AI中順序環境的特徵
順序環境的主要特徵如下:

  • 時間依賴性:刺激-輸出-獎勵迴圈至關重要,其中代理過去的狀態和行為決定了環境的當前狀態,併為代理創造獎勵。
  • 不可重置環境:每次情節或試驗結束時,代理執行的環境不會重複重新初始化為某個固定的初始值。相反,世界隨著智慧體對其當前狀態做出反應而動態發展,其行為會影響未來狀態。
  • 長期後果:代理人的行為可能會產生深遠的影響,但影響不會立即顯現出來,因此要求代理人始終考慮其決策的長期影響。
  • 持久狀態:環境維護一個持久狀態,為每個步驟設定背景上下文,代理的操作和感知的結果基於該永久狀態。

人工智慧中順序環境的示例:在像國際象棋這樣的順序環境中,玩家輪流走棋,每個棋步都會影響後續狀態。狀態代表棋盤上棋子的位置,行動是合法的舉動,獎勵來自實現戰略目標,例如將死對手。學習包括瞭解長期後果和提前規劃。

人工智慧中的情景環境與順序環境區別
時間依賴性

  • 情景環境:每集都是獨立的
  • 順序環境:隨著時間的推移,行動和觀察是相互關聯的。

劇集結構:

  • 情景環境:分為獨立劇集
  • 順序環境:連續的動作序列

狀態依賴性

  • 情景環境:跨劇集沒有狀態依賴性
  • 順序環境:存在狀態依賴性

長期後果

  • 情景環境:沒有長期後果
  • 順序環境:行動會產生長期後果

復位狀態

  • 情景環境:環境在每集開始時重置
  • 順序環境:環境保持連續性

例子

  • 情景環境:影像分析
  • 順序環境:國際象棋、NLP 任務、自動駕駛汽車

結論
在人工智慧中,選擇情節式環境還是順序式環境取決於問題領域和當前任務的性質。偶發環境非常適合可以獨立處理每個例項的任務,不需要長期記憶或上下文。而順序環境則更適合需要保持上下文並考慮行動的長期後果的任務。
 

相關文章