Grok-1.5V能將“畫素->動作”對映提升為“畫素->語言->動作”。
Tesla FSD v13可能會是Grokking語言令牌。Grok-1.5V最讓人興奮的是解決自動駕駛中邊緣情況的潛力。使用語言進行“思維鏈”將有助於汽車分解複雜的場景,用規則和反事實進行推理,並解釋其決定。
網友討論:
1、這聽起來像是通往AGI的最可行的道路。具有顯式語言推理的多模態模型一致地推斷出世界模型。
2、特斯拉視覺系統基於虛擬影片訓練,它從記錄和神經網路訓練中編譯,基於影片到標記資料的實時轉換。語言從何而來?
3、我真的不明白這是怎麼回事。Grok是X,FSD是Tesla。我知道馬斯克擁有這兩個部門,但這是如何發生的,他們不能只是合併人工智慧部門。
4、我不知道你說的思想鏈是什麼意思。不同的國家和地區在每個駕駛決策背後都有不同的邏輯。 你如何產生正確的推理?
5、你能透過語言標記獲得時間敏感的駕駛決策所需的響應時間嗎?
6、Grok還應該接受人類駕駛員的輸入(設定),這些駕駛員對汽車操控的偏好有很大的不同。複雜的設定,如直線加速有多快,轉彎有多快,離路緣有多近等。
7、有趣的想法,但是你認為在畫素和動作之間引入語言層會導致延遲嗎?
8、自動駕駛系統很快就能讓使用者與它交談嗎?它將允許人類幫助處理具有挑戰性的邊緣情況。(人類說“這看起來像是一個死衚衕,我認為我們需要做一個3點轉彎”)
9、特斯拉汽車內的晶片有多強大?他們能處理好嗎?我認為之前的30萬行C程式碼堆疊更容易,但現在越來越大的神經網路可以在真實的時間內快速執行推理嗎?
10、假設FSD需要三個關鍵組成部分:感知、規劃和控制,而Grok是實現這一目標的途徑,這是否意味著我們解決了一個具有挑戰性的物理世界問題,或者我們將進入AGI時代?
11、他們一直在使用一個LLM訓練的“車道語言”的車道預測-可以說是最困難的問題之一。他們說,這個問題是棘手的。特斯拉發明了一種用於車道預測的“車道語言”。