谷歌Gemini 1.5：長上下文視窗意味著什麼？

Google DeepMind 團隊如何建立迄今為止任何大型基礎模型中最長的上下文視窗。

Gemini 1.5 模型的創新之一是其長上下文視窗，可以處理多達 100 萬個令牌的原始資料。
長上下文視窗的突破性實驗功能使模型可以接收和處理更多的文字、影像、音訊、程式碼或影片。
透過長上下文視窗，Gemini 1.5 Pro 可以進行諸如總結數千頁長文件、分析數萬行程式碼以及回答關於電影內容的問題等任務。

Gemini 1.5 Pro 的創新使其能夠處理大規模的文字、影像、音訊、程式碼或影片資料，為開發人員提供了更多創新和應用的可能性。

比較GPT-4 和 Gemini 1.5
將複雜的程式碼庫放入單個 120K 令牌提示中，並提出了 7 個問題 GPT-4 和 Gemini 1.5

背景：我是HVM1 的作者，目前正在更新為HVM2。這是兩個實現並行 inet 執行時的複雜程式碼庫；基本上，硬編譯器的東西。X 上的使用者@SullyOmarr獲得了 Gemini 1.5 的訪問許可權，他善意地向我提供了提示。因此，我將兩個 HVM 程式碼庫連線到一個120K 令牌檔案中，並向 Gemini 和 GPT-4 提出了 7 個問題。這是完整的結果。

結果分析：
在理解 HVM 的 120K 代幣程式碼庫的任務中，Gemini 1.5 徹底摧毀了 GPT-4-Turbo-128K。

GPT-4 做錯的大多數問題都是在較小的提示中可以做對的問題，因此，巨大的上下文顯然壓倒了它，而 Gemini 1.5 根本不在乎。
Gemini 仍然無法建立系統的完整心智模型，並回答需要其自身更深層推理的問題，因此，目前還沒有 AGI；
但Gemini 非常擅長定位現有資訊、建立遠端連線並在此基礎上進行一些有限的推理。

網友討論：
歡迎來到深度學習的新時代。深厚的專有魔法。我開始儘可能地睡個好覺，因為神經科學意義上的記憶和注意力的良好模型可能會幫助未來的 GPU 貧窮的研究人員在萬億引數網路中執行智慧模型，而無需數十億令牌上下文

有人聲稱 Gemini 能夠為輸入其中的程式碼庫編寫文件。“在一項測試中，我們放入了整個程式碼庫，併為其編寫了文件，這真的很酷，”Google DeepMind 研究科學家 Machel Reid 說：
連結 - https://blog.google/technology/ai/long-context-window-ai-models/<a>

Gemini 能夠記住並在不同的事物之間建立連結來回答問題，而 gpt-4 則不太擅長

長上下文字身也有點瘋狂：作為人類，我們大部分時間都以非常抽象的概括術語儲存程式碼庫的大部分知識，然後直接檢視檔案/方法以將微妙之處載入到工作記憶體中。更不用說 IDE 來幫助導航、重構等。
令我驚訝的是，目前的模型在這方面還沒有進行更多的工作。對程式碼進行各種遍歷以建立知識，將其儲存在向量資料庫中，然後根據需要檢視程式碼的特定位置，進行 TDD 風格測試、編譯、測試執行等。
立即載入整個程式碼庫並給出正確答案更像是 ASI，而不是 AGI，甚至在我看來也是如此。

這就是山姆奧特曼所擔心的：谷歌使用他們龐大的伺服器基礎設施和一個不錯的模型……這就是為什麼他瘋狂地尋找晶片並談論 7萬億美金的融資；因為他知道谷歌使用他們的算力資源最終會到達那裡。

10M上下文+上下文學習意味著，在推理時，它可以被訓練來完成你的整個工作。甚至不需要對每個客戶端進行微調。谷歌已經擁有如此瘋狂的技術（在選定的使用者手中得到驗證）將在核心業務上全力以赴 - 將其交到企業手中。

谷歌Gemini 1.5：長上下文視窗意味著什麼？

相關文章