先讓不懂程式碼的來測?通義這個新產品,程式碼剛寫完,預覽就出來了

机器之心發表於2024-10-28
這才是未來 AI 該有的樣子?

奇怪了。

一款 AI 程式碼工具剛釋出,限量測試卻要求「不懂程式碼」的人優先。

圖片

10 月 24 日,阿里旗下的通義正式宣佈了「程式碼模式」,並開放試用預約,首批邀請 1024 名使用者進行體驗。

圖片

通義程式碼模式旨在降低應用開發的門檻。它針對簡單的程式碼和應用生成需求,主打一個所見即所得。

具體來說,人與 AI 大模型的交流現在會出現在一個專門的視窗裡,AI 大模型生成的程式碼會實時地在網頁上跑出來以供預覽。

圖片

因此,非專業程式設計師優先是本次測試的特別要求。

這是國內首家實現「讓使用者一句話程式設計,並實時生成可見預覽」的公司,通義程式碼模式的出現,或許代表著一種未來新趨勢。

言聽計從,不用吵架

24 小時隨時等需求的「貼身程式設計師」來了

最近一段時間,大模型技術正在加速進入下半場。各家科技巨頭、AI 創業公司在發展新一代模型的同時,也在不斷探索大模型的應用方式。

上週,消費級產品領域曝出了一系列新產品,微軟釋出的「商業智慧體」旨在包攬人們在銷售、客服、財務、供應鏈團隊的工作;Anthropic 提出的升級版 Claude 3.5 Sonnet 則主打一個「AI 自己操縱電腦」;在手機端,榮耀提出智慧終端的「自動駕駛」,似乎讓手機具備了全域性跨 App 自動操縱的能力。

通義程式碼模式,則預示著在生產的一側,開發領域的新一輪迭代。

在實時可預覽程式碼模式出現之前,我們即使是使用 ChatGPT 等行業頂尖的大模型來寫程式碼,也必須遵循這樣的路徑:1)先想好與 AI 溝通的措辭提出需求;2)複製 AI 生成的程式碼,嘗試在外部開發環境中執行;3)繼續追問大模型,不斷修改程式碼並嘗試執行,直到最終獲得滿意的結果為止。

現在有了通義程式碼模式,你在敘述完具體功能需求後,系統會建立一個工作空間,AI 在其中與你協同工作。在後續對話過程中,AI 可以實時檢視你的新要求,持續編輯程式碼。問題隨時解決,效果實時呈現,就像是在現實世界中的多人協作一樣。

而且,AI 還永遠不會與你 battle。

ChatGPT 剛剛爆發時人們曾預測,AI 大模型先解放的將會是軟體開發。現在看來,我們距離實現這個理想又更近了一步。

我們看到,使用通義程式碼模式可以搗鼓出各種不同的應用。比如生成一個貪吃蛇小遊戲:

圖片

帶有一定複雜規則的格鬥遊戲:

圖片

甚至還有音樂播放器:

圖片

通義產品經理王曉明表示,程式碼模式的提出主要是來自於使用者需求。通義大模型的程式碼能力屬於業界領先,每天有大量程式設計師在使用通義進行程式碼生成和程式碼解釋等任務。此外,他們發現還有不少不懂程式碼的使用者會有建立應用、網頁等需求。

與通義靈碼、AI 程式設計師主要面向資深程式設計師的深度編碼場景不同,通義程式碼模式提供了一種新的互動方式,針對簡單的程式碼和應用生成需求,為使用者建立一個動態的視窗,將生成的程式碼檔案直接在網頁上渲染成應用。

從「通義靈碼」到「AI 程式設計師」再到「通義程式碼模式」到底迭代了什麼?至此,答案就呼之欲出了:

  • 第一是人與 AI 的高度協作。你負責提出想法,調整引數,AI 負責來實現。在這個過程中,若遇到任何問題,使用者都可以隨時與大模型進行溝通,從而充分發揮人與 AI 各自的優勢。

  • 第二是結果直觀視覺化。即使是沒有開發經驗的人,也能夠透過視覺化的演示知道 AI 生成的程式碼是否跑通了。這樣每個人都可以不再限於自己的技術背景,能夠快速地實現一些新想法。

  • 最後,不論是人與 AI 的互動,還是程式碼生成的結果,都是實時的。這樣的工作流程大幅提升了效率。

「這相當於讓使用者擁有一個 24 小時隨時提需求的『貼身程式設計師』,不用排期、隨時上線,且能滿足你專屬需求。」王曉明類比說。他還透露,阿里內部的開發者每天都在讓通義協助完成大量的程式碼任務,從簡單的程式碼排查、生成和解釋,到更深入的程式碼檔案輔助生成。「有些同事甚至直接用通義程式碼模式復刻出了小時候玩的掌機、小霸王上的一些小遊戲,比如坦克大戰、俄羅斯方塊、飛機大戰等。」

基於 Qwen 2.5

通義程式碼模式還在持續進化

任何一款好用的 AI 產品都離不開背後足夠聰明的大模型,通義程式碼模式也是如此。它基於 Qwen 2.5 大模型進行開發。如果你一直在關注大模型領域的動態,會發現 Qwen 大模型最近的熱度正在持續提高。

在 9 月底,全球開源社群基於 Qwen 系列二次開發的衍生模型數量已經超過了 Llama 系列,達到了 7.4 萬。在 LiveBench 排行榜上,該模型的編碼能力得分超過了 OpenAI 的 o1 模型,曾經躋身排行榜第二。在 Chatbot Arena 榜單上,該模型也能排到第五。

圖片

而且除了跑分,這個模型在國內外開發者中的口碑也非常好。

圖片

無論是在效能方面,還是在影響力方面,Qwen 都已經獲得了充分的認可。

通義程式碼模式的出現,則讓 Qwen 2.5 在多個方面充分發揮了自己的潛力。具體來說,程式碼模式一方面需要基於模型的意圖識別和指令理解能力,將涉及到程式碼的使用者意圖精準識別出來,另一方面也需要將程式碼生成能力進行提升。有了 Qwen 2.5 做基礎,通義程式碼模式在程式碼生成、推理和修復等能力方面表現非常優秀,能夠支援 40 多種程式語言。

此外,通義程式碼模式的程式碼能力相比常規模式有 30% 以上的顯著提升,在程式碼場景下表現極為優秀的同時,也具備很強的數學和通用能力。

在完成意圖的理解和程式碼的生成之後,通義程式碼模式還需要將程式碼檔案渲染成小遊戲、網頁和資料圖表等各類應用,並且支援直接對程式碼的編輯修改(如轉換語言、新增註釋、問答等)。

這其中最大的難點就在程式碼渲染層面。為了儘可能擴大程式碼成功渲染為各類應用的範圍,通義的團隊需要對使用者需求進行深入調研,並且針對主要的幾大類場景進行最佳化,以確保滿足使用者的實際使用需求。其中涉及到意圖理解、模型調優、前端渲染元件適配等一系列複雜的工作。

王曉明表示,通義程式碼模式目前可以實現大多數只依賴前端渲染的應用生成任務,對於更復雜的前後端程式碼,目前可以實現長篇的程式碼片段生成作為輔助。未來,該模式會進一步與 IDE 進行深度結合,幫助使用者完成更加完整的前後端系統程式碼生成,實現更加複雜的應用型別生成。

這才是未來 AI 該有的樣子?

通義程式碼模式選擇的人機互動正規化,可謂如今各路大模型公司主攻的新方向。

從理念上來說,這一模式與國外知名 AI 公司 Anthropic 提出的新功能 Artifacts 以及 OpenAI 釋出的 ChatGPT with Canvas 不謀而合。或者,從某種程度上來說,通義程式碼模式更像是集合了二者的優勢。

Artifacts 的最大特點在於實時預覽。長期以來,大型語言模型一直能夠生成程式碼,但在 GitHub 和 Copilot 等人工智慧輔助開發環境之外,執行生成的程式碼通常需要額外的步驟。這些步驟讓開發人員感覺繁瑣,也把非開發人員擋在了門檻之外。在單獨的視窗中儲存和執行程式碼,可以帶來方便、即時的體驗。同樣,在生成影像和其他視覺化輸出時也是如此。

所以,在 Artifacts 問世之際,很多人將其稱為「本年度最重要的 AI 功能」、「Claude AI 最有用的功能」…… 還有人評價說,它「比 GPT-4o 還要震撼,這才是未來 AI 的樣子」。

圖片

不過,Artifacts 也有一些不方便的地方,比如對於程式語言之間的自動轉換、註釋的新增還沒有做到很好的支援。OpenAI 隨後釋出的 ChatGPT with Canvas 倒是提供了這些功能,但並不支援程式碼預覽和應用生成,前面提到的種種問題依然存在。

圖片

通義程式碼模式更像是二者的結合體。它能夠實現類似 Claude Artifacts 的程式碼生成和預覽功能,並且還支援 Claude 不具備的程式碼編輯、新增註釋、轉換語言等功能,可以一步到位實現小遊戲、網頁、資料圖表等各類應用的預覽和使用,所觸及的人群更加廣泛。

同時,為了讓那些不會寫指令的使用者直接建立應用,通義程式碼模式預置了一批提前生成好的小遊戲和應用,使用者可以直接使用。如果需要修改,使用者只需要簡單改一下指令,就能生成符合自己需要的應用。

如果說,未來的人類社會不可避免地走向人機協作,那麼真正的挑戰不僅在於如何打造更智慧的 AI,還在於如何讓這種智慧易於獲取、直觀自然,並能無縫融入現有的工作流程。

在大模型之爭的上半場,大多數企業都在關注前者。如今到了下半場,關注後者的企業將變得越來越多,OpenAI、Anthropic、阿里通義都屬於行動較早的那一撥。

最後,關於「為什麼要招募不懂程式碼的使用者做測試」,王曉明回答說,「不懂程式碼的人更關注的是能否使用 AI 生成自己需要的各類應用,比如搭建個人部落格、生成貪吃蛇小遊戲、編寫資料圖表等,甚至還有使用者希望用通義來生成一個表白網站的。對於這些使用者來說,更重要的是應用生成的簡便程度和可用性,而不是底層的程式碼實現邏輯。」

從實際使用場景出發,只需要用「大白話敘述」就能構建起符合我們需要的應用,這樣的工具才是真正能夠提升效率的工具,能夠讓更多的人用起來。

因此,「通義程式碼模式」使用者的大頭可以不是程式設計師,可以是學生、老師、資料分析師,自媒體從業者…… 測試者自然要更貼近這些人。

聽起來,這會是一場非常有趣的測試,得到的洞察也會非常豐富。

如果你也想參與測試,可以在通義 App 或者通義 PC 頁面對話方塊輸入「1024」進行預約。期待大家的測試反饋。

相關文章