現場拔網線!第四正規化版GPT能力首秀,有點不一樣

人工智慧洞察站發表於2023-04-27
金磊 發自 第四正規化大廈
量子位 | 公眾號 QbitAI

國產大模型能大戰,又有一員猛將入局。

就在剛剛,第四正規化自研大模型“式說”(4Paradigm SageGPT)在上線2個月後,終於來了一波能力首秀。

而且縱觀整場活動的釋出,最直觀的感受就是:不一樣,著實不一樣。

怎麼說?

首先,他敢在現場演示的時候,拔!網!線!

現場拔網線!第四正規化版GPT能力首秀,有點不一樣

效果是這樣的,例如上傳一張《狂飆》劇照之後,讓“式說”描述一下照片,它的回答是:

這張照片中有一組穿著制服的男子站在一張桌子前。

現場拔網線!第四正規化版GPT能力首秀,有點不一樣

而後追問劇照中有幾個人,“式說”也立即給出了答案:9個。

再來看下以文生圖的能力,先讓它畫一下“獅子頭”

現場拔網線!第四正規化版GPT能力首秀,有點不一樣

不難看出,生成圖片的效果是過關的;此時現場很多人立即開口說到:“紅燒獅子頭”呢?

第四正規化不在怕的,馬上在現場演示了起來:

現場拔網線!第四正規化版GPT能力首秀,有點不一樣

接下來,是程式碼生成方面,第四正規化在現場直接讓“式說”秀了一下“Python猜隨機數”

現場拔網線!第四正規化版GPT能力首秀,有點不一樣

面對敢於拔網線的live演示,現場觀眾也是驚歎與掌聲不斷。

但“不一樣”的點還不只於此,而且上面展示的這些能力,也僅僅是“開胃菜”

因為第四正規化的GPT,並不是“你以為的你以為”,而是不同於其它廠商的一套玩法——

用AIGC的能力重構軟體(AIGS),目的就是以此來提高企業軟體的使用者體驗和開發效率。

例如讓“式說”分析集裝箱及小箱子尺寸,並設計裝箱方案。

它就會先向使用者諮詢與之相關的細節的資訊,然後便一步一步執行它的方案,還是會給出思考過程的那種。

現場拔網線!第四正規化版GPT能力首秀,有點不一樣

對此,第四正規化CEO戴文淵在現場給出了他的解釋:

C端產品已經逼近使用者體驗的上限,而B端的企業級軟體往往是個十分複雜的執行系統。

目前這些B端軟體極為複雜的互動體驗,以及複雜性帶來的極低開發效率,恰恰為生成式AI留下足夠大的重構和改造空間。

不是你以為的GPT

整體來看,“式說”之所以能夠擁有上面展示的這般能力,是因為在它的背後擁有三大技術“利器”。

首先就是多模態大語言模型技術

“式說”在最初2月釋出之際所支援的能力是單一模態的,即文字對話能力。

而時隔僅1個月,第四正規化便將語音、影像、表格、影片等多模態輸入及輸出能力融入了進來。

第二大技術“利器”,則是企業級Copilot

值得一提的是,這個Copilot並非是微軟、GitHub的那個Copilot。

而是第四正規化透過自研大語言模型對專業領域的知識做理解,以便幫助使用者實現某些功能。

例如在開發的過程中,在企業級Copilot的加持之下,所需的成本就只是把API對接進來即可。

什麼概念?

這就好比ChatGPT Plugins一般,只需要安裝特定領域第三方的外掛,就能讓ChatGPT在這個領域變得更加聰明、專業。

同樣的,當企業使用“式說”時,Copilot就可以調出企業軟體的有關功能,員工可以透過語音、影像、表格、影片等形式獲取想要的答案。

例如在航空製造業,軟體設計人員只需要上傳一些圖片,即可提出要求讓“式說”在上百萬的工裝零件庫中找出相似零件,並進行組裝:

現場拔網線!第四正規化版GPT能力首秀,有點不一樣

由此可見,“多模態大語言模型+Copilot”這套組合打法,可以讓AIGC在產業實際落地過程中更加得心應手。

但若是僅僅如此,依舊還是遠遠不夠的。

因為上述能力只能去應對某些單一的、碎片化的任務,而產業中的問題往往更加紛繁複雜。

就好比我們在用Photoshop去美化一張圖片時,往往需要涉及裁剪、調濾鏡、調亮度等等多個步驟。

不過往往人們想要的結果是一步到位,直接說一句“給我生成某個產品的海報”,所問即所得。

而這種情況放在企業生產過程中,不僅是要完整結果那麼簡單,還需要對生成的過程做到“不黑箱”,步步均可解釋。

為此,第四正規化便在上述兩大“利器”之上,引入了第三個關鍵技術——企業級思維鏈(Chain of Thought,CoT)

思維鏈這個概念最早是由谷歌提出,是一種特殊的上下文學習。

它不同於標準提示只是給出輸入-輸出對的示例,思維鏈提示還會額外增加一段推理的過程。

員工只需要交代一個任務,它不僅能夠給你一個較為完美的答案,而且還會把期間所有流程是怎麼思考的、如何執行的,一一都解釋清楚。

值得一提的是,第四正規化這種企業級思維鏈是針對特定領域學習的“套路”,是更具專業性、可信度的那種。

現場拔網線!第四正規化版GPT能力首秀,有點不一樣

不過有一說一,第四正規化今天的釋出,並非是趁著這波大熱潮一蹴而就的事情。

據第四正規化介紹,早在BERT出來的時候,正規化研究院就開始關注並投入在這個技術領域,GPT3出來以後就更加明確了這個方向。

與此同時,第四正規化也坦誠地說“相比今年的投入,過去幾年肯定還是有差距的”。

整體來看第四正規化的技術路線,大致可以總結為三步

  • 式說1.0:擁有生成語言對話能力,主要場景是文庫問答;相當於讓GPT學習的企業知識後,可以自然地與員工互動,解答專業問題,並且是可溯源的。

  • 式說2.0:加入文字、語音、影像、表格、影片等多模態輸入及輸出能力,並增加了企業級Copilot能力。

  • 式說3.0:發力Copilot和思維鏈,提升使用傳統B端企業軟體的體驗。

為何如此佈局?

一言蔽之,AIGS,即用AIGC的能力重構軟體。

畢竟能夠用起來的技術好技術,雖然AIGC熱潮很火爆、諸如GPT-4這般效果非常強悍的技術出現了,但它們之於產業,目前又帶來了怎麼技術價值?

這便是第四正規化所思考的根本問題,而且戴文淵表示:

要做到AIGS,大模型未必需要是知識廣博、十項全能冠軍的通才。

更重要的在於模型具備Copilot和思維鏈CoT的能力。

在第四正規化看來,傳統B端軟體先是出現過體驗上的不足,例如企業內的報銷系統、HR系統、OA系統等,可以說是“選單接選單,選單何其多”。

現場拔網線!第四正規化版GPT能力首秀,有點不一樣

而大語言模型的到來,使得這些複雜系統可以透過更好的互動方式去實現功能的呼叫,這是顛覆之一。

例如在AI改造後的企業軟體,以預定會議室為例,不再需要在選日期、選時間段、選會議室了。

而是像跟秘書對話一般,直接來一句“幫我預定某某時間段的會議室”,即可。

現場拔網線!第四正規化版GPT能力首秀,有點不一樣

在企業軟體開發上,亦是如此。

因為傳統B端企業軟體往往都是高度定製化、基於選單式的開發,每次一個功能升級,又要週而復始的經歷原型圖、設計、開發等,至少是月級別的開發時間。

但由於新的互動形式的出現,現在功能和邏輯只需在資料、API和內容層面下功夫即可,變成了天級別的開發效率,這又是顛覆之一。

正如第四正規化所說:

我們看到大模型能夠帶來使用者體驗的提升,開發效率的提升,所以一定會形成軟體行業的飛躍,就是誰率先能做出來的問題。

當軟體產業被改造以後,整個行業的業務價值、商業模式都會得到飛躍。這是一個巨大的市場。

那麼AIGS這條路,具體又該如何走?

第四正規化對這個問題也給出了自己的見解,主要分為三大階段:

  • 第一階段:Copilot調動不同的資訊、資料、應用,作為助手完成使用者的指令。相當於在所有企業級軟體系統裡,配備一個指揮官。指揮官聽使用者的指揮,比如“把照片亮度調亮20%”。

  • 第二階段:Copilot+基於企業規則的“知識庫”,AI能夠參照規則做複雜工作,比如AI查詢了“人像美化”知識庫後,能執行把照片修好看的步驟。

  • 第三階段:Copilot+CoT。軟體系統的使用行為最終會被大模型學會,形成AI針對這個領域的思維鏈,意味著“把照片處理得更好看”這種複雜指令,AI能自動地按照步驟完成。

現場拔網線!第四正規化版GPT能力首秀,有點不一樣

但更深一層的,若是細看下第四正規化的過往,就不難發現如此佈局背後的本質——“做企業級”、“與軟體公司打交道”似乎一直是刻在第四正規化的一個基因。

那麼這一次,第四正規化是否能用AIGC重塑產業軟體的新正規化,是值得期待了。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/70027828/viewspace-2949257/,如需轉載,請註明出處,否則將追究法律責任。

相關文章