大模型開啟人工智慧的新時代

brucexia發表於2023-11-01

大模型是指具有非常大的引數數量的人工神經網路模型。在深度學習領域,大模型通常是指具有數億到數萬億引數的模型。這些模型通常需要在大規模資料集上進行訓練,並且需要使用大量的計算資源進行最佳化和調整。

大模型通常用於解決複雜的自然語言處理、計算機視覺和語音識別等任務。這些任務通常需要處理大量的輸入資料,並從中提取複雜的特徵和模式。透過使用大模型,深度學習演算法可以更好地處理這些任務,提高模型的準確性和效能。

大模型的訓練和調整需要大量的計算資源,包括高效能運算機、圖形處理器(Graphics Processing Unit GPU )和雲端計算資源等。為了訓練和最佳化大模型,研究人員和企業通常需要投入巨大的資源和資金。


大模型帶來的變革


人工智慧正處於從“能用”到“好用”的應用落地階段,但仍處於落地初期,主要面臨場景需求碎片化、人力研發和應用計算成本高,以及長尾場景資料較少導致模型訓練精度不夠、模型演算法從實驗室場景到真實場景差距大等行業問題。而大模型的出現在增加模型通用性、降低訓練研發成本等方面降低了人工智慧落地應用的門檻。

10 年來,透過“深度學習+ 大算力”獲得訓練模型,已經成為實現人工智慧的主流技術途徑。由於深度學習、資料和算力這3 個要素都已具備,因此全球掀起了“大煉模型”的熱潮,也催生了一大批人工智慧公司。

然而,在深度學習技術出現的近10 年裡,模型基本上都是針對特定的應用場景進行訓練的,即小模型屬於傳統的定製化、作坊式的模型開發方式。傳統人工智慧模型需要完成從研發到應用的全方位流程,包括需求定義、資料收集、模型演算法設計、訓練調優、應用部署和運營維護等階段組成的整套流程。這意味著除了需要優秀的產品經理準確定義需求外,還需要人工智慧研發人員紮實的專業知識和協同合作能力才能完成大量複雜的工作。

在傳統模型中,研發階段為了滿足各種場景的需求,人工智慧研發人員需要設計個性定製化的、專用的神經網路模型。模型設計過程需要研究人員對網路結構和場景任務有足夠的專業知識,並承擔設計網路結構的試錯成本和時間成本。

一種降低專業人員設計門檻的思路是透過網路結構自動搜尋技術路線,但這種方案需要很高的算力,不同的場景需要大量機器自動搜尋最優模型,時間成本仍然很高。一個專案往往需要專家團隊在現場待上幾個月才能完成。通常,為了滿足目標要求,資料收集和模型訓練評估需要多次迭代,從而導致高昂的人力成本。

但是,這種透過“一模一景”的車間模式開發出來的模型,並不適用於垂直行業場景的很多工。例如,在無人駕駛汽車的全景感知領域,往往需要多行人跟蹤、場景語義分割、視野目標檢測等多個模型協同工作;與目標檢測和分割相同的應用,在醫學影像領域訓練的皮膚癌檢測和人工智慧模型分割不能直接應用於監控景點中的行人車輛檢測和場景分割。模型無法重複使用和積累,這也導致了人工智慧落地的高門檻、高成本和低效率。

大模型是從龐大、多型別的場景資料中學習,總結出不同場景、不同業務的通用能力,學習出一種特徵和規律,成為具有泛化能力的模型庫。在基於大模型開發應用或應對新的業務場景時可以對大模型進行適配,比如對某些下游任務進行小規模標註資料二次訓練,或者無須自定義任務即可完成多個應用場景,實現通用智慧能力。因此,利用大模型的通用能力,可以有效應對多樣化、碎片化的人工智慧應用需求,為實現大規模人工智慧落地應用提供可能。

大模型正在作為一種新型的演算法和工具,成為整個人工智慧技術新的制高點和新型的基礎設施。可以說大模型是一種變革性的技術,它可以顯著地提升人工智慧模型在應用中的效能表現,將人工智慧的演算法開發過程由傳統的煙囪式開發模式轉向集中式建模,解決人工智慧應用落地過程中的場景碎片化、模型結構和模型訓練需求零散化的痛點。


最強的中文大模型—— 清華大學ChatGLM 介紹


本書在寫作時,應用最為廣泛和知名度最高的大模型是ChatGLM ,這是由清華大學自主研發,基於GLM General Language Model )架構的一種最新型、最為強大的深度學習大模型。

ChatGLM 使用了最+先進的深度學習前沿技術,經過約1TB 識別符號的中英雙語訓練,輔以監督微調、特定任務指令(Prompt )訓練、人類反饋強化學習等技術的加持,針對中文問答和對話進行了最佳化。而其中開源的ChatGLM-6B 具有62 億引數。結合模型量化技術,使用者可以在消費級的顯示卡上進行本地部署(INT4 量化級別下最低只需6GB 視訊記憶體),並且已經能生成相當符合人類偏好的回答。

ChatGLM 是目前最+先進的自然語言處理技術之一,具有強大的智慧問答、對話生成和文字生成能力。在ChatGLM 中,使用者可以輸入自然語言文字,ChatGLM 會自動理解其含義並作出相應的回應。

ChatGLM 採用了GLM 系列的生成模型架構,該架構是在GLM 原有基礎上進行改進的,是目前最大的語言模型之一。這使得ChatGLM 能夠處理更復雜的自然語言問題,並生成更加流暢自然的對話。

ChatGLM 能夠處理多種型別的自然語言任務。它可以回答問題、生成文字、翻譯語言、推理和推斷等。因此,它可以應用於許多不同的領域,包括客戶服務、線上教育、金融和醫療保健等。

ChatGLM 的問答能力非常強大。它可以回答各種各樣的問題,無論是簡單的還是複雜的。它可以處理人類語言中的模糊性和歧義,甚至可以理解非正式的對話和口語。此外,ChatGLM 還可以從大量的語言資料中進行學習和自我更新,從而不斷提高其回答問題的準確性和可靠性。

除了問答能力外,ChatGLM 還具有出色的對話生成能力。當與ChatGLM 進行對話時,使用者可以感受到與真人進行對話的感覺。ChatGLM 可以根據上下文理解問題,並根據其對話歷史和語言資料生成自然的回答。它還能夠生成有趣的故事和文章,幫助使用者創造更加生動的語言體驗。

ChatGLM 的另一個重要特點是其翻譯能力。ChatGLM 可以將一種語言翻譯成另一種語言,從而幫助使用者克服跨語言交流的障礙。由於ChatGLM 能夠理解自然語言的含義,因此它可以生成更加準確和自然的翻譯結果。

ChatGLM 還可以進行推理和推斷。它可以理解和應用邏輯和常識,從而幫助使用者解決一些需要推理和推斷的問題。例如,當給ChatGLM 提供一組資訊時,它可以從中推斷出一些隱藏的規律和關係。


本文節選自《 從零開始大模型開發與微調:基於PyTorch與ChatGLM 》。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/18841117/viewspace-2992384/,如需轉載,請註明出處,否則將追究法律責任。

相關文章