2023愛分析·AIGC市場廠商評估報告:拓爾思

ifenxi發表於2023-03-28

 

2023愛分析·AIGC市場廠商評估報告:拓爾思

AIGC市場定義

市場定義:

AIGC,指利用自然語言處理技術(NLP)、深度神經網路技術(DNN)等人工智慧技術,基於與人類互動所確定的主題,由AI演算法模型完全自主、自動生成內容,從而幫助傳媒、電商、影視、娛樂等行業進行文字、影像、音影片、程式碼、策略等多模態內容的單一或跨模態生成,以提升內容生產效率與多樣性。

終端使用者:

金融、傳媒、元宇宙等行業組織的產研與業務部門、政府部門

甲方核心需求:

AIGC最核心的能力,就是內容生成。經過訓練的AI演算法模型,能夠超越人類創意、效率,相對高質量地規模化生成海量數字化內容。一方面,AIGC可降低海量數字內容的生成成本,將人類從簡單且重複、基礎性工作中解放出來,聚焦更具創造性的方面;一方面,在人類進行內容創作的過程中,AIGC能夠快速生成大量相關內容,幫助人類擴充、尋找創作靈感,或者基於所提供的資訊,夯實創作基礎。

比如,在傳媒領域,部分新聞內容的自動抓取與生成、標題或摘要的自動化生成;在營銷領域更具智慧的客服機器人,能夠更溫和、人性化的回答客戶常見問題甚至跳躍性問題及非常規問題;在元宇宙領域,可基於智慧演算法和知識圖譜,讓數字人更加智慧地與人類進行互動。

作為人工智慧應用的重大突破,AIGC正在改變甚至顛覆數字內容的生產與消費方式,在Web 3的大背景下,有望成為繼PGC、UGC之後的主要內容創作來源。但國內的AIGC整體上還處於相對早期的階段,不同細分領域的技術及應用落地進度不盡相同。如何基於預訓練大模型形成面向不同行業的、可落地的產品及解決方案,是當前AIGC領域發展的關鍵。具體如下:

  • 在大模型能力方面,企業需要經過調優的垂直化行業大模型,以很好地支撐上層垂直化應用。 GPT-3、BERT、Florence、DALL·E 2等通用預訓練大模型雖然擁有巨量引數,並擁有良好的泛化能力,但在面對不同行業、領域的具體應用場景時,由於缺乏具體行業的行業語料集,並且未面向特定行業的應用場景對模型做進一步調優,因此,其模型對特定行業應用場景的效能指標很可能並不理想。因此,經過行業化調優和行業語料訓練的大模型,才能更好地支撐甲方的具體上層應用。
  • 在落地應用方面,企業需要端到端的AI落地應用服務,確保大模型能夠在具體業務場景下,可產生符合預期的實際應用價值,提高組織在特定場景中的生產效能。 一方面,AI六十餘年的發展歷程已經證明,從模型到高質量的生產與實踐,AI工程化能力非常重要。但大多數企業往往並不具備從需求的原點出發,到模型的設計、資料標註與模型訓練、模型部署及迭代最佳化的AI閉環落地能力,無法確保大模型真正貼合自身應用場景,實現價值落地;另一方面,很多企業同樣也不具備基於大模型進行上層應用開發的能力,預訓練大模型雖已經過設計和訓練,但由於還需要行業化的二次最佳化與訓練,並且需要結合應用場景進行實際業務應用開發,因此仍舊對企業的AI閉環能力提出了一定要求。

除此之外,甲方還有以下期望需求:

  • 在底層能力方面,企業需要生成演算法、預訓練大模型的迭代更新,以提供更優的底層演算法支撐。 預訓練模型是人工智慧科技巨頭在GAN、Transformer、Diffusion、CLIP等基礎生成演算法的基礎上,進行融合、擴充套件、訓練而來的,新一代的基礎生成演算法在模型架構、精準度方面往往表現更優,例如Diffusion替代GAN成為影像生成領域的主流演算法。預訓練模型的迭代與突破,在引數量、算力要求、模型效果方面可能會取得更優的綜合效能,例如Open AI GPT模型1.0-3.5的持續迭代,抑或是LLaMA以更小體量取得了可能比GPT3更好的模型表現。基礎生成演算法、預訓練大模型的迭代,雖然可能會引發演算法效果的質變,但因為需要龐大的人才隊伍、巨量資金支援以及長時間積累,往往是隻有國內外科技巨頭能夠覆蓋。

圖1:甲方企業對於AIGC落地應用的需求

2023愛分析·AIGC市場廠商評估報告:拓爾思

廠商能力要求:

廠商需同時具備以下能力,以幫助各行業組織實現具體場景的應用落地:

  • 廠商具備基於開源預訓練模型,結合行業語料及NLP等技術針對性最佳化出具有優秀可控性的特定領域大模型的能力。 一方面,廠商需要能利用行業know how,結合自身在AI領域的技術積累,微調通用預訓練大模型。另一方面,能夠充分利用自身在特定行業的資料和語料積累,在微調後的大模型基礎上,結合行業化、場景化資料進行進一步訓練,以提升大模型針對特定行業及應用場景的模型表現,生成符合一定要求和標準的內容,訓練出真正適合特定行業及應用場景的專業大模型。
  • 廠商需要具備出色的AI工程化能力及行業服務經驗,能夠AI落地全鏈路服務,靈活適配使用者需求。 廠商需要豐富的行業經驗,能夠進行場景抽象和資料準備,在此基礎上進行演算法設計、模型訓練、模型評估與調優、模型部署的全鏈路能力,並且需要在模型部署上線後,根據行業應用場景的實踐,不斷進行模型最佳化,確保模型結果可控,從而讓AI大模型的“生成能力”不斷接近應用要求,產生真正的業務價值。

針對甲方的期望需求,廠商還應具備以下可選能力:

  • 廠商需要有基礎生成演算法、預訓練大模型的迭代和突破能力,能夠為中層的大模型行業化、上層的行業應用提供支撐。 廠商需要在自身的技術積累的基礎上,對現有Transformer、CLIP等基礎生成演算法以及GPT、BERT、Florence、DALL·E 2等各模態預訓練大模型進行深入拆解與思考,提出新的改進思路和方向並進行驗證、訓練,或者更適合某種語言型別的大模型,以便在模型效果上進行持續突破,進而給行業模型、上層應用提供更多更好的選擇,幫助改進模型的應用價值與效果。

入選標準說明:

1. 符合AIGC市場定義的廠商能力要求;

2. 近一年在AIGC市場中付費客戶數5家以上;

3. 近一年該市場相關營業收入規模在100萬元以上。

入選廠商:

2023愛分析·AIGC市場廠商評估報告:拓爾思

代表廠商評估:

2023愛分析·AIGC市場廠商評估報告:拓爾思

廠商介紹:

拓爾思資訊科技股份有限公司(以下簡稱“拓爾思”),以人工智慧和大資料技術助力政府和企業的數字化轉型為願景,致力於成為語義智慧技術領 導 者 ,自主研發相關人工智慧和大資料技術,核心業務涵蓋大資料、人工智慧、內容管理、網路安全和數字營銷等領域。

產品服務介紹:

拓爾思目前以語義智慧為發展主線,以平臺和行業應用產品、雲和資料服務相結合的產品+服務戰略,實現公司核心技術在眾多垂直行業的應用落地,賦能中高階企業級客戶的數字化和智慧化轉型。在AIGC領域,拓爾思聚焦文字內容的自動生成,以“專業大模型+領域知識資料”為核心思路,透過模型調優和行業特有大資料與知識的融合,為新聞、政務、金融、元宇宙等優勢行業提供高質量專業大模型及上層應用,賦能輔助型、創作型等文字內容的自動生成。

廠商評估:

綜合而言,拓爾思在通用大模型調優、行業資料庫積累、應用落地能力等三方面具備較為突出的優勢,具體如下:

  • 在通用大模型調優方面,拓爾思具有豐富且領先的深度學習、NLP技術積累,具有出色的大模型“垂直化”調優能力,正全力打造“智創”AIGC平臺,將大模型調優能力平臺化、產品化,以更好支撐上層應用。

一方面,拓爾思自2000年開始就自主研發NLP技術,長期聚焦自然語言處理(NLP)、知識圖譜等語義智慧核心技術,將通用預訓練大模型與傳統NLP技術相結合,利用行業Know-How,根據不同場景,透過對通用大模型進行調整和最佳化(Fine-tuning)來適配不同指標,獲得不同行業客戶側重的準確率、召回率、綜合F1值等指標,形成行業化的“專業大模型”,進一步最佳化結果可控性,更好地服務於使用者的具體場景和需求。

另一方面,拓爾思秉承“開源+自研模型”的基本思路打造“智創”AIGC平臺,透過API介面或解決方案模式,更好支撐上層應用,將優先關注元宇宙、傳媒、金融領域、政務服務、通用行業和雲服務等細分市場。其中,在AIGC “文字生成”領域,拓爾思實現自大模型到上層應用的一體化打通;在視覺、多模態領域,拓爾思將依託開源平臺,基於 “開源基礎大模型+行業任務調優”的思路進行研發,偏重前端應用。

圖2:拓爾思“智創”AIGC平臺架構示意

2023愛分析·AIGC市場廠商評估報告:拓爾思

  • 在行業資料庫方面,拓爾思具有媒體、金融、政務等多行業服務經驗及豐富行業語料,可針對各行業訓練出具有行業知識壁壘的高質量大模型。

一方面,拓爾思從2010年自建資料中心以來,已採集超過10年的網際網路公開資料,擁有規模及質量均位列業界前茅的另類資料資產,資料規模超1300億條,資料總量達100TB以上。拓爾思依託完整的資料和知識工程治理體系,基於拓爾思自研的資料底座對上述資料資源不斷進行採集、清洗、轉換、分類、打標等後,推送至拓爾思媒體資訊、網路輿情、產業大腦三大資料資產平臺,透過與不同行業知識模型的融合處理,形成資料資產,可用作大模型訓練語料,具備高質量、高價值特徵,有利於提升大模型的專業性與精準度。

圖3:拓爾思30+專業領域知識資產示意

2023愛分析·AIGC市場廠商評估報告:拓爾思

另一方面,拓爾思基於專注優勢行業專業大模型研發與應用的戰略定位,在調優後的專業大模型基礎上,依託上述明顯的大模型訓練語料資料優勢,進一步訓練出具有行業知識壁壘的行業大模型,大幅提升通用預訓練大模型對行業應用的適配性。拓爾思透過在應用場景下的領先起跑,透過反饋+強化學習,加速飛輪效應,持續提升專業大模型的“可控性”與“安全性”。

  • 在應用落地方面,拓爾思具備自模型設計、訓練、最佳化、部署等在內的一站式AI工程化能力,提供端到端的AI應用落地服務,可賦能機器寫作、自動報告生成、知識型搜尋引擎等多行業具體應用場景,並以“生態力”持續強化自身AIGC應用落地保障能力。

一方面,拓爾思具備智慧資料標註、模型設計、訓練、最佳化、評估、部署等一站式AI工程化落地服務能力,疊加在政務、媒體、金融、輿情、安全、專利等行業豐富的應用場景實踐,有助於專業大模型貼合使用者場景進行快速落地,產生業務價值。

例如,拓爾思為經濟日報、浙江日報、重慶日報等近20家新聞媒體單位提供機器寫稿服務;為冶金工業資訊標準研究院、南方電網、新華網、教育出版社等提供研報自動生成服務;此外,拓爾思還將與某權威新聞機構合作,將該機構的新聞資料庫和歷史資料錄入大模型做預訓練,基於高針對 性 交 互,形成權威且高效的內容輸出,形成供該機構內部使用的知識型搜尋引擎,供該單位的內容創作者進行再創作時做參考,完成輔助創作。

另一方面,在大模型時代,“生態力”是“AIGC+”在各行各業成功商業落地的重要保障。拓爾思將持續建立和強化NLP商業生態,與行業知識專家、平臺型企業、行業頭部企業展開領域知識、算力、行業創新等方面的合作,發揮自身資料資源、行業經驗及技術優勢,確保AIGC更好、更持續落地。

典型案例:

1. 案例背景及客戶需求痛點

隨著元宇宙概念的火爆,虛擬人有望成為下一代網際網路人機互動的重要入口,正在AI新聞主播、智慧陪護、智慧助理、直播帶貨等越來越多領域發揮作用,創造現實價值,不僅有助於大幅降低某些場景的人力成本,也一定程度上提升了服務的人性化程度、智慧化程度。2022年北京冬奧會的成功舉辦,更為虛擬人在傳媒行業的應用提供了發展契機,眾多形象各異的虛擬人紛紛破圈而出。總體來看,傳媒行業傳統的內容生產主要面臨以下痛點:

1)內容生產流程分散、低效。 從熱點發現、選題策劃到內容採編發,均以人工手動獲取為主,具有滯後性和侷限性。

2)傳播形式較為傳統。 傳統的傳播以圖文、影片等常見形式進行資訊傳播與展示,受眾存在一定的審美疲勞,會間接影響傳播效率和效果。

2. 拓爾思的產品及解決方案

針對以上需求痛點,拓爾思在基於自主研發的、整合了自然語言處理、大資料、人工智慧等技術的數字虛擬人SaaS平臺上進行開發,推出了AI主播“小思”,為北京冬奧會提供以媒體大資料驅動的、集自動分析、智慧創作、虛擬播報於一體的產品與服務。

1)在自動分析與智慧創作方面,拓爾思透過媒體大資料採集與NLP自然語言處理技術,建立關聯關係,形成知識圖譜,為“小思”提供“智慧大腦”,快速自動生成分析報導。

在資料採集與處理環節,拓爾思採用全新架構的大規模分散式排程採集系統,實現彈性採集與碎片化排程,以人工輔助+機器自動標引相結合的方式實現對資料的精加工;

在資料建模分析環節,將人工經驗知識庫+智慧挖掘機理相結合,由專家團隊人工整理語料及規則形成知識庫,並以此為基礎進行語料深度學習;

在資料應用環節,透過冬奧會新聞輿情分析、傳播效果分析及冬奧會觀眾畫像分析等,實現大資料應用視覺化、自動採編、智慧寫稿。

2)在虛擬播報方面,依託虛擬人形象技術,使用者可進行虛擬人形象選擇,實現虛擬人口型的同步驅動,為“小思”提供端莊、大氣、靈動的外表。

依託拓爾思的虛擬人SaaS服務平臺,提供從選“人”到成片的虛擬人制作的一站式服務為使用者的操作提供了最大便捷。該平臺最 底 層為虛擬人的形象技術支撐,包括形象、語音、視覺中樞,旨在實現文字合成語音,語音驅動虛擬人口型的同步。同時,該平臺還支援針對虛擬人形象的選擇,包括2D、3D、以及基於真人形象的採集訓練還原,支援對虛擬人參數的各種可配置化功能,如服裝、顏色、姿勢、 聲音、肢體動作等引數的可配置化。


圖4:拓爾思AI主播“小思”-北京冬奧播報示意

2023愛分析·AIGC市場廠商評估報告:拓爾思

3. 方案優勢

小思冬奧播報真正實現資料自動採集、語義智慧分析、內容自動生成、虛擬人播報等一體化、全自動功能。

在內容自動生成方面,與同行業相比,拓爾思深厚的大資料及AI技術能力,大幅提高了內容生成速度及播報準確度。 拓爾思在語義智慧技術領域,具有先發全棧的自然語言處理能力優勢;在大資料技術領域,公司具備資料獲取、資料治理、資料檢索、資料分析全生命週期的能力,拓爾思資料中心已具備數千億資料量的資料索引、標記、查詢、挖掘分析能力,萬億級資料總量的秒級檢索能力,日均億級資料獲取能力。大資料及NLP技術提升智慧化水平,為賦予小思“實用的靈魂”提供了堅實支撐。

在虛擬人播報方面,使用者可根據需要靈活定製主播形象。 拓爾思的虛擬人SaaS平臺提供多套服裝配飾、表情動作、肢體動作、聲音等供使用者選擇,適配不同場景的播報。支援多影片開窗、圖片開窗、文字開窗、字幕、圖層、背景、LOGO等影片編輯功能,使用者只需簡單拖入各種素材元素、配置元素的屬性、調整元素圖層的疊加順序,即可完成內容豐富、樣式多樣的虛擬人內容播報。

4. 方案價值

“小思”以冬奧會整體報導情況與熱點解析為切入點,主要應用場景包括北京冬奧會報導線索發現(實時聚焦、海內外爆料等)、熱點挖掘(冬奧會全網熱點、媒體頭條等)、傳播分析(關注冬奧會的使用者畫像等)及專題追蹤等,可幫助觀眾瞭解冬奧會賽事盛況、快速把握冬奧會海量資訊中的亮點資訊。“拓爾思虛擬數字人小思冬奧播報”案例同時入選了“北京國家人工智慧創新應用先導區優秀案例”和“2022北京產業網際網路創新應用場景案例”。

此外,拓爾思數字虛擬人技術還在相關主流媒體的冬奧宣傳報導中進行了成功應用,替代人力完成傳媒流程中的採、編、發、以及分析等任務,最佳化升級了傳媒現有流程,推動主流媒體將人力安排到更有意義和價值的策劃和內容創作等工作當中,有效解放及最大化了主流媒體的生產力。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69993021/viewspace-2942257/,如需轉載,請註明出處,否則將追究法律責任。

相關文章