本文內容來源於達觀資料董事長兼CEO陳運文受邀出席36氪數字時氪的《年度AI對話》專欄採訪內容

年度AI對話|達觀陳運文：做私有部署的大模型，資料安全更具優勢

大模型既帶來了壓力，也帶來了機會

文 | 楊俊

編輯 | 石亞瓊

封面來源｜企業官方

掌握了人工智慧就掌握了新時代的生產力密碼。在ChatGPT爆火的當下，大模型火遍全球，中國產業也激發了對人工智慧應用的新熱情。因此，這個時間點，36氪數字時氪團隊正式啟動《年度AI對話》專欄，希望與國內在大模型領域有著深度研究的專業人士進行熱點話題的探討，透過一系列報導，還原AI新的技術能力與應用潛力。

本期我們邀請到了達觀資料董事長兼CEO陳運文。

最近火熱的大模型，對NLP、IDP、OCR、RPA、知識圖譜等技術到底是衝擊還是利好，這無疑是當下行業關心的熱點之一。而作為一家在智慧文字領域研究多年的公司，達觀無疑是最適合回答這一問題的公司之一。3月，達觀宣佈正在研發的垂直領域模型名叫“曹植”，希望它作為垂直、專用、國產的GPT模型，未來在各行各業裡落地應用。達觀資料也成為國內第一批宣佈自研大模型的企業之一。在陳運文看來，與通用型大模型相比，達觀的模型引數少，訓練成本和使用成本都更具有競爭力；與公有部署相比，私有部署的模式在資料安全方面更具優勢，也更適合中國金融、電信這樣的行業；而對於包括RPA在內的行業來說，今天既是挑戰，更是機會。

以下內容為採訪原文，經數字時氪編輯整理：

年度AI對話|達觀陳運文：做私有部署的大模型，資料安全更具優勢

垂直領域的大模型相比通用大模型在某些方面更具優勢

目前ChatGPT、文心一言已經被大眾所熟知。似乎通用型大模型在帶給使用者廣泛認知方面具有極大優勢。但是在垂直領域層面，這種建立在公有云上的大模型更容易被客戶擔憂資料安全的問題。尤其近期ChatGPT頻繁被爆出負面資訊後，這方面的問題更將引起使用者的重視。基於此，我們和陳運文聊了聊達觀正在做的曹植系統以及曹植系統的優勢。

數字時氪：達觀資料會在這場AI浪潮中成長為什麼角色呢？

陳運文：因為達觀資料所在的賽道恰恰就是當前大模型所在的賽道，所以我們從一開始就非常關注大模型技術的演進和發展。在我們看來大模型是一個劃時代的技術，是需要全力投入的一件事情。所以在3月初，我們在北京聯合中國人工智慧學會開展的ChatGPT及大模型專題研討會研討會上就宣佈達觀在自研國產大模型—曹植。我覺得大模型從根本上解決了很多困擾已久的難題，能夠讓自然語言處理領域煥然一新。目前的市場確實很熱，我們對此的響應速度也是比較快的，應該在國內的創業公司中是第一批宣佈自研大模型。雖然現在百度釋出了文心一言，但我認為整體來說在中國的市場才剛開始，國內要真正研發出非常優秀的可用的系統，還是需要摸索一段時間的。

數字時氪：曹植系統目前的進度情況如何？

陳運文：曹植系統和百度的文心一言這種面向C端的通用的模型在定位上還是不一樣的。曹植系統面向的更多是垂直領域的可以私有化部署的一些客戶。

對於大模型的產品，我們看到很多中國的客戶還是很擔心這種通用大語言模型會導致資料的安全問題或者隱私洩露的問題，所以針對這種客戶需求，曹植系統是可以在客戶內部進行細化部署，在客戶的內網下針對客戶的行業和應用場景進行定製，我覺得這是曹植系統和針對通用的C端的模型很大的區別。因為曹植系統是面向企業來使用，所以企業更關注的是這個模型能夠在哪些場景裡落地和使用。

目前大家看到的是利用ChatGPT或文心一言來做一些問答，其實這項技術不僅僅適用於這樣的場景。在企業裡面我們看到的應用場景其實是非常非常多的。比如非常專業的報告的寫作，就是這種模型發揮價值的地方。尤其是篇幅比較長有比較專業的報告的寫作，這完全是大模型可以去做的。這也是ChatGPT等一些模型並沒有涉足的應用領域，恰好是我們的機會。

其實，現在在這種領域應用的技術難度是很大的，雖然技術本身也是大模型，但因為應用的場景不一樣，所以在具體的產品形態、演算法以及訓練資料方面，和這種問答的聊天領域的應用資料還是有很大差異的。而達觀資料在垂直領域做專業的文件處理系統已經研發了很久，所以這對我們來說也是能夠形成很好的差異化競爭的方面。

目前的進度是我們在3月初在市場上宣佈正在研發中，模型還在打磨中，爭取在上半年完成第一版的產品研發工作。最近，我們的一些合作伙伴包括大型的央企、國企，以及大型金融機構在和我們溝通共同打磨產品。這對我們來說是一個好訊息。

以前可能人和機器在這方面的工作比例是機器完成30%-40%的工作，人來完成60%-70%的工作，現在將大模型內嵌之後，人和機器的配合比例會有明顯的變化，可能以後人只要做 10% 的工作，剩下 90% 的工作都是交給機器來做，而且質量會有巨大的提升。

另外在人機互動的形態上會有比較大的變化，比如之前的產品會需要點開各種選單，點選相應的功能按鍵進行操作。之後，我們可以透過自然交流的方式進行操作。

數字時氪：相比於類似文心一言類的通用型模型，曹植系統的優勢在哪裡？

陳運文：我覺得首先是資料安全的問題，因為我們所有的客戶都非常關心自己的私有資料會不會被大模型洩露出去，如果用一個公開的通用的模型的話，確實會存在資料被模型學習後而被他人利用。所以曹植是派到各個企業內部進行部署的，這會讓客戶覺得更安全。因為文心一言畢竟是一個通用的模型，它部署在公有云上，所有人都同時在用的，確實還是很難兼顧到每一個企業自己獨有的資料安全的問題。

另外每個企業內部都有自己的工作規範和規章制度的，垂直領域的大模型需要遵照公司的規章制度和工作規範去完成企業所需的材料的稽核、寫作、分析等等這些工作，而每個企業的工作規範和要求標準都是不一樣的，其實很難用文心一言這種通用模型滿足每個企業獨特的工作規範的要求。所以這對我們來說是有很好的一個機會。我們的所有模型在內部做過通用訓練後，在客戶的那邊還要做二次的定向訓練，只有這樣才能夠掌握客戶自己內部的資料以及內部的工作規範。我們的模型的引數規模相比通用模型是要少一個數量級的，我們的模型都是在百億級的引數規模，而現在通用模型普遍都是千億級的，甚至可能後面還會有萬億級的引數規模。因為我們的模型的尺寸要小很多也是做了很多精選資料訓練，相對來說它的訓練成本和使用成本都比這種通用模型要少得多。這個成本是很多客戶能夠承受的，尤其是在客戶的二次訓練和使用階段的成本要低很多。

所以對很多客戶來說，它的硬體投入成本基本在百萬人民幣量級就夠了，這是很多企業能夠負擔得起的成本。對我們來說的話，模型的整體訓練過程可控，時間成本和資料相對來說會比通用模型會少很多，所以這個是我們比較務實的做法。

客戶比較關注的是原本有很多系統需要被大量使用，首先是這些系統是耗費大量的人工來做的，第二就是使用的過程其實不是很順暢，這些其實都是曹植可以來解決的問題，第一把耗費人力比較多的、比較麻煩的一些事情，用曹植來自動化完成。第二可以把互動過程變得更加方便和友好。以前使用軟體需要輸賬號，登入，點選單，再點子選單等等，這個過程其實挺挺繁瑣的。但使用曹植後，可以形成一個比較自然的互動形式，它可以和RPA以及NLP、知識圖譜等等對接，之後你可能給個簡單指令，他能夠把後面的工作全部都自動化。

所以曹植可以在已有基礎上面讓使用者的互動的過程更流暢、體驗更好。這個其實也是很多客戶非常感興趣的應用場景。

數字時氪：為什麼要探索價效比更高的引數規模方案？

陳運文：因為不可能每個客戶都是投幾個億去建一個叢集來做模型的訓練的，大模型真正在工業領域使用過程中還是要考慮價效比的。同時我們在學術研究的過程當中發現其實當前的很多的大模型，它的很多引數並沒有被充分的訓練，也就是說有很多引數其實是被浪費的。我們也看到了Meta推出了 650 億的LLaMA模型，650億的引數規模比 GPT3.5要少得多，但是效果其實是不弱於GPT 3.5的，就是因為它的訓練的資料質量更高，訓練更密集，訓練演算法更最佳化，這也給了我們很好的啟發。

我們希望研發出一個效果非常優秀的模型，但同時引數規模可控，客戶在使用它的時候成本可控，具有價效比，能夠讓客戶負擔得起。我覺得這是在面向ToB 這個領域使用的時候，必須要解決的技術難題。

年度AI對話|達觀陳運文：做私有部署的大模型，資料安全更具優勢

大模型的出現，既帶來了壓力，也帶來了機會

RPA賽道透過和流程挖掘的搭配曾在去年一度成為企服的新風口。但當大模型出現後，RPA賽道似乎也迎來了新的變化。

達觀資料在RPA領域有著很深的研究和實踐，陳運文講述了大模型對達觀的影響和他對RPA業務在大模型出現後的新發展的看法。

數字時氪：這次的大模型技術給達觀資料帶來什麼樣的影響？

陳運文：我覺得我們有先發優勢，相比同行們，我們可能可以跑在更前面。我們在資料、人才、算力方面是有些積累的。另外因為市場空間變大了，這對我們來說是一個非常好的機遇。

以前客戶提出了很多應用場景，但因技術條件有限，很難達到客戶滿意的能夠非常自然流暢使用的水平，但現在有了大語言模型，針對以前客戶提出來的很需要，但又很難搞的應用場景，我們用新模型都能搞定，而且效果甚至超出客戶的預期，這就是機遇。

數字時氪：大模型對RPA業務產生了重大沖擊了麼？

陳運文：它對RPA不會有直接的衝突的，因為它畢竟是個語言模型。但是它會對 RPA 起到一個很好的促進作用。行業裡面未來可能很多的工作都是用大語言模型和 RPA 串聯在一起去完成。所以如果你掌握了大語言模型，同時又掌握了 RPA 的技術的話，其實機會是很多的，這也是達觀資料非常重視的一個基礎，而且未來一定會和我們的 RPA 結合在一起去發揮作用。

去年出現的一個趨勢是RPA+流程挖掘。在中國，流程挖掘落地的時候可能更多還是需要靠人來做諮詢工作。我覺得這其實還不是特別的完善，在很多時候需要靠有經驗的流程挖掘師結合一些工具來做，這是目前的常見的做法。當然我覺得大模型其實是更落地，會更容易能夠看到效果。

年度AI對話|達觀陳運文：做私有部署的大模型，資料安全更具優勢

大模型發展之路道阻且長

目前，無論是ChatGPT還是文心一言幾乎都會出現回答的內容不是特別理想的情況，甚至可能會有事實性錯誤的發生。

不僅如此，大模型技術的誕生，已經開始被別有用心的人注意到且做了一些非法牟利之事。

但新技術的出現，往往都會經歷這個階段。面對這些情況，陳運文向我們講述了他的感受和想法。

數字時氪：怎麼解決算力問題？

陳運文：在算力上，我們採購了很多 A100 和 A800 的GPU。對於一些模型的除錯也是用我們自己的 IDC 來做的。但是當模型裡的引數規模進一步放大到幾百億、上千億的時候，我們自己的叢集就撐不住了，所以我們也在積極聯絡在GPU擁有數量比較大的供應商，租賃算力進行一些更大規模型的一次性的訓練。但目前整體來說國內的公共算力平臺還是比較匱乏的。

同時我們還聯絡了一些國家重點實驗室以及高校機構，希望進行算力叢集的支援。所以這是限制我們的模型迭代速度的一些瓶頸。當然我們也在想辦法解決。

在演算法方面，因為GPT 3之前，整體的演算法都是公開的。GPT 3之後，一些演算法細節是保密的。但是我覺得因為整體的技術原理大家都瞭解，而且一些大致的方法在學術界有很多論文，在演算法方面，達觀資料有技術積累，也有強力的人才和團隊，所以還是比較有信心的。

數字時氪：如何解決人才問題？

陳運文：人才方面，我覺得Open AI 做了一個非常好的行業的表率。其實這個團隊內部做了很多的劃分的，比如有人做資料提煉，有人做資料採集，有人做模型翻衝，有人做人類強化學習的反饋等等。

大模型的打造是一個非常標準的大規模工程性問題，我覺得Open AI的成功是因為他把每一個工程環節都分解的很細，而且都做了非常好的這個最佳化，它是一個工程的勝利，所以對我們來說也是，我們其實希望培養的是一個優秀的工程人才，他既有學術底蘊，能看懂論文、瞭解一些技術，但更重要的是能夠動手實踐，能夠摸索出很多具體的引數、配方、工程工藝等等這些工作。在這個過程中，其實是我覺得動手是真的比較重要的。所以我覺得工程能力其實是眼下人才培養當中最需要的，也是我們花很多心血的地方。

做大模型真的是蠻花錢的一件事情，包括我們還買了英偉達的DGX工作站，這就非常燒錢，但是我覺得這個投入是非常值得的。相比較而言，達觀在創業公司當中算是頭部企業，資金還比較雄厚，還是付得起這個錢的。但可能對一些更小一點的初創期的創業公司來說，資金問題確實挺難的。

但是相對來說，我覺得更稀缺的其實是人才，因為人才是需要漫長的培養過程的，國內能夠做大語言模型訓練的優秀人才短期之內是比較稀缺的，所以在市場上面，優秀人才的爭奪是比較激烈的。

但我覺得從長遠的角度來看，未來更多的競爭會是在資料層面，這也是最近行業裡面普遍的觀點。因為訓練大語言模型，需要高質量的文字資料資料，而高質量的文字資料資料在國內其實是非常稀缺的。

數字時氪：如何解決大語言模型技術的缺陷？

陳運文：目前確實會有很多這樣的問題，但是我自己還是非常樂觀的，因為我覺得這些問題其實都是一些技術細節，這些技術細節在接下來模型的迭代過程當中是可以被解決的。

比如在一些精確的事實和資料方面，我們會有其他的模型來做一些配套的二次檢查和更正的工作。所以大模型是可以和已有的一些模型取長補短融合在一起，更好的來滿足B端客戶的需求的。

數字時氪：大模型技術應用是否會帶來一些安全隱患？如何應對？

陳運文：這個我還沒有特別好的方法，因為這個技術確實是如你所說，如果它被別有用心的人利用的話，確實破壞力也是巨大的，所以在這方面我還沒有特別好的一些思路。我只能說一個新的技術出現，勢必會伴隨這種事情發生，所以我覺得還是需要提高警惕的，不管是在技術層面還是在法律層面，我覺得都是需要儘快完善起來。

數字時氪：今天無數人在提問：AI會不會讓打工人沒有工作？

陳運文：其實在達觀內部，我們是廣泛的鼓勵員工積極的學習和掌握這些工具的使用，因為說到底它只是一個工具而已，你學會使用這個工具，你就會更好的在未來職業發展當中獲得先機。

所以行業裡面有句話我是非常贊同的：人工智慧系統是不會代替你的，是學會了使用人工智慧系統的其他人替代你。所以我覺得需要我們大家儘快的熟悉和掌握這些技術，才能發揮更大的價值。

年度AI對話|達觀陳運文：做私有部署的大模型，資料安全更具優勢

垂直領域的大模型相比通用大模型在某些方面更具優勢

大模型的出現，既帶來了壓力，也帶來了機會

大模型發展之路道阻且長

相關文章