無處不智慧:AI資料的“消費升級”,剛剛開始

naojiti發表於2020-05-27

“新基建”的哨聲吹響,想必大家已經從各個渠道感受到了產業智慧化的火熱。

這一次,AI不再停留於“人工智慧又碾壓人類了”的科幻劇情,而是化身為社會通用型技術,各種家居、汽車、商超、3C產品等領域,都開始高頻出現帶有AI身影的宣傳。

其中,人工智慧三要素——資料、演算法、算力中,最基礎、最核心的部分——資料,自然也就成為烹飪產業智慧化這道美味所必不可少的原材料,也愈加受到更多矚目。

如果我們將產業智慧化的紅利,看做是等待切分的蛋糕。那麼坐在電腦前對圖片或文字一點點打上標籤的資料標註師,可能就是在智慧沃土上種植小麥的人。

這些處理好的食物,被演算法工程師拿到後投餵給機器,教會它們認識什麼是貓,什麼是狗,行人和紅綠燈的區別,“這幾天天天天氣不好”表達了什麼意思……

聽起來,AI資料的“種植”是不是挺簡單的。確實,在人工智慧前期發展階段,AI資料採集和標註,也常常被看做一個“沒有壁壘”的事情,甚至稱之為新時代的血汗工廠。

但就如粗谷吃多了總會開始追逐健康、有機、精加工,AI資料行業也早已在我們目之所及的地方,開啟了一次“製造升級”。

產業智慧化的滋味,你和資料都想了解

雖然AI資料不是演算法訓練的唯一要素,但絕對是不可或缺的一部分。

一方面,AI資料更豐富且廉價的領域,更容易誕生出AI的火苗。比如機器翻譯發展了數十年,積累了非常多的雙語對照語料,因此一遇機器學習便化龍,深度神經網路的引入很快讓翻譯系統的效果全面超越了以統計模型為基礎的SMT(統計機器翻譯)。如今,NWT神經機器翻譯早已是智慧語音產品的標配了。

另外,AI資料的質量也決定了AI產品是否貼合使用場景,影響著使用者體驗乃至產品生命週期。在挖掘人工智慧產業化富礦的時候,對AI資料的重視,再怎麼強調都不為過。

由此,也誕生出了專業的第三方AI資料產業鏈,來滿足高質量、大規模的資料需求。

不過,當人工智慧高歌猛進的時候,AI資料產業的掣肘也接踵而至。

首先,傳統的爬蟲或眾包模式,資料採集的多而淺,難以滿足高效能、高精準演算法對資料的需求。舉個例子,在金融等場景中,銀行對人臉識別演算法的精準度要求可能是99.99%,才能達到保護客戶財產安全、防範安全風險的級別,傳統的平面臉部資料顯然是不夠的,需要維度更加豐富、角度更加多樣的3D臉部影像才能訓練出所需的演算法。

此外,機器學習的資料依賴,也增加了AI訓練的直接成本。無論是採集或購買資料本身的支出,還是呼叫資料增強等技術來增加資料樣本,背後都是不小的成本。

至於AI學術界剛剛興起的膠囊網路、少樣本甚至零樣本學習等,雖然能不必再為資料規模而掣肘,但目前都還在實驗室階段,在產業落地上的成熟和穩定性都不可預知,距離實用還有很遠的距離。所以在當下,以深度神經網路為核心的機器學習,依然是人工智慧走向產業化的技術託舉。這也決定了對AI資料的飢渴,將在一段時間內始終伴隨AI行業的發展。

從產業化與工程化的邏輯視角來看,今天企業想要打造出效果與口碑受到肯定的AI產品,可能購買的通用型“麵粉”已經不能滿足挑剔的使用者了,還得學會自己耕種資料的沃土。

夜來南風起,小麥覆隴黃:AI資料場景化的成熟時

新基建的風潮一來,AI資料產業也以超乎預期的速度在飛馳生長。

原因無他,數字技術與千行萬業的融合,是今天中國普遍展開的主基調,而資料更是遍灑在大地上的種子,等待完成一場智慧的豐收。

那麼,到底需要怎樣的種植邏輯,才能讓它們茁壯生長,有資格進入生產車間,最後變成滋養社會智慧的高營養食品呢?答案或許也隱藏在中國人的“耕種天賦”裡:

第一,尊重規律的專業化。

我們知道,一些有實力的科技大廠如BAT,往往都自建資料中心,來完成演算法的精進。而對於更廣大的企業來說,面對的是一片資料的洪潮,爆炸式創新也必然帶來爆發式增長的資料規模,有預測顯示,到2025年有80%的計算來自於AI計算,涉及的資料也有180ZB之多,比現在增長了4倍。要在如此龐大且複雜的資料群落裡,找出最適宜自家土壤的“種子”,顯然不是一件容易的事。

此前就有谷歌工程師在被問到眾包平臺M-Turk(在公開平臺釋出任務,參與者自由申領)的效果時,聲稱“回收的資料良莠不齊”。

用一句AI界的話來說,“garbage in,garbage out”,如果餵給演算法垃圾食材,在無監督學習的情況下,就很有可能發展出讓產品口碑崩盤的病灶。

比如此前市面上就出現過一款針對青少年的智慧音響,在對話時突然冒出了髒話。原來是訓練時沒有對資料集做好清洗,導致不良資料混了進去,讓AI化身“祖安人”,廠商不得不臨時全面停止呼叫,重新進行大規模的內部審查。

要是再一不小心用到了被限制的資料,比如歐盟GDPR通用資料保護條例的紅線,那不僅失去了當年的收成不說,很可能還要搭上一大筆賠款。真是谷歌聽了沉默,Facebook聽了流淚。

難以把控的資料質量,很可能讓企業的心血直接變成秋風中的寂寞。所以,更為專業的資料採集與標註平臺,也就成為珍惜天時地利的AI企業者們所需要的夥伴。

第二,因地制宜的場景化。

在商業AI資料平臺中,“基於AI落地場景”是一個相對較新的模式。

是開源資料集不香,還是通用資料不便宜呢?場景化資料開始流行,或許與AI計算產業接下來發展可能觸碰到的一個矛盾點有關,那就是競爭。

我們知道,目前AI已經成為一種通用目的技術GPT,這也代表著它會以更廣泛地姿勢融入人類社會,在此基礎上生髮出新產品新技術,甚至更新生產和組織方式。

既然是GPT,就意味著泛AI演算法不再稀缺,而是遍佈在日常生活中的水和空氣。如何在AI產品上與同業者拉開競爭身位,從AI資料上重新奠定自己的核心優勢,就成為科技企業們的必然選擇。

舉個例子,以前的商超門店大家都沒有智慧化,如今則幾乎每家店都在嘗試引入零售智慧解決方案。這種情況下,一個零售商超的企業主,掌握了自己的獨家的場景化資料,也就能夠更精準地認識自己的經營狀況。比如在此基礎上了解顧客面對貨架、在場內走動的表情,能夠輔助判斷陳列方案以及個性化的營銷推送,進一步提高轉化和復購。

這種更高階別的場景化資料,想要獲取並交付給演算法端去使用,並不是一件簡單的事。

雲測資料總經理賈宇航舉了一個例子,比如線上上訂票這樣的對話場景中,會有許多種表達方式,“有去XX的航班嗎”“幫我查一下機票”……如何讓AI助理在不同的表達中都能明白對方的意圖,就需要AI資料服務企業與訂票平臺仔細地對接需求,並在標註時往適當的方向去拆解和作業,這樣才能因地制宜,讓大量高質量的資料轉化為垂直行業的智慧養料。

一個有意思的資料是,儘管今天我們已經聽到了太多AI的新聞,但AI與行業結合的整體滲透率只有4%。在未來很長的一段時間內,對於資料場景化的押注,值得重點關注。

第三,提升能效的工程化。

當然,伴隨著數字經濟進入成熟期,二話不說就對AI一擲千金的情況已經不存在了。企業在選擇資料模式時,勢必會考慮投入產出比。

那麼場景化資料的重工重時,是否能夠讓產業智慧化達到最大化回報呢?

答案是,不一定。場景化資料的成本並不低,“有多少人工,就有多少智慧”在這裡體現得淋漓盡致。曾經有某AI演算法平臺的工作人員告訴我,為了訓練出一個精準識別人體動作的模型,他們合作的3D建模資料方會聘請人員,在姿勢採集中心拍攝好CV資料,因為資料量太大,只能放在硬碟裡,靠工作人員不斷往返兩地,將資料送到實驗室。

聽起來是不是一點也不“高科技”?

所以,工欲善其事必先利其器,隨著場景化AI資料產業的發展,工程化能力的提升、效率工具的引入,才會讓場景資料的整體成本接近商業平衡點,降低AI企業的成本風險。

顯然,對於AI資料的場景化,既是產業AI的必由之路,也密佈著大量的冰層等待鑿穿。

穿透資料冰層:雲測資料在產業端如何種植AI

當社會經濟體與智慧技術開始耦合,場景化資料的產業服務者也開始展露頭角。

目前來看,成立於2011年的Testin雲測,旗下AI資料採集標註品牌——雲測資料已經成為了中國市場AI資料場景化的首選。

在AI資料的土壤上遍佈的冰層,是如何被雲測資料一一剷除的?

1.手把鋤犁的硬體。

場景化資料的採集與標註,有不少硬骨頭。比如NLP、CV(計算機視覺)等,既需要標註者精準理解相關語義,又要結合具體的產業需求進行標註。

為了保證AI資料的高質量交付,雲測資料在華東、華北、華南設有資料標註基地和資料採集場景實驗室,用來保障AI資料的專業化、場景化與精細化。

賈宇航(雲測資料總經理)給我們舉了一個例子,為了幫助疲勞檢測系統精準判斷駕駛員的狀態,疲勞狀態的資料是必不可少的。因此,雲測資料會還原駕駛場景中的疲勞駕駛狀態,來幫助採集到貼合真實場景的疲勞資料。讓訓練演算法模型能夠精準識別並及時預警,來保護人員的行車安全。

除此之外,為了提升AI資料的標註能效,雲測資料還開發了不少工程化工具,不斷提升資料標註工具的技術含量。

比如雲測資料自研的資料標註平臺上,就對3D點雲的標註系統優化了渲染引擎,可以融合多幀點雲資料和異維資料,讓資料檢視一目瞭然,保證整個過程的流暢和快捷,從而減輕標註員的重複勞動壓力。

2.潤物無聲的軟體。

在AI的世界裡,我們總是在強調硬體——更大的算力,更好的資料,更優的演算法。是不是擁有這些就意味一切呢?事實顯然並非如此,否則Deepmind早就是商業化最成功的AI公司。

從技術概念到產業落地之間的管理邏輯,就如同產業之上的春雨,“隨風潛入夜, 潤物細無聲”。

我們都知道“好雨知時節”,“好”在哪裡?

好在適時而下。比如Testin雲測在企業服務領域積累了近9年的經驗,其管理模式也讓資料採集與標註不再是枯燥的流水線作業,十分注重對標註人員的培養,以應對越來越高標準的資料要求。

例如,雲測資料會專門招聘一些法律、金融等垂直領域的相關人員,對標註人員進行專業知識的培訓,使其能夠從產業端的視角去揣測語料中的具體意圖,進而對資料進行更加細緻的標註,以滿足客戶的精度訴求。

此外,在管理流程上,雲測資料也做到了任務的合理派發,不同型別資料的人員不混用、多層交叉質檢等等。

正是這樣的“軟實力”,不僅鑄造了雲測資料的能力優勢,也拉高了整個行業的人員素質和業務標準,轉化為滋養整個AI產業的雨水。

3.捍衛底線的信念。

如果你聽說過地溝油之類的食品安全事件,那麼AI領域一旦出現資料安全問題,損害的可能就是數萬人的財產和人身安全。

舉個例子,不少資料都是企業的最高階機密,如果不慎從第三方平臺手中流出,不僅可能讓企業聲譽掃地,還可能成為競爭對手的利劍,造成搬起石頭砸自己腳的局面。

目前來看,AI資料行業還沒有形成統一的安全保障規範和標準,所以,企業的自我意識、技術措施就顯得尤為重要。

就雲測資料而言,就設定了一系列安全保障機制,比如對於客戶的定製資料在交付後絕不留底、絕不復用,徹底清刪杜絕了洩露隱患;

另外,在資料採集時也會與被採集方簽訂資料授權協議,讓AI企業拿到的資料都合規合法,沒有侵犯隱私風險的後顧之憂。

防火牆設定、內部資訊系統、終端不聯網、USB介面封死等機制,也從源頭保護了客戶的資料安全。

賈宇航(雲測資料總經理)也曾多次公開表示,無論是 AI 公司還是資料服務公司,眼光都要長遠一些,採用未經授權的資料當然可以控制成本,野蠻發展終究會造成不良後果。

雲測資料的業務場景覆蓋了智慧駕駛、智慧城市、智慧家居、智慧金融、新零售等多個領域,無不是對資料安全要求奇高的領域。作為AI資料服務的頭部企業,雲測資料的安全探索,可以看做是在安全合規層面對整個行業交上的參考答案。

對於資料安全底線的捍衛,也是這個新興產業的生命線。

從雲測資料的耕耘之中,不難發現,解鎖AI資料的每一步縱然充滿難題,但也是形成產業壁壘的關鍵過程。

像雲測資料這樣持續為AI訓練注入安全高質的資料“養料”,這些都將轉化為產業的優勢積累,並撬動智慧時代的無限可能。

對資料沃土的耕種,才能讓我們在AI風起時,得見一片片豐收的麥浪。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31561483/viewspace-2694797/,如需轉載,請註明出處,否則將追究法律責任。

相關文章