2017 年底,美國社交新聞網站 Reddit 一位名叫 deepfakes 的使用者運用 AI 製作了一段“假”色 情 影片,將《神奇女俠》女主角蓋爾·加朵的臉嫁接到一個成 人 電影女星身上,一時間引起轟動。
自此,AI 換臉核心演算法就正式被命名為 DeepFakes,並一直頗具爭議。不過,它“有趣又愚蠢”的一面,也為媒體公司提供了新的機會。
2019 年 12 月,社交媒體應用 Snapchat 以 1.66 億美元收購了烏克蘭影像和影片識別初創公司 AI Factory,兩者此前曾合作,使使用者能將自拍照片插入 GIF 中以建立動畫化的 AI 換臉。另外,中國公司位元組跳動的短影片應用 TikTok 也在開發類似功能。三星發表了一篇有關使用神經網路建立逼真的“說話人的頭部”的論文。下面,左圖顯示了源圖片,右圖則是由 AI 生成的。
英國《金融時報》報導,價格昂貴且費時的傳統的計算機生成圖形,與最近出現的 AI 換臉技術正形成了鮮明對比。因此,好萊塢也朝著“數字化復活”那些“五、六十年代”電影中的演員這一方向發展。
而在零售方面,AI 換臉還使品牌為消費者提供超個性化的視覺營銷。如初創公司 Superpersonal 會將使用者的臉部影片片段替換為虛擬試裝。
AI 換臉在影響者營銷方面也有所作為。在非政府組織“瘧疾必死”(Malaria Must Die)的活動宣傳影片中,初創公司 Synthesia 使用 Deepfake 技術讓貝克漢姆在影片中說了 9 種不同的語言。
而在中國,2019 年 3 月,B 站上一個名叫“換臉哥”的使用者上傳了一條《射鵰英雄傳》片段,將其中黃蓉飾演者朱茵的臉換成了楊冪的臉。
不久,更多作品跟風而至,網友們利用該技術,將某平臺女主播的臉換成劉亦菲、楊冪、唐嫣、范冰冰等女星的臉。另外,一款名叫 “ZAO” 的軟體受到熱捧,透過這款軟體,使用者可以將影視劇、綜藝節目片段中明星的臉換成自己的臉。不過這一軟體也被質疑涉及隱私洩露和侵權等問題。
關鍵詞
個性化
零售中的換臉就是將消費體驗加倍。該技術將促進電子商務體驗和虛擬線上試用。
針對性的廣告
隨著技術的商品化,本地化的廣告,如使用不同語言的即時配音,將成為更加可用的成果。
創意領域的自動化
在電視和電影行業中使用 AI 換臉可能會導致續集、衍生產品和現有內容的文化改編的泛濫。在鑄造和建模等對人臉要求非常高的領域,AI 換臉可能帶來負面影響。
下一代駭客:愚弄 AI 和利用 AI 的攻擊
AI 時代下的駭客正朝兩個方向發展:愚弄 AI 系統和利用 AI 發起攻擊。
在 2019 年,總部位於悉尼的安全公司 Skylight Cyber 的研究人員破解了網路安全初創企業 Cylance 開發的 AI 防毒軟體。Skylight 報告說,它發現了其 AI 模型中的漏洞,並利用它建立了一個通用旁路,從而使惡意軟體無法被發現。
駭客還可以透過汙染資料來欺騙 AI。並且,還可能會在影像上引入人眼看不見的細微擾動,以欺騙神經網路。
AI 本身也可用於製造更復雜的、針對性強的網路攻擊。有關 AI 產生的語音欺騙的報導最早出現於 2019 年 3 月的歐洲。據《華爾街日報》報導,犯罪分子透過 AI 語音生成軟體,成功模仿並冒充一家英國能源公司的母公司 CEO,來欺騙其多位同事和合作夥伴,一天內多次詐騙並轉移資金,使該公司損失約 173 萬元。
另外,IBM 早在 2018 年就開發的一種名為“DeepLocker”的惡意軟體表明,AI 可以繞過網路安全保護進行攻擊。DeepLocker 被描述為“一種由 AI 驅動的具有高度針對性和規避性攻擊工具的新型惡意軟體”,只有在識別出如視覺、音訊、地理定位和系統級特性等特定標準時,才會“解鎖”惡意軟體以開始攻擊。由於幾乎不可能確定所有可能的觸發因素,就使深度神經網路的反向工程變得十分困難。
關鍵詞
駭客無情
如今所有人比以往任何時候都更容易使用 AI 工具,這為駭客提供了更多的土壤。
網路 AI 初創企業可能面臨新的攻擊
駭客已經證明,利用機器學習模型的內在偏差並欺騙演算法很容易。
重工業準備不足
在過去的十年中,已經出現過幾例針對工業控制系統的惡意程式肆虐案例。如震網病毒 Stuxnet 2010 年被用於伊朗核裝置攻擊、Black Energy 2015 年被用於烏克蘭電網攻擊、Havex 攻擊歐洲境內組織,以及 Industroyer 2016 年侵入烏克蘭工控系統等。調查顯示,重工業抵禦網路風險的能力還很落後,也沒有為 AI 惡意軟體等更高階的威脅做好準備。
AutoML:未來“讓 AI 學習設計 AI”
機器學習的興起帶動了這一波人工智慧的浪潮。而自動機器學習 AutoML 則有可能引領下一代潮流。
AutoML 是一套用於自動化神經網路設計和訓練的 AI 工具套件,它透過減少對 AI 專業知識的依賴,降低企業的准入門檻,使技術更民主化。通常,構建表現優良的機器學習應用,需要非常專業的資料科學家和領域專家。而 AutoML 的目標則是在即使沒有統計學和機器學習方面的廣泛知識的情況下,也能自動構建機器學習應用。
“神經網路的設計非常耗時且對專業要求很高,為此,我們建立了一種名為 AutoML 的方法,希望讓神經網路自己設計神經網路。”谷歌 CEO 桑達爾·皮查伊(Sundar Pichai) 在博文中寫道。於是,谷歌於 2017 年正式為此創造了 “ AutoML”。
而自谷歌提出這一概念後,用於 AI 設計的 AutoML 工具,包括資料準備、訓練、模型搜尋及特徵工程的採用率一直在逐漸增加。如 Waymo 最近與谷歌合作,使尋找最佳神經網路架構的過程自動化,從而使自動駕駛汽車能夠從鐳射雷達(光檢測和測距)資料識別樹木、行人和車輛。谷歌雲 AutoML 還可用於計算機視覺、影片處理、翻譯和 NLP 任務。初創公司還為企業提供即插即用的解決方案。
同時,中國也出現了不少相關研究,稱能夠解放演算法工程師,讓 AI 自動化。在去年的資料探勘領域頂會 PAKDD 的 AutoML 挑戰賽上,中國公司深蘭的 DeepBlueAI、微軟&北航團隊、清華大學等團隊都有上榜。
其中,深蘭科技團隊設計的機器學習框架透過融合不同時期的資料以及結合 DNN 和 Light GBM 的訓練來自適應概念漂移,並引入了自適應取樣來緩解類別不平衡,同時在一定時間間隔上讓模型重複訓練以適應概念漂移,實現終身機器學習。
關鍵詞
人才短缺
在 AI 專家嚴重短缺的現實情況下,AutoML 能幫 AI 知識不足的企業將技術民主化。
成本和複雜性
即使對於專家而言,設計神經網路也是一個耗時的手動過程。AutoML 可建立更好的解決方案,並降低與試錯相關的計算成本。
聯邦學習將帶來全新的資料合作生態系統
聯邦學習(Federated Learning)在 2016 年由谷歌最先提出,是一種新興的人工智慧基礎技術。
在谷歌 2019 年第二季度的財報會議中,谷歌 CEO 桑達爾·皮查伊強調,對谷歌來說,聯邦學習和一些其他的隱私管控是其現階段重點的關注和努力方向。他說:“我們一直以來都很關注使用者的隱私及管理,三年來我們一直在提議並推進聯邦學習的使用,這也是我們現階段的重點之一。”
最初聯邦學習被用在預測安卓系統使用者在使用鍵盤時下一步會輸入的內容,也被用在谷歌的文字預測軟體以及火狐瀏覽器 URL 搜尋方面。其設計目標是在保障大資料交換時的資訊保安、保護終端資料和個人資料隱私、保證在合法合規的前提下,在多參與方或多計算結點之間開展高效率的機器學習。
如下圖所示,聯邦學習可以讓裝配有 Gboard (谷歌推出的虛擬鍵盤)的軟體在不向谷歌傳送原始使用者個人資料的前提下提升其 AI 模型。這樣以來,使用者手機中的資料還儲存在使用者手機中,而並未被髮送或儲存到某個中央雲伺服器中。
雲伺服器將某個人工智慧演算法的最新版本傳送到某一使用者群的裝置上,然後使用者的手機可以根據本地資料更新 AI 模型。這時,傳送回雲伺服器的只是更新部分,而非更新所使用的本地資料。雲伺服器可以再根據接收到的更新部分,提升演算法的全域性狀態(“global state”)。
聯邦學習既可以保護使用者資料,又不會影響 AI 演算法的效能提升,其正在為包括醫療健康和銀行業在內的、對於資料使用受到高度管控和關注的行業提供新的可能。
英偉達 AI 驅動的軟硬體框架 Clara 主要針對醫療健康場景,現也支援聯邦學習。其使用方包括美國放射醫學院、麻省總醫院、佈列根和婦女醫院臨床資料科學中心、UCLA 醫學中心等。此外,英偉達還與醫療健康領域初創公司 Owkin 合作,Owkin 主要從事使用聯邦學習進行癌症患者的抗藥性預測方面的業務。
中科院計算所泛在計算系統研究中心針對帕金森症建立了 FedHealth 框架,使用聯邦學習、遷移學習、增量學習來判斷病人服藥前後的狀況變化、用藥效果等。
金融領域,中國的微眾銀行正與騰訊雲和加拿大人工智慧研究中心 Mila 合作進行聯邦學習方面的研究。今年 1 月底,微眾銀行 AI 團隊研發並推出了其聯邦學習開源框架 FATE(Federated AI Technology Enabler),該框架採用了多種安全計算協議,從而保證在符合監管規定的資料保護前提下,進行跨域資訊合作。
當然,聯邦學習作為一個新興概念正在越來越廣泛地應用在其他領域,比如智慧城市、智慧製造等方面。中國公司(包括京東、華為等)也在積極佈局聯邦學習方面的應用,相信在未來可以看到更多聯邦學習相關的落地應用。
關鍵詞
全域性模型+本地資料
透過使用聯邦學習,使用者可以透過使用本地資料訓練 AI 模型,並只將 AI 模型的更新部分更新到中央雲端。雲端透過所有網路中使用者傳送的模型更新來最佳化其模型應用。
資料多樣化
聯邦學習可以助力跨域合作,從而透過更加多樣化的本地資料最佳化全域性模型。
Alphabet 將透過 AI 主導智慧城市合約
憑藉其強大的 IoT 和機器學習能力,這家一萬億美元的 Al 巨頭正在積極佈局城市發展及智慧城市規劃領域。
透過聯手政府,Alphabet 正在許多城市創造新的街區,並重新規劃房地產、公共能源設施、交通等佈局。去年第二季度,Alphabet 旗下子公司 Sidewalk Labs 釋出了一份 1500 頁的方案,其中詳述瞭如何透過與政府和其他企業的合作,以 13 億美元在多倫多打造一個智慧城市的專案。專案的重點和亮點就集中在 AI 在政府和城市規劃的應用上。
從概念上來看,智慧城市可以包括智慧醫療、智慧出行、城市監控、資料基礎設施以及許多其他 AI 和機器學習的應用領域。下圖列出了 Alphabet 在上述領域的主要佈局,其優勢不言自明,這也讓其成為從房地產到能源到交通領域再到諮詢服務方面強有力的市場競爭者。
在這裡略微說一下兩家小型初創公司 Replica 和 Coord。Replica 主要使用機器學習來為通勤行為建模,並關注影響通勤方式選擇的因素等。應用方面已有與伊利諾伊政府簽訂的 360 萬美元的三年合約,以及與波特蘭政府的一年服務協議。Coord 主要關注使用機器學習繪製街道資產圖景。其正在邀請各個城市參與其發起的“數字街道挑戰”活動,最終的獲勝城市將可以免費試用其技術,當然 Coord 也可以透過這次活動除錯其平臺效能及調整其策略方向。
上文說到的 Alphabet 旗下子公司 Sidewalk Labs 在處理特定城市發展問題方面正在超過較小型的初創公司(如 Replica 和 Coord)。Sidewalk Labs 在多倫多的試點專案中突出了減少溫室氣體排放和更智慧的資源管理兩個方面。透過機器學習工程師分析感測器收集的資料以及搭建管理系統,來建立能耗以及可持續性方面的推薦引擎和預測模型。
關鍵詞
政府青睞
Alphabet 在 AI 方面的專業讓其自然而然地成為政府合作青睞的物件,加之旗下子公司,比如 DeepMind,、Waymo、lab X 等,更為其競爭力加碼。
端到端解決方案
相較於其他聚焦某一個領域的供應商,Alphabet 擅長基於機器學習的幾乎所有智慧城市相關方面,從城市發展工具到自動駕駛汽車再到能源管理。
分擔財務風險
Alphabet 有強大的實力分擔財務風險並進行前期方面的投資。比如 Sidewalk Labs 就宣稱,在其與其他機構或企業的合作中,其可以分擔前期的創新成本,並在後期達標後獲得報酬。這樣一來,其與政府或相關機構在進行技術合作或者試驗的時候,增加了合作的成功可能。
能源驅動的 AI 將會被用來解決能源問題
2020 年,更節省能源的 AI 將成為一個重要的話題。從科技巨頭、汽車製造商到油氣巨頭,無一不在尋求削減成本、提升效率、降低能耗。
一直以來,我們都在說人工智慧,也在強調其所需要的算力。但是算力不是憑空產生的,是需要消耗能量的。在我們不斷強調要提高算力讓 AI 變得更聰明的時候,我們也需要考慮使用更具可持續性的能源解決方案。
現階段 AI 的進步多是自上而下的,也就是科技巨頭在領導 AI 方面的研發以及開發開源工具方向,這主要是因為科技巨頭在算力方面佔有巨大優勢。Fast Company 曾報導,2018 年穀歌在其 BigGAN 實驗中,為創造出高度逼真的影像,消耗了相當於普通美國家庭半年的平均電量。
相較於雲端計算,邊緣計算並不具有同等的算力和資源,所以在 AI 越來越多地被應用在邊緣裝置(如電話、相機)的過程中,能源利用效率正變得越來越重要。這裡第一個值得關注的方面是更加節能的 AI 裝置。
Xnor.ai 是一家致力於開發低能耗邊緣 AI 工具的初創公司,它關注超低功耗、可執行 AI 演算法的相機。其硬體工程和機器學習團隊曾提出一個問題:“(我們)是否可以開發出一臺能夠在沒有電池的情況下執行深度學習模型的硬體裝置及機器學習架構? 它可以是非常低功耗,甚至太陽能驅動的。”今年初,蘋果公司收購了 Xnor.ai,這一舉動反映了蘋果在低能耗 AI 方面的佈局,以及其在蘋果手機的 AI 晶片及 VR 應用方面的積極努力。
中國深圳耐能人工智慧有限公司(Kneron)主打高效能、低功耗、低成本的 AI 解決方案,最近釋出了一款針對邊緣裝置的低耗能 AI 處理器。本月初,耐能宣佈完成 4000 萬美元 A2 輪融資,由李嘉誠旗下維港投資領投,其資方包括阿里巴巴創業者基金、高通、中科創達、紅杉資本子基金 Cloudatlas 等,總計獲得了超過 7300 萬美元的融資。
另一個值得關注的方向是用於大型能源工廠及其裝置的 AI 管理預測工具。比如,比爾·蓋茨投資的初創公司 Heliogen 主要集中於一些能源行業的細分市場,比如透過使用 AI 演算法來控制太陽能發電系統中的定日鏡。
根據天氣預報的資料以及收集到的風力發電機的資料,DeepMind 的神經網路可以提前 36 個小時預測未來風能產量。基於這些預測,DeepMind 的模型可以提前一天將如何實現最優交付告知電網企業。對電網企業來說,能夠有計劃地排程能源非常重要。
谷歌一直在積極推動在其資料中心使用可再生能源,而且它正在使用 AI 來幫助實現這一行動。透過與 DeepMind 合作,藉助其神經網路來提高風能產量。
關鍵詞
超低功耗的機器學習裝置
對於在邊緣裝置(如智慧手機、智慧家居攝像頭等)來說,能效正在成為一個重要的考量因素。
大型能源企業
越來越多的大型雲服務商正在向使用可再生能源方向轉變,並透過融合 AI 來提高可再生能源產量、簡化資料中心操作流程。
精簡操作
AI 可以很好地預測可再生能源產量、將電網管理自動化、幫助精確鑽探油井以及為智慧家居和商業建築中的可持續能源管理提供解決方案。
解決AI的小資料問題是重點
對深度學習演算法,如果沒有足夠多的資料進行訓練,有兩種方法可以解決這個問題:生成合成資料,或者開發可利用小資料展開工作的 AI 模型。
眾所周知,深度學習需要資料,其模型訓練都是在大量標記資料的基礎上進行的,比如,利用數以百萬計的動物標記影像訓練 AI 學會識別。但大量標記資料對某些應用來說並不適用,在這種情況下,從頭開始訓練一個 AI 模型,即使可能,也充滿了困難。
一個潛在的解決方案是用合成資料擴充真實資料集。這在自動駕駛領域得到了廣泛的應用。自動駕駛汽車在逼真的模擬環境中行駛數百萬英里,會面臨暴風雪以及行人突發行為等各種情況,而針對這些情況,我們很難獲取到真實資料。
合成資料正在出現,如下圖所示的來自英偉達(NVIDIA)的合成核磁共振(MRI )影像,就用於擴充罕見疾病的真實資料。
圍繞資料問題的另一種解決方案是開發能夠基於小資料集進行學習的 AI 模型。一種名為遷移學習(transfer learning)的方法已在計算機視覺任務中得到應用。該方法使用預先訓練的 AI 演算法來執行一個有大量標記資料的任務(如識別影像中的汽車),然後將該知識轉移到另一個資料很少的不同任務上(如識別卡車)。使用預先訓練的模型就像包餃子時使用現成的餃子皮,免去了和麵的步驟。
雖然預先訓練的模型在計算機視覺領域已經取得了長足的發展,但在自然語言處理(NLP)領域,由於缺乏標記資料,到目前為止,一直是一項極具挑戰的工作。不過,一種名為自我監督預訓練(self-supervised pre-training)的方法在自然語言處理領域中逐漸流行起來。
所謂自我監督預訓練,首先要根據網路上的大量資料訓練 AI 模型。例如,OpenAI 進行了一項計算極其密集的任務:用 800 萬個網頁作為訓練資料,訓練一個基於給定文字預測下一文字詞彙的 AI 模型。這一方法被稱為自我監督學習,因為這裡不涉及“標籤”:AI 透過基於句子中的其他單詞預測一個隱藏的單詞來學習語言。研究員 Jeremy Howard 在 Fast.ai 的一段摘錄中解釋了為什麼這些自我監督語言模型非常重要:
“我們不一定對語言模型本身感興趣,但事實證明,能夠完成這一任務的模型在學習語言的過程中必須瞭解語言的本質,甚至要對世界有所瞭解。當我們把這個預先訓練好的語言模型用於另一項任務(比如情感分析)時,我們可以用很少的資料獲得比較滿意的結果。"
另一個典型的例子是谷歌 BERT,其 AI 語言模型不僅可以根據前文內容進行預測,還可以基於後文展開,也就是說該模型採用了雙向語言模型的方式,能夠更好的融合前後文的知識。
由 Yann LeCun 領導的 Facebook AI 研究部門一直都看好自我監督。比如,他們首先會訓練出一個語言模型(類似上文),然後進行預訓練,並對其進行微調以進行仇恨言論的識別。
最近,Facebook 還開源了其自我監督語音識別模型,很好地解決了小型研究專案對人工標記文字的需求問題。非英語語言的標註訓練資料往往數量有限,針對這個問題, Facebook 開源了程式碼 wav2vec,這對非英語語言的語音識別尤其有用。
關鍵詞
自然語言處理
由於自我監督技術的出現,2020 年自然語言處理將成為人們關注的焦點。我們最終會看到像聊天機器人、高階機器翻譯以及類似於人類的寫作等更好的下游自然語言處理應用的出現。
大型科技公司牽頭
因為開發預訓練的語言模型需要進行大量的計算,針對小資料的 AI 模型的研究將是自上而下的。科技巨頭正在開源自己的研究成果,以便其他研究人員可以將其用於下游應用。
合成資料及其工具
合成資料及其工具為那些無法像科技巨頭那樣訪問海量資料集的小公司提供了公平的競爭環境。
量子機器學習為傳統的AI演算法注入活力
我們將很快看到結合了傳統機器學習演算法與量子 AI 的模型的實際應用。
二進位制計算中資訊儲存為 0 或 1。與二進位制計算不同的是,量子計算機是基於量子位元的。量子位元可以是 0 到 1 的任意值,或者同時具有這兩個值的屬性。因此,在執行計算方面有很大的優勢。
但是,我們與傳統計算機互動的方式並不適用於量子計算機。它需要專門的資料、演算法以及程式設計。
量子機器學習借鑑了傳統機器學習的原理,但其演算法會執行在量子處理器上,這使得它們比傳統的神經網路更快,並且解決了當前 AI 在海量資料集上進行研究所受到的硬體限制問題。
不過,量子神經網路(Quantum Neural Networks,QNN)的研究尚處於起步階段。對此,谷歌曾表示:“傳統的機器學習從誕生到建立監督學習的通用框架,花了很多年的時間。在量子神經網路的設計方面,我們還在探索。”
那麼,QNN 演算法將如何解決現實問題呢?
科技巨頭和量子創業公司正在考慮一種混合方法,其中一部分任務由執行在傳統計算機上的傳統神經網路完成,另一部分則由量子神經網路增強。
比如,多倫多創業公司 Xanadu 正在將量子與傳統相結合的 AI 應用於遷移學習,其結果在影像分類任務中有很好的應用前景。
另外,自 2013 年以來,谷歌 AI 團隊就一直專注於為量子計算機編寫演算法。與 Xanadu 一樣,其近期目標是開發“可適用於量子裝置的量子與傳統相結合的機器學習技術”。谷歌 AI 團隊曾撰文表示:“雖然目前關於 QNN 的工作主要是理論方面的,但在不久的將來,它們將可能會在量子計算機上進行測試並得以實現。”
在谷歌發表的兩片研究論文中,其分別探索了以不同於傳統神經網路訓練方法的方式訓練 QNN,以及在模擬中測試 QNN 執行簡單影像分類任務的能力。
儘管當今最強大的量子計算機,包括谷歌正在開發的那些,已經可以控制 50 到 100 個量子位元。但研究人員表示,若要量子計算機產生更廣泛的商業影響,至少達到控制需要幾千個量子位元的水平。
鑑於量子資訊的發展可能帶給資訊領域的影響,政府和各科技公司巨頭都對量子技術研究展開了積極投資。 CB Insights 的資料顯示,2019 年量子計算領域共完成 14 筆交易,涉及金額達 1.978 億美元,相較 2018 年略有下降。
其中,自 2015 年 1 月 1 日至 2020 年 2 月 9 日,就國家而言,相關交易數量佔比位居前三位的分別是美國(45.3%)、加拿大(15.6%)以及英國(14.1%)。
那麼,中國在該領域的投資情況如何呢?
2019 年 10 月,Nature 曾發表一篇專欄文章,分析了近年來私人投資大量湧入量子科技領域初創公司的情況。其中,針對中國的投資,文章指出,鑑於英語媒體報導以及西方分析公司的報導很少涉及中國的投資交易,所以在文章很可能缺少一部分中國資料。不過對於量子計算在中國的發展情況,文章援引了中國科學技術大學潘建偉教授的話表示,中國的量子技術產業化也在順利進行。另外,專利的申請情況也能進行佐證:根據歐盟委員會聯合研究中心的資料,2012 年至 2017 年的量子技術創新專利中,超過 43% 來自中國的大學和企業。
關鍵詞
與傳統計算機結合
我們將開始看到世界上最強大的兩種計算正規化——量子計算和 AI ——透過與傳統計算機結合來解決實際問題。
量子云計算
量子云計算是“雲戰爭”中的最新前沿領域,所有主要供應商,包括 AWS、谷歌、IBM 和微軟,都在大力投入其中。正如 Rigetti、微軟和 OpenAI 在 2020 年發表的一篇論文中所強調的那樣,這意味著量子計算機將與傳統 GPU 和 CPU 協同工作。我們會看到雲 AI 演算法在這樣的混合硬體平臺上執行。
自然語言處理將幫助我們理解生命的構成要素
自然語言處理和基因組有一個共同特點,即都是由序列資料組成。自然語言處理的發展,為基因組學的研究帶來了啟發。
在本報告前述的自我監督學習案例中,研究人員會隱藏句子中的特定單詞,讓演算法猜測缺失的單詞,從而更廣泛地學習語言。正如句子是由單詞按序列組成的一樣,蛋白質是按特定順序排列的氨基酸序列。
來自德國的研究人員利用了一個類似於自我監督語言模型的概念對蛋白質進行分類。Facebook AI 研究部門和紐約大學的研究人員在蛋白質序列的海量資料集上使用了自我監督概念,用 AI 預測隱藏的氨基酸。
針對最近流行起來的基因組建模,DeepMind 開發了一種名為 AlphaFold 的演算法,透過理解蛋白質摺疊(基因組學中最複雜的挑戰之一)來確定蛋白質的 3D 結構。
雖然 AlphaFold 使用的是一種混合方法,但它借用了自然語言處理中的概念來預測氨基酸對之間的距離,以及連線它們的化學鍵之間的角度。
針對最近在中國爆發的新型冠狀病毒肺炎,百度在今年 2 月初開源了其 RNA 預測演算法 LinearFold。該演算法可以大大縮短預測病毒 RNA 的二級結構的時間(將預測時間從 55 分鐘縮短至 27 秒),從而幫助為前線醫療研究人員更好更快地解析病毒及開發疫苗。
關鍵詞
更好的藥物設計
蛋白質會根據環境因素動態地改變結構,所以瞭解其結構及摺疊方式將為未知的靶點開發藥物帶來機會。
無需深入瞭解領域知識
AI 演算法可以在不深入地瞭解領域知識的前提下,幫助蛋白質建模並瞭解其結構。
具有特定功能的蛋白質設計
為醫療保健和材料科學開發或最佳化具有特定功能的新的蛋白質設計將成為可能。
結語
以上為 CB Insights 整理出來的 2020 年 AI 趨勢,雖然其中一些技術已經取得了初步進展,但不可否認的是,我們也也面臨著很多技術及應用方面的挑戰。
希望在 2020 年我們能看到更多跨越了這些挑戰的技術突破。
https://blog.csdn.net/weixin_42137700/article/details/104279062