Facebook全年成果總結:我們在AI領域的行動從未停止
大資料文摘出品
編譯:王嘉儀、蔣寶尚
Facebook在2018年過的並不好,一連串的資料洩露醜聞打的小扎和他同事措手不及。
但是,一年的時間,Facebook仍然做出了許多的成績,尤其在AI方面,這家社交媒體公司利用人工智慧開發了許多的應用。例如智慧推薦系統,例如對一些色情內容進行識別的智慧識別工具等等。
拋去那些不好的事情,我們如何從Facebook 的2018年的成長中獲取養分?相信下面這篇Facebook 2018年的工作總結可以給你帶來一些靈感。
這篇文章,釋出在code.fb.com上,大資料文摘有刪改的進行了編譯。
Facebook瞅準AI發展的眼光一直很在行,在這一領域裡的行動也從未停止。
我們不滿足於在當前機器學習瓶頸的發展,而是希望找尋更新、更高效的學習方式。我們抱有利用AI造福世界的信念和對機器學習研究的堅持,我們的工程師將更多前沿的演算法和工具開源到AI社群,例如Pytorch深度學習的開源框架及其升級,更新後的Pytorch還專門開發了支援新手的介面,使得他們更容易接觸深度學習,在一定的程度上推動了相關AI專案的落地。
除了一些論文和資料集之外,還有一些很棒的日常生活助手,比如加持人工智慧的MRI掃描變得更加高效了,在救災工作和預防自殺方面也有提高。
2018年,我們找到了使用較少監督資料進行相關研究的可行性的方法,也將研究專案從最初的影像識別擴充套件到了語言的翻譯和理解。
通過半監督和無監督培訓推進AI學習
當前,大多數AI系統更多使用的還是監督式學習,這意味著他們必須使用大量被標記過的樣本才能進行學習任務,而這些樣本數量對於訓練需求來說是嚴重不足的,因而這也就限制了技術長期發展的潛力,而想要改變以上問題可能需要多年的研究。
Facebook AI Research(FAIR)小組成立後,在人工智慧研究上進行了多樣的探索。2018年,該小組使用了無監督機器翻譯,通過減少對標記訓練資料的依賴,開啟了翻譯“小語種”的大門,讓我們的系統支援更多的語言翻譯。
主要採用多種方法來避免標籤訓練資料不足的問題,包括使用多語言建模來利用給定語言組中方言之間的相似性,例如白俄羅斯語和烏克蘭語、烏爾都語等語言的資源目前都很少,與英語相比,他們現有資料集十分有限。
雖然使用的是無監督的資料,但是它的效能卻能與“打標籤”資料訓練的系統相媲美。現在無監督方法有了更實質性的改進。
這就是為什麼我們要探索更多的訓練方法,讓監督學習變得不再那麼重要的原因。半監督和無監督式的學習方法或許是不錯的選擇。
在這項研究在今年已經被應用。並且為自動翻譯軟體增加了24種語言。此外,在與紐約大學合作過程中,我們為現有的MultiNLI資料集新增了14種語言,這些資料集廣泛用於自然語言理解研究,此前僅有英語版本。
我們最新的XNLI資料集中包括兩種低資源語言:斯瓦希里語和烏爾都語,這一方法有助於整體採用跨語言的語言理解,從而減少了對標記資料的需求。
為了研究基於標籤的影像識別,我們顛覆了傳統的研究方法,新的方法能夠使得資料進行自我標記並形成大型訓練集,例如35億個公開的Instagram影像就是用這麼形成的。
我們的結果不僅證明使用數十億個資料點對於基於影像的任務非常有效,而且它還使我們打破了一個記錄,比ImageNet上先前最先進的影像識別模型的準確率高出一個百分比。
Hashtags可以幫助計算機視覺系統快速識別影像的額外資訊以及特定的子類。
加快人工智慧研究和產業應用的融合
AI已成為Facebook幾乎所有產品和服務的基礎。這點從我們的工程師正在構建和增強的各種基於AI的平臺和工具中可以看出。
但是在2018年Facebook有了一個共同的主題:如何將人工智慧技術嵌入到人工智慧系統中。
自2017年PyTorch釋出以來,深度學習框架已被AI社群廣泛採用,它目前是GitHub上增長速度第二快的開源專案。 PyTorch的使用者友好介面和靈活的程式設計環境使其成為AI開發中快速迭代的通用資源。由於程式碼庫的貢獻和反饋,其開放式設計確保了框架將繼續改進。對於2018年,我們希望為PyTorch社群提供更加統一的工具集,重點是將他們的AI實驗轉變為生產就緒的應用程式。
我們在5月份的F8會議上釋出了更新的框架,我們詳細介紹了它的原型系統和設定,以及它是如何整合Caffe2模組的。還有產品為導向的能力和新擴充套件的ONNX。這一切都簡化了整個AI開發流程。
10月,我們在第一屆PyTorch開發者大會上釋出了PyTorch 1.0開發人員預覽版。也展示了該框架的平臺生態系統。谷歌,微軟,NVIDIA,特斯拉和許多其他技術提供商在該活動中對PyTorch 1.0進行討論,且fast.ai和Udacity都上線了新版本課程,教授深度學習。
我們在本月早些時候完成了PyTorch 1.0的推出,放出了其完整版本的所有功能,例如在eager和圖形執行模式之間無縫轉換的混合前端,改進的分散式訓練,以及純C ++前端,用於高效能研究。
我們今年還發布了一些工具和平臺,擴充套件了PyTorch的核心功能,包括一對核心庫(QNNPACK和FBGEMM),它可以使移動裝置和伺服器更容易執行最新的人工智慧模型。還有一個加速自然語言處理開發的框架—PyText。
PyTorch還為Horizon提供了基礎。Horizon是第一個使用應用強化學習(RL)來優化大規模生產環境中的系統的開源端到端平臺。
Horizon對RL進行了大量研究,但很少嘗試進行決策,也沒有用於那種可能包含數十億條記錄的資料集的應用程式。 在Facebook內部部署平臺後,在優化流視訊質量和改進Messenger中的M建議等用例中,我們使Horizon開源橋接RL研究和生產,讓任何人都可以下載。
這是一個顯示Horizon的反饋路徑的高階圖表。首先,我們預處理現有系統記錄的一些資料。然後,我們訓練模型並在離線設定中分析反事實政策結果。最後,我們讓專門人員配置模型,衡量真正的政策。新模型的資料反饋到下一次迭代,大多數團隊每天都會部署一個新模型。
我們還發布了Glow——一個開源的、社群驅動的框架。其支援機器學習(ML)的硬體加速。Glow與一系列不同的編譯器,硬體平臺和深度學習框架(包括PyTorch)合作,現在由包括Cadence,Esperanto,Intel,Marvell和Qualcomm Technologies Inc.在內的合作伙伴提供支援。
為了進一步鼓勵在整個行業中使用機器學習,我們釋出了一種新的機器學習優化伺服器設計,稱為Big Basin v2,作為開放計算專案的一部分。我們已將新的模組化硬體新增到我們的資料中心機隊中,並且任何人都可以在OCP市場下載Big Basin v2的規格。
2018年標誌著Oculus Research轉變為Facebook Reality Labs,以及對AI和AR / VR研究重疊的新探索。作為我們儘可能多地開源人工智慧相關工具的持續努力的一部分,我們釋出了DeepFocus專案的資料和模型,該專案使用深度學習演算法在VR中渲染逼真的視網膜模糊。
在未來一年,我們希望獲得有關所有這些版本的更多反饋。我們將繼續構建和開源工具,完成PyTorch 1.0的使命,幫助整個開發人員社群從實驗室和研究論文中,提取最先進的AI系統並投入生產。
建立有益於每個人的AI
我們在開發非常廣泛的AI技術的技術方面有著悠久的歷史記錄。在過去的一年中,我們繼續部署應用人工智慧的工具使世界受益,包括我們對自殺預防工具的擴充套件開發,這些工具使用文字分類來識別那些表達自殺的想法和語言的帖子。該系統使用單獨的文字分類器來分析帖子和評論,接著如果可以的話,將它們傳送給我們的社群運營團隊進行稽核。
該系統利用我們已建立的文字理解模型和跨語言功能,讓我們能夠接觸到需要獲得服務的人群數量得到提升。
我們還發布了一種使用AI的方法,可以快速準確地幫助查明災難影響最嚴重的區域,而無需等待手動標註資料。
這種方法是與CrowdAI合作開發的,能夠以更快速和更高效為受害者提供援助。將來,這項技術還可用於量化森林火災,洪水和地震等大規模災害造成的破壞程度。
我們部署了一個名為Rosetta的機器學習系統,每天從超過十億個公共影像和視訊幀中提取文字,並使用文字識別模型一起理解文字和影像的上下文。 Rosetta適用於多種語言,它自動識別有助於我們瞭解模因meme(目前比較公認的定義是“一個想法,行為或風格從一個人到另一個人的傳播過程。 )和視訊或違反政策內容。
2018年,一個與紐約大學醫學院的長期合作的專案—fastMRI啟動。這個專案的目標是改進現有的診斷成像技術,使MRI掃描速度提高10倍。
fastMRI的目標不是開發專有流程,而是為了加速該領域技術。我們的合作伙伴已經為這項研究製作了有史以來最大的全取樣MRI原始資料集(由紐約大學學院完全匿名釋出),以及開源模型,可以幫助更廣泛的研究群體開始這項任務。我們還推出了線上排行榜,其他人可以釋出並比較他們的結果。
相關報導:
https://code.fb.com/ai-research/ai-2018/
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31562039/viewspace-2375536/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 2020那些AI領域安防大佬們又有何行動?AI
- 我們都是領域驅動 | Ouarzy的部落格
- 資料領域概念橫行?讓我們從本質出發
- OpenAI o1 在醫學領域的初步研究,我們離 AI 醫生更近了嗎?OpenAI
- 為什麼我們能從行話術語中發現領域模型? - mathiasverraes模型
- 2018年終總結之AI領域開源框架彙總AI框架
- Facebook在NAS領域的輕量級網路探索
- 停止教條式的領域驅動設計 - CodeOpinion
- 資訊領域核心技術扼在美國手裡,我們該何去何從?
- DDD領域驅動最全詳解(圖文全面總結)
- 科技行業女性有50%在35歲前離開該領域,我們應如何改變現狀?行業
- AI在婚戀領域是怎麼起作用的?AI
- 認知AI還未實現,我們仍然正在路上AI
- ChatGPT喧囂塵上,雲知聲在AI領域行穩致遠ChatGPTAI
- Java中的Unsafe在安全領域的一些應用總結和復現Java
- 【AI in 美團】深度學習在文字領域的應用AI深度學習
- 我們總不能活在搖籃裡:馬斯克的公司正如何變革八大領域?馬斯克
- AI=機器學習²,我們在去往²的路上AI機器學習
- 網路安全應用領域有哪些?常見應用領域總結!
- DDD領域驅動設計總結和C#程式碼示例C#
- 微服務與領域驅動設計,架構實踐總結微服務架構
- 盤點|AI在機器人運動控制領域應用盤點AI機器人
- 淺談人工智慧在銀行領域的應用及未來發展趨勢人工智慧
- 「救救AI領域,救救孩子!」這是一個AI從業者的倡議AI
- 結合領域事件和微服務的實現領域驅動設計 - Alagarsamy事件微服務
- AI領域我重點關注的幾個今日頭條號AI
- 從《全面戰爭》身上,我們可以看到RTS遊戲的未來?遊戲
- 我們該從Facebook史上最大資料洩露事件中明白什麼?大資料事件
- 中國創客:智慧硬體領域弄潮兒給我們的啟示
- 在騰訊,我的試用期總結
- 百度AI“殺入”新領域,我舉雙手支援!AI
- 在銀行領域證件識別儀的應用
- 阿里雲崩了,總結我們從雲上搬到線下經歷了什麼阿里
- 我們或許該重新審視人類的「AI 情結」AI
- 動漫走向如何? 全年行業大總結!來這一次就全明白了!行業
- 我的總結
- 機器學習這10年我們能在各自的領域做點什麼?機器學習
- 年度總結 - 2018年全年覆盤