7月28日,阿里巴巴的“NASA大腦”iDST(Institute of Data Science Technology)表示,《Hierarchical Multimodal LSTM for Dense Visual-Semantic Embedding》入選2017年國際計算機視覺大會ICCV,即計算機視覺領域的頂級會議之一。

這也是阿里巴巴本月內第三次公佈論文入選國際頂級學術會議的好訊息。

據瞭解,這篇論文涉及的是計算機視覺(Vision)和自然語言處理(Language)兩個獨立領域結合的學術研究,提出了對影像(或影像顯著區域)更為細緻精確的描述,顯示出阿里巴巴在Vision&Language研究方向的持續挖掘。

該論文透過創新的多模態、層次化的遞迴神經網路(Hierarchical Multimodal LSTM)方法,可以將整個句子、句子中的短語、整幅影像及影像中的顯著區域同時嵌入語義空間,並且自動學習出“句子-影像”及“短語-影像區域”間的對應關係,生成包含更多形容詞的稠密語義空間,對影像或影像區域進行更詳細和生動的描述。

也就是說,計算機以後不僅能說“一隻鳥站在樹枝上”,還能說出“一隻羽翼未豐的小鳥站在春天抽芽的樹枝上”、“一隻張嘴乞食的小鳥”、“一隻小鳥站在抽芽的樹枝上,撲騰翅膀學習飛翔”這樣更為生動複雜的句子。

論文作者介紹,這一研究將被用於“看圖說話(Image Captioning)”任務及其他頗有意義的應用場景。如應用於自動導盲系統,將拍攝的影像轉換成文字和語音,以便提示盲人避障。

此外,還能用於“跨模態檢索(Cross-media Retrieval)”任務,當使用者在電商搜尋引擎中輸入一段描述性文字如“夏季寬鬆波西米亞大擺沙灘裙”,系統就能為使用者提供最相關的商品。

ICCV全稱為IEEE International Conference on Computer Vision,與CVPR(計算機視覺模式識別會議)和ECCV(歐洲計算機視覺會議)並稱計算機視覺方向的三大頂級會議。

在本月早些時候,阿里巴巴先後釋出三篇論文入選國際多媒體會議ACM MM,四篇論文入選國際計算機視覺與模式識別會議CVPR的訊息。

今年3月,阿里巴巴宣佈啟動NASA計劃,要為未來20年研發核心科技。在這一計劃的號召下,阿里正在人工智慧領域全面發力,在機器學習、視覺識別等領域不斷追趕世界頂尖的學術水平。