2020-08-06 20:29:59

7月26日，由中國人工智慧學會主辦、新浪新聞聯合浙江大學承辦的2020全球人工智慧技術大會（2020GAITC）“AI時代下的新媒體與社交娛樂”專題論壇拉開帷幕，新浪集團資訊長、新浪AI媒體研究院院長王巍，浙江大學特聘教授、悉尼科技大學教授、百度研究院訪問教授楊易共同擔任論壇主席。

新浪微博機器學習團隊AI Lab負責人張俊林本次專題論壇上，與來自業界、學術界的嘉賓們分享了《機器學習在微博的應用》。

圖注：新浪微博機器學習團隊AI Lab負責人張俊林作主題演講。

張俊林提到，在新聞場景中，或者微博場景中，實時模型的線上學習非常重要。使用者興趣可能會非常快速的發展變化，尤其是在影片的場景下。作為機器學習模型，如何更快捕獲到使用者行為、興趣的變化？如果把興趣點體現到模型中，並實時更新，那麼再做下一刷的時候，新興趣可能就體現出來，這就是所謂的實時模型。

他認為，在當前日益激烈的競爭環境下，以大資料+深度模型的新技術對於推動使用者進一步增長非常重要。

以下為張俊林演講實錄，內容經編輯略有刪減：

尊敬的各位嘉賓，網上的朋友大家好，首先我個人非常感謝論壇主席能夠提供這麼好的機會讓我來給大家分享一下人工智慧在微博中的應用。

大家都知道，新浪新聞和新浪微博，應該說是我們公司在AI時代下大環境的變遷情況下兩個典型的個性化的應用。在這種個性化的推薦場景下，怎麼去應用AI技術，哪些是它最需要的技術點，包括我們做了一些什麼，今天我主要分享這些。

我主要從下面三個方面來給大家彙報和介紹一下，首先簡單說一下所謂人工智慧的發展趨勢，我主要是從技術的角度講，王巍總剛才高屋建瓴的把新媒體講的非常清晰，接下來我將從技術的角度來闡述一下，然後我們會介紹一下AI在微博中主要的應用場景。最關鍵的可能是在第三部分，我們到底在哪些場景，或者採用哪些技術這是一個關鍵點。

從技術發展趨勢來說，由於媒體的新時代是人工智慧廣泛應用的時代，後面會介紹幾個技術發展趨勢，而造成這種趨勢的根本原因是什麼？首先我覺得最根本的可能是在新時代下，媒體的發展型別由原來的PC端的大眾傳播到現在的手機成為我們每個人必備的一個工具，到未來的IOT，萬事萬物都會產生新的資料。這意味著每個人可以隨時隨地把所見、所想、所聽傳播出去，每個人都是一個資訊製造者和傳播者。

另外一點，我們擁有世界最領先的5G技術，這代表了我們網路頻寬速度更快了，成本更低了，這可能是最根本的一點，導致了一個新的資料形態，代表了每個人都可以隨時隨地發資訊，資訊極度爆炸，另外一點，因為手機現在拍照片，拍影片都非常的簡單，非常的方便，所以就產生了很多媒介型別。

我們用微博來說，微博上媒介型別的變遷是非常明顯的，目前微博app上70%的微博是包含圖片的，30%的微博是包含影片的，我們可以看出它的發展趨勢。這一點，從技術的角度上看，是上述這些原因導致了技術的發展。下面簡單介紹下幾個技術發展趨勢：

首先第一個圖象理解，剛才我們講了圖象佔微博70%，如果你想更好的理解使用者，更好的理解內容，能夠看懂一個圖象在講什麼，理解它是非常關鍵的。還有兩個具體的例子，人臉和物體的識別，我個人覺得圖象理解非常的重要，但是從目前的成熟度來說，任重道遠。

對於機器來說，什麼是真正理解一個圖象，理論上來說我拍一張照片，裡面包含的任何實體都能夠精準的識別，比如一瓶水，一個講桌，甚至是水的品牌我應該都能識別。但是現在達到這一點，我個人覺得可能有困難，這是由於目前的技術成熟度，還不夠導致的。但是這個大方向，毫無疑問是很重要的一個方向。

然後相關聯的是影片理解，我們剛才講的影片現在佔了網際網路流量的相當大的一個比例，你如何理解一段影片在講什麼，是什麼場景，發生了什麼，對於你正確的理解使用者，理解一個內容是非常關鍵的。同樣的，剛才楊教授也講到了，真實生活場景裡面的影片，你會發現非常的複雜，各種場景都會有。你怎麼定義它，怎麼識別它，實際上是非常困難的事情。

剛才各位老師也說過了，多模態的事情，目前來看是非常重要的。比如拿微博來說，你發一條微博時就包含了4到5種模態資訊，包括髮的文字內容，圖片內容，影片內容，包括髮布者的資訊，包括社交關係，這都是不同的媒介型別。我們能夠怎麼整合所有的不同媒介的型別，更好的理解一個內容，更好的理解使用者，這是非常關鍵的一個點。

另外，無監督學習也是發展趨勢。無監督的學習，實際上最近從2018年下半年開始熱起來，根本的一個促進它熱起來的一個點，就是Google提的Bert，是典型的利用無監督來促進技術發展的一個飛躍性的技術。

為什麼我們要無監督學習？因為機器學習實際上模型是一方面，更關鍵的一方面是訓練資料，因為你要教機器去學習知識，那麼你得告訴它，先給它一些樣例，讓它從樣例裡面去學知識。但是你做大量的訓練資料，就要花費很大的人工成本，這就是過去限制機器學習一個非常重要的因素。

那麼無監督就是緩解這個問題，意思就是說，我們能不能讓機器從大量的自然語言文字里面自動學到很多的知識，無監督做這個事情，這應該是引領性的一個模型。

另外一個趨勢，實時模型，學術上一般叫做線上學習，這在我們新聞場景，或者微博場景是非常重要的。我們要捕獲一個使用者的興趣，使用者的興趣可能會非常快速的發展變化，尤其是在影片的場景下。那麼你作為機器學習模型，怎麼能夠更快的捕獲到使用者行為的變化，或者興趣的變化。實時模型就是幹這個事情的，比如說我們使用者在刷微博，隨著一刷一刷，看我過去10分鐘新點過什麼東西，可能新點的東西就代表了你新的興趣。我們希望你能夠儘快的把興趣點體現到模型裡面去，更新這個模型。那麼在再做下一刷的時候，新興趣可能就體現出來，這就是所謂的實時模型，對於目前，尤其是對於短影片的場景，線上學習是非常重要的一個點。

最後一點，超大規模算力，這個應該是對網際網路公司來說，是非常關鍵的一個事情。因為我們知道，對於網際網路公司來說，使用者量非常大，日活、月活都是以億計的，那麼當大量的使用者來使用這個產品的時候，快速的進行相應推送，是非常關鍵的。大家看到的每個人上去刷，不太容易直觀感受到這一點，但是如果你考慮到每時每刻有數億的使用者同時在刷一個東西的話，後面實際是有幾千臺甚至是上萬臺機器來支撐這件事情的。所以大規模的演算法對於機器學習非常重要。

上面介紹幾點技術發展趨勢，我剛才介紹這些是為了引出第三部分，因為我們做技術佈局也是圍繞技術發展趨勢來做的，只有這樣的話，我們才能事半功倍來做這個事情。

第二板塊介紹一下涉及到的應用場景，這是我們整體的一個基礎架構圖，最底層應該是機器學習的架構，比如說對於微博場景，我們有成億的資料和使用者，那麼對於這麼大的資料怎麼能夠快速收集、儲存、簡單的處理。你需要訓練一個機器學習模型，我們現在是一線的網際網路公司，訓練一個機器學習模型，規模是非常恐怖的。基本上規模達到了百億級的特徵，訓練資料是千億級。

剛才我們還要支援實時模型，你能不能儘快的推動大量的機器，把這些模型訓練出來，底下的機器學習架構實際上幹這個事情，中間是演算法層，是圍繞應用場景來佈局的，我覺得如果對於我們的應用場景來說，可以歸納為一箇中心，兩個基本點。

一箇中心是個性化推薦，怎麼能夠更精準的推資訊，這個是中心。你為了能夠做好更好的推薦，兩個基本點。第一點，你要理解內容在講什麼。第二點你要理解使用者對什麼感興趣，只有這兩個基本點做好了，我才能做好推薦這個事情。可以說所有的都是圍繞這個事情佈局的，所以你看演算法，推薦還是比較核心的一個點。包括你想要理解微博或者新聞在講什麼，你要理解文字，自然語言處理，你要理解圖片、影片、計算機視覺，甚至是語音，這個是圍繞這個事情來佈局的。最上層就是我們要支援的各方面、各種應用。

這是目前我們機器學習支援的核心業務，打出了一個時間軸，從這兒我們可以看出來，機器學習在微博也好，新聞也好，個性化推薦也好，起了越來越重要的作用。從早期的支援個別業務，到目前支援大大小小10多個業務。

在這些應用場景裡面採取了哪些技術，第三部分主要來跟大家分享一下這部分的內容。如果歸納一下微博的內容生態的話這個圖展示了三個環節，首先內容生產，應該都是使用者內容，但是你從技術的角度來講，我們希望能夠讓使用者成本更低，更便捷的生產一個微博。

實際上我們目前的技術核心，投入比較多的是後面兩個環節，首先是內容理解，你怎麼理解一個微博在講什麼，你怎麼理解一個使用者對什麼感興趣。其次是內容消費。我剛才講的推薦部分提到了怎麼能夠提高分發效率，讓更多的使用者，更快的獲得到你感興趣的內容，這樣就形成了一個完整的閉環。後面我介紹一些具體的技術點，內容消費分發就是我剛剛講推薦那部分的應用。核心包括兩側和一個橋樑，兩側中的第一側我們首先要理解內容在講什麼東西，因為微博的內容型別非常多，比如說微博、影片、圖片、文章、話題很多，第二，我們要理解每個使用者對什麼感興趣，中間這個橋樑就是推薦系統。根據使用者對什麼感興趣，我從裡面篩出海量你可能感興趣的，推送給你幾十條，因為每個人的消費時間是有限的。

下面我們歸納一下推薦技術的進化邏輯，這個圖展示了推薦技術的進化方向，應該說不僅僅是微博，或者說我們新浪體系，業界所有的做個推的公司，基本上都是按照這些歷程去做的，最早的就是LR，大規模的LR模型，到FM模型，再到線上FM模型，到目前的深度學習排序，目前我們新浪體系也是走在深度學習這一側。

我們除了把最新的推薦技術落地之外，也積極的推出了一些新的技術。包括我們落地對外提供了一些知識的分享，我們去年在推薦領域最好的一個國際會議發表了一個新模型Fibinet，這個應該是目前效果最好的深度模型之一，據我所知，有一些網際網路公司開始應用這個模型去做個性化推薦。

剛才講的是推薦，還有兩個比較關鍵的中心點，理解內容，理解使用者，從理解使用者來說。精準的使用者畫像是做好推薦的一個基礎工作。在我們微博內部，對每一個使用者在後臺都對他的個人興趣做了一些挖掘，挖掘的屬性實際上有很多，從很多種維度來進行挖掘，包括個人的興趣愛好，能力，包括你的自然屬性，性別年齡這些都有很多。

後面我們介紹一些內容理解，比如說圖片理解，這是一個在微博環境中非常有價值的一個資訊，明星可以說在微博上是佔有一定流量的，現實中面臨一個問題，你要理解一個圖片，比如說這個圖片出現了一些明星，你能不能正確的識別出這個明星是誰。目前我們能夠支援大約600多個明星的識別。

另外一個圖片理解的應用場景，看上去很簡單，但是效果產生的影響非常大。我們說的智慧裁剪，我們現在都是用手機來瀏覽資訊，但是往往我們每個微博會有4圖、5圖、9圖，當9個圖時你是不可能把每一個圖完整的展現出來，只能展現一個小視窗。那麼一個圖展現視窗，展現哪一部分，對於使用者是否會點選它，影響非常大。

舉個例子，比如說這張圖片裡的楊冪，你可能發現最關鍵的臉部資訊被減掉了，體現給使用者的體驗不太好。此時我們就可以用智慧裁剪，對圖片裡面最顯著的部分檢測出來，然後展現小視窗的時候展現顯著部位，就像圖裡面展示的一樣，這就對流量產生了非常大的推動作用。

另外一點，這個主要是圍繞多模態的角度講的，我們需要對文字進行理解，需要對圖片進行理解，文字理解的話，微博主要是從幾個維度來做，包括內容類別，分為體育的、娛樂等，我們目前有三級體系。包括微博是否有吸引力，時效性如何，質量如何，垃圾廣告等各種維度的分析甚至圖片也有各種的分析，然後整合到一起，透過模型來更好的理解一個微博在講什麼。

影片我們講現在有30%的微博帶影片，如何更好的理解影片，非常的重要，我這列了一下我們目前做的一些工作，包括對影片來源的識別，對場景的識別，我要知道影片講的是體育的，還是娛樂的，如果包含明星，是哪些明星，只有這樣識別，我們在做推薦的時候才能更精準的推薦。

這給了一個多模態的例子，多模態確實越來越重要，我們在一線做這個事情會體會的特別的深。舉個例子，多模態是怎麼發揮作用的，單純從文字來說，一個使用者發了微博說這幾個蘋果哪一個好，我們知道蘋果是多意詞，可能是吃的蘋果，也可能是手機，還有可能是電影電視劇。你如果單純的分析文字，很難知道使用者到底在講什麼，但是帶著圖片，透過圖片的分析我們知道實際上講的是手機，就可以更精準的理解使用者的興趣，這個是比較直觀的例子來說明多模態的重要性。

最後我說一下內容生產，生產主要是為了輔助使用者能夠更低成本的產生一些內容，也包括保護一些使用者隱私的保護。具體舉例，比如做語義分割，把使用者的背景照片替換掉，你可能不太願意把你真實的背景展現出來。我們可以根據需要替換掉變成你想要的背景。

這是我今天的分享，感謝大家。

GAITC專題論壇丨張俊林：AI時代下大規模機器學習的應用

相關文章