微軟張若非:搜尋引擎和廣告系統,那些你所不知的AI落地技術
作者 | Jane
出品 | AI科技大本營( ID:rgznai100)
這兩年,被譽為“ 皇 冠上的明珠”的自然語言處理領域發展愈發火熱,成為了業內新寵,而 搜尋和廣告這兩大老牌技術領域似乎已被大家遺忘。其實,這兩大接地氣的工程領域仍是各企業競相搶奪的市場之一。
近日,AI科技大本營採訪了美國微軟人工智慧和研究部高階研究總監張若非。他現在帶領團隊負責必應廣告平臺演算法、機器學習模型及大規模離線和線上系統的研發和運營,支援包括必應和雅虎 搜尋引擎、亞馬遜、AOL 等在內的眾多應用。加入微軟前,張若非任 Yahoo 研究院 主任科學家和研發總監,管理資料探勘和相關性最佳化部門,開發運營了雅虎面向全球市場的 搜尋及顯示廣告演算法和系統。
採訪中,張若非從微軟的必應廣告平臺、 搜尋引擎技術與應用出發,談了他多年的研發工程實踐經驗,以及對未來AI的技術發展趨勢、值得 關注的技術領域等問題的看法。
以下為採訪內容實錄:
AI科技大本營:微軟必應的大規模廣告系統中是否運用了最新發表的研究成果?未來又有哪些新技術研究會有更多應用機會?
張若非:我帶領的團隊並不是純研究型團隊,研究的問題大多來源於產品業務中真正面臨的一些難題,針對這些難題進行科研攻關並將研究成果嵌入到產品中。比如最近發表在KDD 2019上的最新工作,發表論文不是團隊核心和唯一目的,是在解決問題的過程中,團隊提出了新穎的想法、有效的解決方案,才將這些成果整理後發表。而目前大部分研究成果已經部署於產品中,只不過部署規模有所不同,有的已經完全部署,有的還在執行調優階段。
雖然大家已經很熟悉 搜尋引擎和廣告系統,似乎這兩個領域很少能帶給大家炫酷的感覺,但是現在深入研究的新模型和方法在擴充新業務或場景中還是有很多可能的,比如強化學習在內容生成領域中應用發揮的價值。
以前,大家對強化學習研究與應用的瞭解大都圍繞遊戲領域,現在,我們團隊已將深度強化學習應用於自動生成廣告任務中。根據廣告商的網頁,系統化地理解網頁中可提供的服務、銷售的產品型別,從而幫助自動生成廣告標題、描述等。當然,這些任務也可以透過NLP中諸如Seq2Seq、BERT等效果不錯的深度學習模型來完成,但是,除了生成內容的質量,還需要有一些“Reward”因素可以給模型生成的結果一定的牽引作用,如點選率,從而知道生成的結果對使用者是否有吸引力。
如果我們在廣告系統中加入一個點選率模型產生廣告生成模型的獎勵,透過使用者的點選行為評估廣告內容,評判廣告的吸引力,從而不斷提高廣告生成模型的效能以直接提升業務指標。深度強化學習是我們所選擇的技術方法,強化學習中的「反饋」可以引導我們有方向的最佳化廣告系統,提高廣告質量,預測使用者點選的期望值。
透過實驗的對比評估,我們發現,讓使用者在深度強化學習生成的廣告和人工生成的廣告進行選擇,52%使用者認為深度強化學習系統生成的廣告更有吸引力, 30%多的使用者認為人工生成的廣告更好,10%的使用者認為兩類廣告無差別;而廣告投放後,再對比 CTR指標,發現深度強化學習方法有 12 %提升。所以,透過強化學習中的「反饋」與「激勵」引導內容生成,未來在廣告系統或推薦系統中的應用是值得 關注的方向。
AI科技大本營:如何看待從技術研究到落地的鴻溝問題?
張若非:首先,從不斷的調參、系統最佳化、增加的規則到處理諸多邊緣問題,現有的產品系統、技術架構是經過多年的打磨而成的,新技術、新系統即使有某些效果的提升,也無法做到完全替換現有系統,保證已有的效能,所以,新技術是不斷迭代,與現有系統 結合,加持於整個系統中的,這是新技術落地的常見方式之一。
其次,在新技術不斷實驗和快速迭代中,團隊也會不斷發現新問題和解決問題,比如不斷調參調優來最佳化深度學習模型,使之逐漸達到現有系統的效能;而除了模型本身的最佳化工作,系統調優也是一個大問題,一些新模型的計算量都非常大,高延遲、高消耗限制了部署的可能性,團隊需要和負責系統的團隊一起合作做很多最佳化工作,提高系統效能,把系統處理速度、規模、儲存及穩定性等效能指標逐漸提高至現有產品系統的標準,這些都是把研究落地到產品中需要重點 關注和解決的實際問題。
AI科技大本營:目前的搜尋引擎技術有哪些提升空間?
張若非: 搜尋引擎雖然已經存在很長時間,但是,一直以來我們都沒能真正的理解和回答使用者的很多問題。傳統的 搜尋引擎中,當使用者輸入一個問題後,會返回一些連結,使用者自己選擇哪個連結是自己需要的,往往真正得到解決一個問題的答案,需要多次瀏覽多個網頁。比如,你想問“小孩的安全座椅怎麼安裝”、“怎麼更換淋浴花灑”等此類任務場景下, 搜尋引擎可能會告訴你安全座椅的介紹、種類或商家等資訊,它完成的是一個檢索工具的使命,但未必能簡潔扼要地回答你的問題。
現在的 搜尋引擎會直接給你需要的答案嗎?告訴你答案後,它能真正理解你的提問意圖,進而提供你完成這件事後續需要的資訊嗎?比如,透過你的提問,分析你的問題和意圖,當你想要一個驅動程式時,告訴你具體操作的步驟與方法?這是大家現在在研究和解決的問題之一。
除了真正理解使用者的問題,直接提供答案,當一些問題或知識存在於不同體系、不同組織,有一定距離時,需要我們可以再組織、挖掘其中的關係,這說明知識圖譜技術仍需不斷擴充,以支撐 搜尋引擎提供更好的服務。
深入使用者在 搜尋引擎中輸入的問題本身,抽取相關資訊,真正理解使用者意圖,進行個性化分析,預測使用者需求,也是現在的主要工作之一。比如,使用者輸入亞馬遜,一般情況下會給出亞馬遜公司相關的資訊,但如果近期 搜尋這個詞,大家可能更 關注的是亞馬遜雨林大火,所以,在具有一定模糊性、特殊性情況下, 搜尋引擎如何能更好的理解使用者意圖,把知識以更加結構化、系統化形式組織並呈現,無論是技術方法還是產品邏輯,都還有很大的提升、改善的空間。
AI科技大本營:如果企業決定在業務系統中使用新技術,有什麼建議?
張若非:第一,如果企業想利用這些最新的技術,可以在企業內部專門設立相關團隊或部門,負責訓練、評估新模型,這也意味著投入相應的人力和算力成本是必然的;資料可以用公開資料集,也可以 結合企業特有的一些資料,再放到企業的部分業務中進行調優、評測。
第二,深度學習模型的訓練推理涉及大量的計算,系統的延遲成本是非常昂貴的,所以我們通常會採用teacher-student model,teacher model 有很高的capacity,比 student model包含更多的資訊和規則,student model 則比較簡單,訓練和推理速度都比較快, 結合teacher 和student 兩個模型的特點,不失為一個值得嘗試的方法。目前很多深度學習模型線上推理還無法滿足實際產品的延遲要求,所以,訓練一個輕量級的model在真實部署應用中是更現實可行的方法。
以上這兩點 建議的前提都是如果企業決定在業務系統中使用不斷出現的新技術。但是,企業一定是根據自己的具體需求,要解決的任務來決定。目前模型效果如何?是否可以切實提升產品效果?提升的空間有多大?最後,還有新技術的投資與回報比的問題?無論是否使用新技術,對於一個企業來說,研究瞭解新技術還是必要的,新技術的強項與弱點,適合哪些問題等等,如果沒有了解與不斷學習,掉隊是必然的。
AI科技大本營:未來,還有哪些熱門研究問題?
張若非:Pre-training 仍是目前的的熱門研究領域之一,它為我們開啟了無監督學習這扇窗,我們可以用海量、無標註資料學習特徵表示,我們也在一些NLP任務中看到了效果。未來,Pre-training和Fine-tuning都是領域內的熱門研究方向,諸如透過最佳化training來提高速度、如何做 online Inference、提高系統層面的效率等問題 ,也都是值得大家 關注的研究問題。
第二個值得 關注的方向是圖神經網路。目前,深度學習系統處理的資料大多是聲音(一維資料)、影像(二維資料)、文字(序列資料)。在實際產品中我們會遇到更多複雜的、非標準和規則的半結構化資料,如何用結構化方法學習是目前圖神經網路重要研究的問題,在工程實踐中也會面臨一些挑戰。
第三個值得大家 關注的是聯邦學習,研究如何保護資料安全和所有權,以及使用者資料隱私的問題。隨著大家對資料越來越重視,很多公司宣告,不會將使用者資料上傳至伺服器,也不會追蹤使用者的使用資料,這在很大程度上給公司的業務帶來了很大的挑戰。如何在保護使用者資料隱私的情況下又不影響模型訓練效能和業務指標,是目前國內外很多公司迫切想要解決的問題,比如在廣告系統中,推薦和個性化業務都需要基於使用者的歷史記錄,保護了使用者資料,必然對業務平臺造成影響。因為對這個問題解決方案的迫切需求,聯邦學習成為我們研究的熱點。
使用者提問
採訪前,我們向CSDN讀者提前收集了一些使用者提問,張若非回答了部分提問,解答大家在學習、從業及未來職業規劃的疑問。
1、深度學習和數學建模的聯絡是怎樣的?
張若非:數學建模比深度學習的內涵更大,但深度學習模型離不開建模。數學建模,是把一種事件或者一種現象,用某一數學公式來表達,比如泊松分佈是對一天中在公共汽車站等車的乘客個數的一種描述。有了資料建模,把資料放到這些數學模型或分佈中,就可以進行預測。而深度學習是從資料中自動產生多層不同結構的神經網路模型,在引數未知的的情況下,用資料不斷進行 fine-tune,從而學到針對某些資料的模型,所以,數學建模是包含深度學習的。
2、對於入門深度學習,程式碼裡的函式都看不懂,是不是需要一個一個的查?
張若非:首先,要看你用的是什麼深度學習模型,如果是一些經典的模型,比如AlexNet、ResNet等,我想你需要深入看一些,理解函式的用途,知道每一層或每個函式是如何呼叫的。而對於一些最近的技術模型,如 BERT、XLNet,如果你只想把它視為一個“黑盒”,保證模型可以work,程式碼細節也許不是最重要的;當然,如果你本身對它感興趣,想知道每步在做什麼,深入研究還是有必要的,不僅知其然,還知其所以然。
3、機器學習和深度學習模型中哪些模型比較適合效能較低的邊緣閘道器?
張若非:很多深度神經網路很深,比如BERT-Large有24層的Transformer。如果想要適合效能較低的邊緣閘道器,首先在模型結構方面,可以考慮用層數不多的模型,可以嘗試上面提到的teacher-student方法,用深模型訓練淺模型,使模型不那麼深;第二,模型要做降維,高維降低維;第三,考慮模型壓縮,除此之外,最好你的閘道器是有平行計算能力的,即使沒有 GPU,一些平行計算的矩陣計算庫如MKL也可以幫助進行平行計算。
4、如果強調資料安全性,能否有相應的手段保證多個節點間透過模型共享,而不是資料共享?
張若非:其實,這個答案就是聯邦學習。不管你是什麼樣的模型,不共享資料,也不共享完全相同的一個模型,透過專門設計的分散式模型訓練和分發機制可以做成這件事。
5、雖然現在技術層面上各種模型層出不窮,但個人感覺對企業來說還是價值有限,部分企業所使用的人工智慧,好像只是把統計方法或資料探勘方法換了個說法而已。到底是企業的路數不對,還是人工智慧的發展遇到了瓶頸?
張若非:現在人工智慧很熱,但是它主要在幾個領域上有比較大的用途。一是網際網路領域,有大量的資料,網際網路公司有大量的計算資源,有直接應用人工智慧技術的場景,但是,大量的傳統企業,比如教育、農業,其實並沒有真正應用前沿的深度學習模型,應用的仍是機器學習模型,如果要說使用了深度學習技術,也是在積累資料,分析這些資料,得到了相關性的結果,但還沒有做到預測,這些確實是企業面臨的一個實際問題。此外,企業中的痛點並沒有透過這些技術得到徹底解決,看到一個翻天覆地的變化。同時,在企業中人才也是非常重要的資源。這些因素都是造成目前現狀的原因。
但是,未來 AI 的技術發展還是會繼續推動著企業應用AI技術的腳步前進。一方面,非AI企業在現在的大趨勢下,也會猶疑如果不使用這些是否會被落後淘汰;其次,現在很多機器學習模組、工具都會部署到雲端,越來越多的企業可以在自己的業務中直接使用雲端中的工具和模組,自己上傳資料後建立一個模型,應用AI技術的門檻會被逐漸降低,進而再根據自己企業的情況做評估,更有目標和方向地制定下一步技術戰略。在微軟,我們也在雲端計算Azure平臺上提供很多機器學習的框架和工具,比如認知服務,來民主化人工智慧的開發和部署。這些都可以繼續推動技術在網際網路行業,甚至在其他行業領域中的應用。
6、您在國外長期學習、生活和工作,結合個人經歷,您認為對於國內外的學生和開發者來說,面臨著怎樣的機會和挑戰?
張若非:首先,我覺得對國內的初學者來說,一個很明顯的現象就是學習AI的門檻降低了。越來越多的開源,公開資料,讓原本枯燥的研讀Paper,復現模型這些過程不再成為學習過程中的攔路虎,現在大家可以比較容易地直接run一個模型,讓一個模型work。至於想要知道這個模型是“如何work”、“如果不work怎麼辦”,就對大家提出更高的要求。同時,國內對人工智慧發展的重視及國家提供的各種鼓勵政策和條件,國內移動網際網路地蓬勃發展,以及對資料和使用者隱私相對寬鬆地態度對國內的學生和開發者從事AI研發和應用來說是很好的機會。
9月21日,在聚焦機器學習與深度學習的技術沙龍上現場還發布了張若非及團隊撰寫的新書《深度學習模型及應用詳解》,同時,張若非等技術專家在現場帶來了精彩的演講,技術沙龍直播回顧:
影片回看:
人工智慧火熱發展的這幾年,吸引了越來越多的學生、開發者投身於AI的學習與工作。然而,前幾年,國內本土的優質學習資源非常匱乏,讓大家無從選擇,如今各類學習資源、技術圖書不斷出現在大家視野中,大家已經身處其中而“無法選擇”了。如何能快速遴選出適合自己、讓自己獲益的一本好書?《深度學習模型及應用詳解》是你的一個選擇。
採訪嘉賓: 張若非,美國紐約州立大學電腦科學博士。微軟(美國)人工智慧和研究部高階研究總監,全球合夥人,《深度學習模型及應用詳解》作者。負責微軟線上廣告平臺機器學習模型、演算法及系統的研究和建設。研究領域包括機器學習、資料探勘、自然語言處理、計算機視覺和多媒體資訊檢索。在這些領域的一流學術期刊和頂級學術 會議發表論文50餘篇,獲得美國發明專利14項。美國國家自然科學基金會(NSF)智慧系統評審委員會委員,IEEE和ACM高階會員。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69946223/viewspace-2667248/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 搜尋引擎分散式系統思考實踐 |得物技術分散式
- 搜尋趨勢:微軟必應新版整合AI和實時搜尋微軟AI
- 開源搜尋技術的核心引擎 —— Lucene
- 技術宅告訴你如何搜尋更安全
- 有贊搜尋系統的技術內幕
- OpenAI新AI搜尋將顛覆谷歌等傳統搜尋引擎OpenAI谷歌
- NLP技術如何為搜尋引擎賦能
- 中文搜尋引擎技術揭密:中文分詞中文分詞
- 微軟陸奇:大資料技術的誕生源於搜尋微軟大資料
- 作為前端,你不得不知道的搜尋引擎優化前端優化
- 你所不知道的 AI 進展AI
- 搜尋引擎-03-搜尋引擎原理
- 後端技術雜談2:搜尋引擎工作原理後端
- 搜尋引擎分散式系統思考實踐分散式
- LinkedIn 招聘之搜尋和推薦系統背後的 AIAI
- 你所不知道的阿里開源那些事兒阿里
- 【搜尋引擎】SOLR VS Elasticsearch(2019技術選型參考)SolrElasticsearch
- 網路偵察技術(一)搜尋引擎資訊收集
- Elasticsearch核心技術(五):搜尋API和搜尋執行機制ElasticsearchAPI
- 巨量引擎:2020年搜尋廣告營銷通案(附下載)
- 揭秘淘寶搜尋API:打造你的專屬購物搜尋引擎!API
- AI 驅動的「科學搜尋引擎」如何加速你的課題進度AI
- 搜尋系統核心技術概述【1.5w字長文】
- 海量資料搜尋---搜尋引擎
- 後端技術雜談1:搜尋引擎基礎倒排索引後端索引
- 搜尋器robot技術
- 那些教育直播系統開發,你不知道的事
- 工作流引擎你所不知道的事--開源軟體誕生16
- 用 google 作為你的預設搜尋引擎Go
- Redis 實戰 —— 10. 實現內容搜尋、定向廣告和職位搜尋Redis
- python 寫的搜尋引擎Python
- 高效的使用搜尋引擎
- seo技術中的原創內容對搜尋引擎一定好嗎?
- eMarketer:1/3的廣告支出用於技術和軟體中介
- 你不知道的軟體測試那些事?
- 搜尋排序技術簡介排序
- Nebula 基於 ElasticSearch 的全文搜尋引擎的文字搜尋Elasticsearch
- 阿里推薦與搜尋引擎-AI·OS綜述阿里AI