《越人歌》
今夕何夕兮,搴舟中流。
今日何日兮,得與王子同舟。
蒙羞被好兮,不訾詬恥。
心幾煩而不絕兮,得知王子。
山有木兮木有枝,心悅君兮君不知。
更多幹貨內容請關注微信公眾號“AI 前線”,(ID:ai-front)
這是一首春秋時期有名的同性愛情詩歌。自古以來,描寫同性愛情的作品數不勝數,但由於傳統道德理念上的限制,同性戀情在中國長期以來成為不為大眾所知的行為。近來相關管理部門對網路中有關同性戀的內容和資訊的一些處理方式似乎讓外界覺得,這個群體的處境仍比較艱難。而男同社交應用 Blued 的成功,讓這個群體有了某種程度上的歸屬感,並證明了這個市場巨大的潛力。很少有人知道,它的成功和人工智慧的進步有著密不可分的關係。
很榮幸,7 月 6 日在深圳舉辦的 ArchSummit 全球架構師技術峰會邀請到了 Blued 資料科學家王英傑現場分享《社交網路中的 AI 影像技術應用》話題。藉此機會,AI 前線採訪了王英傑,就 AI 在 Blued 的應用以及效果作詳細的解讀。
(以下是採訪整理內容)
相比一些歐美國家,中國對同性戀的包容度似乎還是更低一些,但這並不能阻擋這個群體的生存發展,以及消費能力的增長。Blued 就誕生在這樣的環境下。
和其他網際網路企業一樣,Blued 也開始通過時下最熱門的技術——人工智慧,應用於產品日常運營中,以應對越來越多湧入的新使用者,以此改善體驗。
面對數量巨大的使用者和社交網路資料資訊,如何為每個人找到身邊的好友並根據使用者興趣進行匹配,成為 Blued 演算法工程師面臨的極大挑戰。影像、視訊、動態圖片對於社交網站的重要性不言而喻,演算法工程師很大一部分工作就是處理與視覺資訊相關的資料,AI 成為他們解決問題的最佳利器。
據 Blued AI 演算法部資料科學家王英傑的介紹,Blued 在平臺的影像社交業務中已經廣泛採用 AI 技術。
他們從 LGBT 人群的陌生人社交切入市場,逐漸轉向興趣社交和泛娛樂化平臺,擴充出了很多使用場景。在這些使用場景下,使用者可以在 Blued 上釋出人臉頭像、相簿、圖片動態、小視訊、直播等。鑑於視覺資訊在社交產品的重要地位,使用者期望瀏覽興趣標籤下的高顏值照片,用小視訊快速瞭解真實的對方,觀看推薦的主播直播。Blued 上社交、內容、商業化模組都已有落地的應用在深度使用 AI 影像技術。
在社交產品上,使用人臉檢測的技術篩選頭像照片中含人臉的照片,並對得到的人臉特徵做相似性分析;對含人圖片進行體型胖瘦的分類,通過檢測模型提取了一些身材和服飾上的標籤,這些特徵對於構建社交推薦產品的模型是非常重要的特徵;使用影像分類的技術剔除掉不含人的小視訊;以及使用影像檢測結合影像分類的技術提取主播推薦的特徵值等。
在變現業務方面,Blued 基於影像和短視訊的內容 feed 流推薦產品,已經推出了商業化廣告模組;影像演算法在頭像認證、隱私保護上的應用也是會員和增值服務等變現業務的重要組成部分。
具體到 AI 影像技術解決方案和應用演算法的內部機制,王英傑解釋道,Blued 的 AI 影像技術方案根據產品需求,首先拆解出幾個核心的影像任務,選取適合的網路模型,如人臉檢測模型、人臉識別模型、影像標籤檢測模型、影像分類模型等;之後利用平臺上生產的大量圖片做訓練和微調,不斷迭代完些基礎模型;最後在不同的業務場景上,組合使用這些模型,並在使用的過程中根據測試結果隨時調整模型輸出閾值引數。從演算法機制上講,模型的迭代,資料的累積,引數的調整,形成三個並行的演進過程。同時,資料的累積促成模型的迭代,模型迭代後引數不斷優化調整,引數優化調整後獲得質量更好的資料積累,從而推動 () 整個系統進化。
通過這套在 Blued 內部執行了半年的技術解決方案,Blued 解決了以前靠人工稽核、人工運營、產品規則解決不了的問題和實現不了的效果。比如在一些應用了 AI 技術的產品模組上,有超過 30% 的 UV 增長,人均 PV 有超過 60% 的增長,推薦成功率比人工精選提高 2 倍以上。現在,Blued 的演算法模型基本上每個月都有大的迭代更新,但在與內容生產環節的配合上,和內容消費的社交轉化傾向性上,還有很多需要不斷完善演算法、優化目標的地方。
為了體驗這款產品的效能如何,AI 前線對該產品進行了體驗測試。在註冊 Blued 賬號後,系統會通過使用者選擇的興趣標籤進行推薦。那麼,Blued 的推薦排序機制是怎樣運作的呢?
AI 前線瞭解到,Blued 資料平臺會收集使用者註冊填寫的基本資料資訊,並結合使用者在平臺的內容瀏覽行為產生興趣標籤,Blued 會進一步探索使用者的社交關係鏈,並將這些資料匯入推薦系統。另外,在推薦演算法的基礎上,Blued 還會考慮使用者定義的過濾和篩選條件進行排序,但主要還是以登陸時間和距離遠近為原則。
Blued 並不是一家普通的網站,它的使用者是一個特殊的群體,因此具有一些不同於普通網站的特點,並因此讓工程師們面臨“不同尋常”的挑戰。Blued 的 AI 之路走的並非一帆風順,很多時候,工程師們面臨著應接不暇的挑戰。
王英傑向 AI 前線坦承,目前,Blued 最大的技術瓶頸,是雲端大規模資料並行運算,以及移動端模型運算效率問題。前者的難點在於模型計算平臺和資料儲存平臺目前還沒有打通,這一問題雲端計算服務已經在著手解決了。後者的難點在於目前的方案在效率和效能上還沒有達到很好的平衡點,因為在移動端對算力和功耗要求較高。但王英傑相信,隨著移動端技術的快速發展,這個瓶頸很快就能突破。
Blued 使用者也有不同的特點,包括興趣標籤細分程度更大,使用者資料真實性的甄別難度更高,使用者反饋行為的分佈上更不均衡,使用者的頻繁訪問次數更多等。這些都給演算法的資料和算力提出更多挑戰。
而這些難題並非無解。在資料問題上的挑戰,Blued 通過提取更多特徵,嘗試各種聚類和分類演算法,特別是對資料缺失不敏感的模型,以及不依賴使用者反饋行為的模型等來解決。在算力問題上,則把計算壓力分配在離線計算、近線計算和線上計算上,根據資料隨時調整各個部分的計算頻次和計算量。
另外,社交網站往往是色情資訊的“重災區”,作為主要為 LGBT 人群提供服務的應用,Blued 還承擔著向使用者科普、宣傳愛滋病等疾病防治方面的任務。Blued 同樣在面臨著這樣的挑戰,具體體現在色情影像、文字、低俗內容識別等任務上。
對此,Blued 在社群管理中通過人工稽核團隊制定嚴格規範的識別標準,在模型的訓練和推理過程中考慮到不同分類檢測類別在準確率和召回率上的不同要求,比如色情內容的檢測需要更高的準確率,性感內容的檢測需要更高的召回率,這反過來提高了人工稽核團隊的複審效率。Blued 告訴 AI 前線,他們在低俗內容的識別上面臨的挑戰更大一些,具體體現在 1. 判斷標準隨時間會發生較大的變化,而且變化較快,需要不斷增減需要檢測的類別;2. 樣本準確標記難度大,模型的準確率和召回率也都比較難保證。目前,Blued 還在採取諸如嘗試不斷完善這個模型動態更新的流程,加大人工稽核的力度,增加使用者舉報反饋的入口等措施來解決這個問題。
利用 AI 技術在產品和服務中的佈局已經鋪展開來,未來在技術上還會進行更多的探索。
Blued 的技術規劃是 AI 優先,強調對於細分人群的個性化運營,把興趣社交知識資料化、模型化。基於不同型別細分人群的社交需求,設計合理的產品場景,找到合適的特徵,選擇匹配的模型,設計如何選取正負樣本和細化的優化目標函式。在這個過程中,新的產品想法成為可能,產品和運營的經驗知識也在模型的訓練過程中被資料化。
未來 AI 技術一定會在 Blued 產品上越來越多的體現出來,不只是興趣社交領域,Blued 還表示將探索新的商業化機會,比如新社交和新電商的結合等。
王英傑,Blued 資料科學家,目前在 Blued(北京藍城兄弟資訊科技有限公司)AI 演算法部,負責影像和推薦相關工作,包括社交、內容、直播、風控等的 AI 技術方案和實施。2007 年博士畢業於北京郵電大學,擁有多項國內和國外專利,有豐富的影像深度學習和影像處理技術經驗。