YouTube玩轉的自動字幕,為什麼被國內視訊網站“主動錯過”?
成為中國YouTube,這估計是每一家國內視訊網站都曾經設想過的目標。
現在,無論是從全球市場規模、還是從營收規模上來說,YouTube都已經是一個龐然大物。而在國內,至今已難以找到一家能夠與YouTube實力相當,甚至說模式相似的視訊網站了。
差異是如何產生的,已經成為一個可以寫成商業專著的選題了。而這一次我們則關心一個更為細節的產品技術問題,那就是在YouTube上早已實現的自動字幕功能,為何沒有在國內的主流的視訊網站上出現?
據報導,在2017年初,以UGC起家的YouTube已經為10億條視訊提供了自動新增字幕的服務,使用者每天的播放次數超過 1500 萬次,而且目前已支援全球10種語言的自動字幕載入,以及支援包括簡體中文在內的上百種語言的機器翻譯。
那麼這一自動字幕的功能為何沒有被我們國內的視訊網站“Copy”?
也許你第一反應會想到技術原因。也是也不全是。畢竟近幾年,我國在自動語言識別上面的技術早已成熟,在視訊網站上應用也許早已不成問題。
“是不為也,非不能也。”如果孟老夫子在世,可能還會說出這句話來。但原因究竟是啥,恐怕還是要繼續追問下去,而最終我們其實還是想對這些國內視訊網站的新老玩家們提問下:
這麼“香”的技術,到底要不要學習一下呢?
自動字幕:從Goodness到Business
YouTube的自動字幕功能是在2009年由谷歌的工程師們開發的,那時離谷歌收購YouTube已經過去三年了。
這一功能的初衷是,通過將視訊聲音轉化成文字字幕,為全世界有聽力障礙的使用者提供便利。而開發這一功能的軟體工程師肯·海倫斯坦也正是一位聾啞人士。
眾所周知,YouTube是從使用者UGC視訊內容起家的,目前仍然是全球最大的UGC視訊網站。當前月使用者訪問數可以達到18億,使用者每分鐘上傳視訊時長達到400小時,並且時長還在增長。
這同時意味著,有大量上傳的UGC視訊中是沒有主動新增字幕的。這對於正常聽力的使用者來說,並沒有什麼影響,而對於有聽力障礙的人來說,則相當於缺少了極其重要的音訊資訊。
而自動字幕的加入,則在一定程度上幫助了聽障使用者獲取更多的資訊渠道。
目前,谷歌和YouTube團隊正在利用機器學習為自動字幕增加音效資訊,從而更大程度地豐富音訊內容的表達。通過新增如鈴聲、狗叫聲、敲門聲等音效字幕,也正是出於改善聾啞或聽障人士的觀看體驗而進行的技術改進。
這樣一項出於社會責任感和使用者公平體驗的技術,也帶來了額外的市場推廣價值。
隨著自動字幕可以識別的語種的增加,以及自動翻譯功能的加入,這一項技術成為一項全球使用者都可以受益的功能。比如,大量優質的英語原聲知識分享視訊可以通過自動新增英語字幕,再轉為其他語種,供非英語區的使用者觀看學習。這顯然對YouTube的全球化推廣產生了積極的推動作用。
在每天上千萬次的自動字幕的使用中,語音識別難免會出現一定錯誤,但隨著YouTube社群使用者對這些自動字幕資訊進行評論和編輯後,這些資訊又會再進入機器學習的流程,從而幫助自動字幕系統更好地提高準確率。同時,自動字幕及機器翻譯準確度的提升,又推動內容推薦的精準度的提升,進一步增加使用者粘性和使用時長。
一項幫助提升使用者體驗的AI技術,又在使用者的海量資料的幫助下變得更加強大,很好地印證了“科技向善”可以帶來更多意想不到的好處。
當然,這裡有一點比較遺憾的地方是,如果你有機會使用YouTube的中文簡體的自動翻譯功能的時候,你可能並不好理解翻譯出來的中文到底在表達什麼意思?
一來,可能視訊中中文口語化的音訊內容確實不好翻譯;二來,由於你懂得的原因,這個自動翻譯的資料模型並沒有得到有效的訓練。
那麼,自動字幕如此得天獨厚的市場空白、如此巨大的應用規模,以及如此現成的技術條件,為什麼沒有國內的視訊網站主動去使用呢?
為什麼國內視訊網站們“主動”錯過這一技術?
想要回答幾大國內視訊網站“為啥沒有采用自動字幕”這一小問題前,需要先回答“他們為啥沒有繼續發展UGC的內容模式,而是轉向了影視劇版權購買的模式”?
十年多前的中國還不是一塊UGC的沃土,相比較於美國家庭掀起的家庭錄影及生活視訊的製作消費的浪潮,當時的國人對於優秀影視作品的需求更為強烈。UGC內容並沒有實現更好的商業變現方式,堅持以UGC為定位“土豆網”成了早早出局的元老級玩家。
而影視劇作品是不缺少優質的人工字幕翻譯的。在國家嚴格把控版權問題之前,在這些視訊網站上,大量的海外電視劇電影被以“使用者上傳”的名義免費播放。同時,提供國外影視劇翻譯的字幕組的出現,也讓視訊網站們可以以極低的成本獲得優質、準確的字幕。
2010年之後,隨著愛奇藝、騰訊視訊的出現,優酷土豆合併後又被阿里收購為標誌的BAT巨頭入場,視訊網站們徹底進入了以PGC影視劇內容生態為主的“版權”燒錢爭奪戰。這時的巨頭們已經開始嚮往Netflix的自制會員付費模式了。
UGC內容當中的字幕新增問題,從商業價值上也就再也沒有進入這些網站的決策範圍了。
再者,中國自身市場的數億的使用者紅利,使得當時的視訊網站們在爭奪存量市場都有些自顧不暇,自然也沒有動過“出海”的念頭。沒有出海需求,也就沒有海外使用者。而統一的中文語言環境並不需要對中文音訊進行多語種的翻譯。即使隨著機器學習、自然語言處理技術的出現,也沒有視訊大廠們想要費力去應用。
對於長期處在燒錢虧損狀態的玩家們,照顧聽障者等弱勢人群的觀看體驗,看來也沒有進入到他們的產品目標當中。畢竟主流的影視劇視訊資源和PCG內容資源都已經使用了人工新增的字幕。邊緣化的UGC內容和特殊的少數使用者群,似乎並不需要投入過多精力。
從以上種種的原因看來,動力不足,正是這些視訊大廠們不願玩轉“自動字幕”的最好解釋。而無所作為並不代表他們未來也不需要這項技術。
在當前人口紅利消失、使用者增加趨緩的情況下,出海成為近兩年來幾大視訊網站玩家們的集體行動。除了將國內優秀的影視劇內容對外輸出外,吸引海外使用者製作分享大量的優質UGC內容,成為產品海外市場本地化發展的必由之路。
而從YouTube的啟示來看,增加這一自動字幕以及自動語言翻譯功能,將會對UGC內容生態帶來非常積極的正面作用。
十年來,狂飆突進中落下的功課,是不是該補一補了?
破解出海困境,自動字幕可助一臂之力
當前,以海外版抖音TikTok為代表的短視訊應用出海方興未艾,而國內以騰訊、愛奇藝為代表的長視訊網站巨頭也已經開啟出海模式。當前,主要扎堆進入東南亞市場。
TikTok這類更具興趣屬性和娛樂表演屬性的短視訊應用,沉浸式的演算法推薦也同樣在海外取得了極大的成功;帶版權的背景音樂、炸裂特效和簡單方便的字幕特效和傻瓜式的剪輯手法,使得海外年輕人們的接受和製作門檻更低。TikTok很快在日韓、美國以及東南亞等國家快速流行起來。
相比之下,依靠精品內容出海的視訊網站則顯得進展緩慢,需要步步為營,穩紮穩打。
我國視訊網站的出海時間不長,但已經經歷了三個階段。先是經歷了海外優質內容的引入;然後再複製這一模式加強自身版權內容的對外輸出。而在去年,則開始主導搭建海外的自有媒體平臺,並開始與海外各個國家的主流媒體、運營商等達成長期戰略合作。
華語內容的輸出成為本次出海的重點,但是想要在海外市場真正取得成功,那必然還是要吸引本地化的視訊內容。據調查,海外視訊使用者更會為帶有本地文化印記和本土語言的視訊內容進行付費。因此,鼓勵海外本地的UGC內容的製作和分享,培養和建成規模化和規範化的本地內容生態,才能最終留存住本地化使用者,形成長期使用習慣。
除了進行一定的原創內容補貼,或者參照YouTube的廣告分成模式外,降低UGC製作的使用門檻,提升海外使用者的觀影體驗,也是更為根本的解決方案。
這時候,基於語音識別和機器翻譯的能力,增加自動字幕以及自動翻譯的功能,可以更好地幫助製作者完成字幕的新增工作,同時幫助大量使用者快速翻譯其他國家的視訊內容。
一、通過加入對視訊內容的自動字幕的加入,可以吸引海外使用者更願意主動創作本土內容,增進海外使用者對本土內容的觀看和消費。
二、通過引入多語種之間的字幕翻譯,來提升和優化海外使用者的內容推薦體系,從而形成豐富的海外生態,從而提高視訊內容的國際化推廣的力度。
當然,自動字幕和自動翻譯功能的實現還受到語料資料的限制,國內的視訊網站們除了自身所熟悉的中文視訊外,還要對東南亞各國的音視訊的語音進行大量地採集和訓練。
出海難題無數條,起碼這一技術可以作為在出海中打拼的“騰愛們”必須要補上的一門基礎課,而視訊內容的本地化UGC可以成為下一輪出海重點發力的新嘗試。
欲戴王冠,必承其重。眾所周知,YouTube在全球獲得的巨大流量,來自於YouTube的強大的技術能力、廣告營銷體系以及谷歌的軟硬體支援……從今天YouTube的成功去倒推原因,我們會列出一串長長的清單。在這份清單的一行裡,我們注意到了出於社會責任而新增的一項小小的功能,而這一功能卻帶來每天上千萬人的使用。
對於國內的視訊網站來說,這確實是值得學習的一個經驗。即使一開始並沒有特別緊要的應用場景,也沒有明顯的商業利益,但是可以通過技術,特別是AI技術,來大規模地、以無限降低邊際成本的方式,來改善使用者體驗,那一定是值得去嘗試的。
而現在,國內視訊網站、短視訊已經處在揚帆出海的風口,語音識別以及機器翻譯的技術也現成可用,而全球文化多元化交流的需求也正在井噴。出海的這些玩家們想要抓住這場新的全球UGC內容爆發的紅利,自動字幕技術大有可為。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31561483/viewspace-2684682/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- b站 自動生成的字幕
- 推薦4個國外線上視訊下載網站,YouTube、vimeo、推特視訊網站!網站
- 有什麼方法可以自動合併視訊並替換音訊內容音訊
- 在國內最大二次元視訊網站裡玩“頁遊”二次元網站
- 為什麼國內網站訪問慢【香港伺服器】?內網網站伺服器
- 有什麼軟體可以批量採集阿里國際站的商品主圖視訊阿里
- 免費線上音訊轉字幕網站 All In One音訊網站
- 網路安全中主動攻擊、被動攻擊分別是什麼意思?
- 傳Google擬與韓國Daum網站共享YouTube內容Go網站
- YouTube:2011年網站視訊YouTube點選次數累積已超過1萬億網站
- 網路攻擊中主動攻擊和被動攻擊有什麼區別?
- 帝國CMS網站自動提取簡介時不想自動回車網站
- 歸納動作遊戲中的主動行為與被動行為遊戲
- 網站自動生成?網站
- 看片神器,將本地影片透過AI自動生成字幕及翻譯字幕AI
- 視訊怎麼使用外掛字幕
- 當視訊網站的“XX挑戰”成為過街老鼠網站
- zabbix-agent被動模式變為主動模式模式
- Erlang Socket訊息獲取模式主動 被動 混合模式
- 虛擬主機網站404報錯是什麼原因網站
- 國外視訊網站再記錄網站
- 什麼是內網穿透?為什麼使用內網穿透?內網穿透
- 為什麼運營商玩不轉物聯網?
- 《玩賺你的網站》即《玩轉你的網站》網站
- 什麼是自動化運維?為什麼選擇Python做自動化運維?運維Python
- 為什麼自動駕駛需要5G自動駕駛
- 海外主機是什麼意思?與國內主機有什麼區別?
- YouTube-dl 命令下載 YouTube 的視訊
- 網際網路電視牌照方是什麼?為什麼智慧電視內容全靠它
- 自動化測試落地為什麼那麼難
- 怎麼查網站是否被K過網站
- zabbix主動、被動檢測的詳細過程與區別
- RSA 創新沙盒盤點| Vulcan Cyber:化被動為主動的雲端漏洞響應自動化平臺
- HTTPS被廣泛應用於網站,網站為什麼需要SSL證書?HTTP網站
- zabbix的主動模式和被動模式模式
- 主動FTP與被動FTPFTP
- YouTube視訊推薦系統為什麼那麼強?看了這篇文章你就知道了
- Twitter的市值為什麼被微博超過了?