音視訊技術開發週刊67期

LiveVideoStack發表於2018-09-20

640?wx_fmt=jpeg

音視訊技術開發週刊』由LiveVideoStack團隊出品,專注在音視訊技術領域,縱覽相關技術領域的乾貨和新聞投稿,每週一期。點選『閱讀原文』,瀏覽第67期內容,祝您閱讀愉快。


架構


展曉凱:短視訊APP架構設計與實現

本文來自全民快樂研發高階總監展曉凱在LiveVideoStackCon 2018講師熱身分享,並由LiveVideoStack整理而成。分享中展曉凱詳細介紹了短視訊APP場景中視訊錄製、編輯、儲存模組的相關技術,以及變速不變調演算法W-SOLA的實現。


相機+鐳射雷達重繪3D場景

將鐳射雷達與相機結合,再通過深度學習的方式獲得場景的3D模型——Ouster執行長在部落格中介紹了相機OS-1,並裝有鐳射雷達。LiveVideoStack對原文進行了摘譯。


馮迅:YY多媒體實時傳輸系統演進

本文來自YY基礎架構部負責人馮迅在LiveVideoStackCon 2017上的分享,並由LiveVideoStack社群整理而成。馮迅重點介紹了,YY直播平臺的架構演進,包括技術棧選擇權衡,自建網路與採購CDN協作等。


常青:小程視訊能力再升級序音

LiveVideoStack採訪了騰訊雲音視訊業務終端研發團隊負責人常青,針對小程式音視訊能力技術升級、場景支援、政策稽核以及未來演進趨勢進行了詳細的探討。


即構科技金健忠:回顧20年音視訊技術演進

多媒體技術是一個傳統行業,從模擬到數字,VCD到藍光,從窄帶到寬頻,標清到高清,技術演進讓人的視聽體驗發生了顛覆式的改變。LiveVideoStack採訪了即構科技CTO金健忠,他回顧了過去20年多媒體技術的發展,並展望了未來的技術趨勢。


音視訊–SDP協議

SDP:會話描述協議,是一種會話描述格式,為描述多媒體資料而設計。 SDP協議介紹 SDP 完全是一種會話描述格式(對應的RFC2327 , RFC4566) 它不屬於傳輸協議 ,它只使用不同的適當的傳輸協議,包括會話通知協議(SAP)、會話初始協議(SIP)、實時流協議(RTSP)、MIME 擴充套件協議的電子郵件以及超文字傳輸協議(HTTP)。


WebRTC降低直播延遲——Limelight方案

曾經點播在視訊傳輸中佔據很大的比例,但如今越來越多的平臺希望能夠通過直播的方式增加觀眾的興奮程度和參與度,同時直播時的延遲成為了一個關鍵的挑戰。在音視訊傳輸的過程中,在不同階段都會產生延時,有裝置端上的延時,裝置端與伺服器之間的延時,伺服器之間的延時,但是,不同的行業對於實時音視訊的延遲也有不同的要求,需要找到畫質、音質、延時和功耗等方面的平衡點。


5G接入網的架構

本文首先結合5G願景與需求,闡明瞭5G接入網路架構的特點和重要性;然後從學術界和產業界兩個角度詳細介紹了5G接入網路架構的設計原理和具體組成,分析了優點和不足;最後,探討了接入網路架構的挑戰和未來的可能發展方向。


音訊/視訊技術


Android下AudioRecord採集音訊寫入PCM和WAV檔案中

本文主要介紹如何將採集到的音訊資料儲存到PCM和WAV檔案中。其實儲存PCM資料不難,只要直接寫入檔案即可,而儲存資料至WAV檔案只需要將WAV檔案格式頭補上即可。


基於Qt、FFmpeg的音視訊播放器設計

本篇文章主要介紹視訊處理的原理以及實現。對於視訊的處理我們這裡對它分開總結,不然看起來會顯得很冗餘複雜,不易理解,主要分為以下幾方面。1、開啟視訊獲取視訊資訊;2、讀取視訊分析視訊包;3、開啟視訊解碼器;4、視訊解碼並分析H264解碼;5、開啟格式轉換和縮放;6、視訊轉RGB並縮放。


快速搭建自己的直播伺服器,完成屬於你的直播服務

通過本文您能學到以下內容: 1、動手搭建直播伺服器,完成一次對移動端支援的直播。2、使用OBS推流。3、使用HTML5網頁播放M3U8流媒體檔案。


音視訊通話:小議音訊處理技術與壓縮

在視訊或者音訊通話過程中,一方面為了減小原始聲音資料的傳輸位元速率,需要進行音訊壓縮,另一方面為了得到更高質量的音質,需要進行音訊處理。那麼,如何處理好這兩方面,保證聲音傳播的高真性?本篇文章將會結合網易雲信在音視訊技術方面的實戰和經驗,小議音訊處理與壓縮技術。


編解碼


FFmpeg 中AVPacket的使用

AVPacket儲存的是解碼前的資料,也就是壓縮後的資料。該結構本身不直接包含資料,其有一個指向資料域的指標,FFmpeg中很多的資料結構都使用這種方法來管理資料。


X264實現H264編碼以及MediaMuxer的另類用法

本系列文章涉及的專案HardwareVideoCodec已經開源到Github,支援軟編和硬編。使用它你可以很容易的實現任何解析度的視訊編碼,無需關心攝像頭預覽大小。


FFmpeg解碼視訊檔案並播放

最近學習了一下如何使用FFmpeg解碼音視訊,網上的教程挺多但是也挺雜的,搞了好幾天,明白了FFmpeg解碼音視訊的大體流程,這裡記錄一下FFmpeg解碼視訊並播放音視訊的例子,但並沒有做音訊、視訊播放 的同步處理。


Netty編解碼框架

Netty提供了一套完善的編解碼框架,不論是公有協議/私有協議,我們都可以在這個框架的基礎上,非常容易的實現相應的編碼/解碼器。輸入的資料是在ChannelInboundHandler中處理的,資料輸出是在ChannelOutboundHandler中處理的。因此編碼器/解碼器實際上是這兩個介面的特殊實現類,不過它們的作用僅僅是編碼/解碼。


AI智慧


人臉檢測演算法綜述

人臉檢測是目前所有目標檢測子方向中被研究的最充分的問題之一,它在安防監控,人證比對,人機互動,社交和娛樂等方面有很強的應用價值,也是整個人臉識別演算法的第一步。本文將和大家一起回顧人臉檢測演算法的整個發展歷史。


卷積神經網路的壓縮和加速

針對卷積神經網路模型的壓縮,最早提出的方法應該是網路裁枝,LeCun在1989年就提出根據損失函式對各個引數的二階導,來估計各個引數的重要性,再刪去不重要的引數。後來又是到2012年之後,壓縮方法更加多樣,總體大約分為4種:網路裁枝、模型量化、低秩估計、模型蒸餾。下面SIGAI將對4種方法進行逐一介紹。


如何優雅地從四個方面加深對深度學習的理解

在今年的 ICML 上,深度學習理論成為最大的主題之一。會議第一天,Sanjeev Arora 就展開了關於深度學習理論理解的教程,並從四個方面分析了關於該領域的研究:非凸優化、超引數和泛化、深度的意義以及生成模型。


短視訊如何做到千人千面?FM+GBM排序模型深度解析

資訊流短視訊能夠滿足使用者的碎片化閱讀需求,目前已是移動網際網路流量風暴的中心。各網際網路大廠紛紛涉足此領域,推出自己的短視訊產品,群雄爭霸,逐鹿短視訊市場。今天,UC事業部國際研發團隊,將為大家介紹排序層的模型演進過程,帶你深入瞭解模型創新部分。


【ECCV 2018】Facebook開發姿態轉換模型,只需一張照片就能讓它跳舞(視訊)

DensePose 是 Facebook 研究員 Natalia Neverova、Iasonas Kokkinos 和法國 INRIA 的 Rıza Alp Guler 開發的一個令人驚歎的人體實時姿勢識別系統,它在 2D 影像和人體3D 模型之間建立對映,最終實現密集人群的實時姿態識別。


影像


深度學習AI美顏系列—-AI人臉自動美型演算法

人臉智慧美型技術主要用於智慧美顏,對使用者的照片進行自動智慧調整,而不需要使用者手工調整,該技術在美顏相機、天天P圖等app中都已應用。本文在這裡對人臉智慧美型進行詳解。


相關文章