音視訊技術開發週刊56期

LiveVideoStack發表於2018-07-05

640?wx_fmt=jpeg

音視訊技術開發週刊』由LiveVideoStack團隊出品,專注在音視訊技術領域,縱覽相關技術領域的乾貨和新聞投稿,每週一期。點選『閱讀原文』,瀏覽第56期內容,祝您閱讀愉快。


策劃 / LiveVideoStack


架構


Hulu 視訊QoS優化策略

QoS直接關係到使用者體驗,如何提升QoS就成為視訊平臺技術實力的體現。本文來自Hulu全球高階研發經理、視訊編解碼與傳輸領域資深專家傅徳良在LiveVideoStackCon 2017上的分享。儘管Hulu提供服務的網路環境與國內大相徑庭,但其相關QoS保障策略依然值得借鑑。


微博短視訊服務優化實踐

本文來自新浪微博視訊轉碼平臺技術負責人李成亞在LiveVideoStackCon 2017上的分享,由LiveVideoStack整理成文。李成亞分享了微博短視訊如何提升使用者體驗、降低成本的思路與實踐,包括提升短視訊釋出速度,降低長視訊轉碼時間,通過新的Codec減少頻寬成本等。


熊貓TV直播H5播放器架構探索

本文來自熊貓TV音視訊技術專家姜雨晴在LiveVideoStackCon 2017上的分享,並有LiveVideoStack整理成文。當下,打造一款播放器已經有比較好的開源實現,但熊貓TV為什麼還要自研一款H5播放器呢?為了保證業務持續擴充套件能力,需要對播放器做解耦。同時,在播放器上線初期還遇到了音畫不同步、故障定位、客戶端效能不足等問題。


Dubbo原始碼分析 — 遠端通訊 Netty

Dubbo 做為 RPC 框架,需要進行跨 JVM 通訊,要保證高性、穩定的進行遠端通訊。Dubbo 底層通訊選擇了 Netty 這個 NIO 框架做為預設的網路通訊框架並且通過自定義協議進行通訊。


中國電信釋出全球首份5G技術白皮書

2018年6月26日,中國電信在2018上海世界移動大會(MWCS)上釋出了《中國電信5G技術白皮書》,這也是全球MNO運營商首次釋出全面闡述5G技術觀點和總體策略的白皮書。


音訊開原始碼中重取樣演算法的評估與選擇

在音訊軟體實現中經常會遇到兩個模組取樣率不一致的情況,比如語音通話時採集到的PCM訊號是16k Hz的,但編碼時codec是AMR-NB(AMR-NB是8k Hz取樣),這時就需要把16k Hz取樣的PCM值轉換成8k Hz取樣的PCM值(這叫降取樣或者下采樣),然後再去做AMR-NB編碼。本文介紹如何評估開原始碼裡的重取樣實現以及選擇最適合的實現。


音訊/視訊技術


Google 實時流擁塞控制演算法GCC x1wan

GCC是google實時流擁塞控制演算法的簡稱,已經在WebRTC中實現,應用於Chrome,後面將應用到Hangouts(視訊聊天產品)中,主要用於視訊流的擁塞控制。


FFmpeg中的scale和crop引數 FlyingPenguin

FFmpeg中的libavfilter提供了一整套的基於filter的機制。filter本身是一個外掛的形式,可以快速的組裝需要的效果。本文簡單介紹了通過filter實現視訊的水平映象效果。


iOS中獲取音訊流並提取pcm CNon

本文簡要介紹了兩種不同的原始音訊流獲取方式 AVCaptureSession、AudioUnit,以及如何從AudioUnit獲取的原始資料中提取pcm。


用getDisplayMedia實現在Chrome中共享螢幕

Chrome網上商店已決定停止允許Chrome擴充套件程式的內聯安裝。這對WebRTC應用程式有相當大的影響,因為Chrome中的螢幕共享目前還需要擴充套件程式。getDisplayMedia能來解決這個問題嗎?本文來自appear.in的WebRTC工程師Philipp Hancke,LiveVideoStack對文章進行了摘譯。


編解碼


基於鏡頭的編碼

基於鏡頭的編碼比基於主題的編碼帶來更高的編碼效率,由於對內容感知的粒度更加細,這種改變的結果顯而易見。然而,更細粒度的編碼也會帶來更高的負責度,比如在AWS環境中,在基礎設施服務失效的情況下,如何最大限度的保留已編碼的成果,從而減少重複編碼工作。本文來自Netflix的科技部落格,LiveVideoStack對原文進行了摘譯。


視訊編碼步入更壓縮高效能時代

目前,針對海量多媒體資料的壓縮和處理,特別是VR和HDR視訊資料,開發並提出新的高效能codec及處理方案是多媒體通訊應用行業共同面臨的難題。MPEG已經開始著手更新一代視訊編解碼標準VVC的制定,視訊壓縮效能有望進一步大幅提高。在此背景下,本文簡要梳理一下當前針對大規模多媒體資料的高效壓縮技術。


用 JavaScript 編寫 MPEG1 解碼器 柒緣生活吧

本文主要介紹了用JavaScript編寫MPEG1解碼器的開發過程中的一系列問題:JSMpeg中實現音訊流傳輸的邏輯元件構成及流程,MPEG內部的YUV格式轉換等。


UIImage圖片解碼的效能優化 吳家十三少

用 UIImage 或 CGImageSource 的那幾個方法建立圖片時,圖片資料並不會立刻解碼。圖片設定到 UIImageView 或者 CALayer.contents 中去,並且 CALayer 被提交到 GPU 前,CGImage 中的資料才會得到解碼。本文主要介紹了圖片解碼時產生的效能問題及優化。


Android音視訊系列:H264視訊編碼介紹

本文從配置編碼引數、輸入要編碼的影像幀、編碼資料生成等方面介紹了使用X264開源庫編碼的H264視訊編碼技術。


AI智慧


簡單初始化,訓練10000層CNN

如何快速簡單地訓練神經網路?谷歌大腦研究人員研究了CNN的可訓練性,提出了一種簡單的初始化策略,不需要使用殘差連線或批標準化,就能訓練10000層的原始CNN。作者表示,他們的這項工作清除了在訓練任意深度的原始卷積網路時存在的所有主要的障礙。


步態識別的深度學習:綜述

步態是人在行走過程中姿態的變化.不同於人臉、指紋、虹膜等, 步態是唯一可在遠距離非受控狀態下獲得的生物特徵.步態識別指利用步態資訊對人的身份進行識別的技術,當前關於步態識別方面的研究綜述主要圍繞在相關手工特徵建模和傳統機器學習(非深度學習)的識別演算法上.


卷積神經網路的壓縮和加速

本文介紹了比較常見的4種卷積神經網路壓縮和加速方法,其中網路裁枝與低秩估計的方法從矩陣乘法角度,著眼於減少標量乘法和加法個數來實現模型壓縮和加速的;而模型量化則是著眼於引數本身,直接減少每個引數的儲存空間,提升每次標量乘法和加法的速度,從而實現模型的壓縮和加速;模型蒸餾方法卻是從巨集觀結構入手,直接構造了結構簡單,引數少的小網路,將難點轉移成對小網路的訓練上。


場景文字檢測—CTPN演算法介紹

對於複雜環境中的字元的識別,主要包括文字檢測和文字識別兩個步驟,這裡介紹的CTPN(Detecting Text in Natural Image with Connectionist Text Proposal Network)方法就是在場景中提取文字的一個效果較好的演算法,能將自然環境中的文字資訊位置加以檢測。


影像


騰訊優圖CVPR 2018論文:圖片去模糊及快速肖像處理等多項技術解讀

在慢速曝光或快速運動拍攝照片時,影像模糊常常困擾著照片拍攝者。騰訊優圖實驗室的新演算法,可以處理非特定場景中的圖片模糊。演算法基於一種被稱為「動態模糊」的模糊模型假設。


使用 MATLAB 影像處理演算法,視訊實時加持藍天背景

本文將以色度鍵控效果為例,介紹在嵌入式硬體上部署 MATLAB 影像處理演算法的簡單工作流。我們將使用 MATLAB Coder™ 通過演算法生成C程式碼,然後使用在硬體上執行的實用程式在 Raspberry Pi 板卡上進行演算法原型驗證。最後,我們將演算法移植至 NVIDIA Jetson Tx1 平臺以保證實時效能。


相關文章