18個實時音視訊開發中會用到開源專案

聲網Agora發表於2018-05-16

實時音視訊的開發學習有很多可以參考的開源專案。一個實時音視訊應用共包括幾個環節:採集、編碼、前後處理、傳輸、解碼、緩衝、渲染等很多環節。每一個細分環節,還有更細分的技術模組。比如,前後處理環節有美顏、濾鏡、回聲消除、噪聲抑制等,採集有麥克風陣列等,編解碼有VP8、VP9、H.264、H.265等。

18個實時音視訊開發中會用到開源專案

我們今天彙總了一些能幫助到正在學習或進行音視訊開發的實時音視訊開發者們的開源專案與幾個也在為開源社群貢獻力量的商業服務。這些專案分為幾類:音視訊編解碼類、視訊前後處理、服務端類等。

音視訊編解碼類開源專案

視訊編解碼的作用,就是在裝置的攝像頭採集畫面和前處理後,將影象進行壓縮,進行數字編碼,用於傳輸。編解碼器的優劣基本在於:壓縮效率的高低,速度和功耗。

目前,主流的視訊編碼器分為3個系列:VPx(VP8,VP9),H.26x(H.264,H.265),AVS(AVS1.0,AVS2.0)。VPx系列是由Google開源的視訊編解碼標準。在保證相同質量情況下,VP9相比VP8位元速率減少約50%。H.26x系列在硬體支援上比較廣泛,H.265的編碼效率能比上一代提高了30-50%,但是複雜度和功耗會比上一代大很多,所以純軟體編碼實現的話有一定瓶頸,現有的技術下,還是需要依靠硬體編解碼為主。AVS是我國具備自主智慧財產權的第二代信源編碼標準,目前已經發展到第二代。

WebRTC

首先會用到的肯定是WebRTC,是一個支援網頁瀏覽器進行實時語音對話或視訊對話的開源專案。它提供了包括音視訊的採集、編解碼、網路傳輸、顯示等功能。如果你想基於WebRTC開發實時音視訊應用,需要注意,由於WebRTC缺少服務端設計和部署方案,你還需要將WebRTC與Janus等服務端類開源專案結合即可。

官網地址:webrtc.org/

x264

H.264是目前應用最廣的碼流標準。x264則是能夠產生符合H.264標準的碼流的編碼器,它可以將視訊流編碼為H.264、MPEG-4 AVC格式。它提供了命令列介面與API,前者被用於一些圖形使用者介面例如Straxrip、MeGUI,後者則被FFmpeg、Handbrake等呼叫。當然,既然有x264,就有對應HEVC/H.265的x265。

官網地址:www.videolan.org/developers/…

FFmpeg

FFmpeg大家應該不陌生,提供了編碼、解碼、轉換、封裝等功能,以及剪裁、縮放、色域等後期處理,支援幾乎目前所有音視訊編碼標準(由於格式眾多,我們就不一一列列舉了,可以在Wikipedia中找到)。

同時,FFmpeg還衍生出了libav專案,從中誕生了視訊解碼器LAV,許多播放軟體都可呼叫LAV進行解碼,並且LAV本身也支援利用顯示卡進行視訊硬解。很多主流視訊播放器中都以FFmpeg作為核心播放器。不僅僅是視訊播放器,就連Chrome這類可以播放網頁視訊的瀏覽器也受益於FFmpeg。很多開發者也基於FFmpeg做過很多開發並開源出來,比如大神雷霄驊(程式碼可見他的sourceforge)。

官網地址:ffmpeg.org/

ijkplayer

在介紹ijkplayer之前,要先提到ffplay。ffplay是一個使用了FFmpeg和sdl庫的可移植的媒體播放器。ijkplay是Bilibili開源的基於ffplay.c實現的輕量級iOS/Android視訊播放器,API易於整合,且編譯配置可裁剪,利於控制安裝包大小。

在編解碼方面,ijkplayer支援視訊軟解和硬解,可以在播放前配置,但在播放過程中則不能切換。iOS和Android上視訊硬解可分別使用大家熟悉的VideoToolbox和MediaCodec。但ijkplayer對音訊僅支援軟解。

Github地址:github.com/Bilibili/ij…

JSMpeg

JSMpeg是一個基於JavaScript的MPEG1視訊的解碼器。如果要做H5端的視訊直播,可以考慮使用JSMpeg在移動端進行解碼。在H5端做音視訊直播,可以使用JSMpeg進行視訊解碼,這也是最近比較火的H5抓娃娃的主流策略。

Github地址:github.com/phoboslab/j…

Opus

Opus是用C語言開發的一個高靈活度的音訊編碼器,針對ARM、x86有特殊優化,fix-point實現。Opus在各方面都有著明顯優勢。它同時支援語音與音樂的編碼,位元率為6k-510k。它融合了SILK編碼方法和CELT編碼方法。SILK原本被用於Skype中,基於語音訊號的線性預測分析(LPC),對音樂支援並不好。而CELT儘管適用於全頻寬音訊,但對低位元率語音的編碼效率不高,所以兩者在Opus中形成了互補。

18個實時音視訊開發中會用到開源專案

Opus是“取代”了Speex。但是Speex中有的功能,Opus卻沒有,比如回聲消除。這個功能已經從編碼器中獨立出來。所以如果想實現好的回聲消除,可以配合WebRTC的AEC和AECM模組做二次開發。

官網地址:opus-codec.org/

live555

live555是一個C++流媒體開源專案,其中不僅包括了傳輸協議(SIP、RTP)、音視訊編碼器(H.264、MPEG4)等,還包括流媒體伺服器的例子,是流媒體專案的首選,裡面的傳輸模組是非常值得視訊會議開發作為參考的。

官網地址:www.live555.com/

音視訊前後處理開源專案

前後處理包含很多細分技術,應用正確的話,對視訊質量或多或少都有提升。不過每增加一個處理環節,必然會增加運算量與延時,所以如何取捨,還要大家各自斟酌。 Seetaface

Seetaface是由中科院山世光老師開源的一套完整的人臉檢測,人臉對齊和人臉驗證方案。程式碼基於C++實現,開源協議為BSD-2,可供學術界和工業界免費使用。且不依賴於任何第三方的庫函式,在使用對齊好的LFW圖片上,檢測對齊全部使用該開源軟體的情況下可達到97.1%。

Github地址:github.com/seetaface/S…

GPUImage

現在在iOS端做美顏效果、加水印,基本都會採用GPUImage,它內建了125種渲染效果, 還支援指令碼自定義。該專案實現了圖片濾鏡、攝像頭實時濾鏡。它優勢在於處理效果是基於GPU實現,相對於CPU處理效能更高。

Github地址:github.com/BradLarson/…

Open nsfw model

Open nsfw model是雅虎開源專案,全名是Open Not suitable for work model,專門鑑別不適合工作時間瀏覽的圖片(言而言之就是小黃圖)。它是基於Caffe框架訓練的模型,用於音視訊後處理。不過,它還不能鑑別恐怖、血腥圖片。

Github地址:github.com/yahoo/open_…

Soundtouch

Soundtouch是一個開源的音訊處理框架,主要功能對音訊變速、變調,實現變聲的效果。同時,它也能對媒體流實時處理。採用32位浮點或者16位定點,支援單聲道或者雙聲道,取樣率範圍為8k - 48k。

官網地址:www.surina.net/soundtouch/

服務端類開源專案

正如開始時我們所說,WebRTC缺少服務端的設計與部署,利用MCU、SFU實現多人聊天,提高傳輸質量,都需要開發者自己動手。而下面這些開源專案能夠幫到你。

Jitsi

Jitsi是開源的視訊會議系統,可以實現線上視訊會議,文件共享和即時訊息的分享。它支援網路視訊會議,使用SFU模式實現視訊路由器功能。開發語言是Java。它支援SIP帳號註冊電話呼叫。不僅支援單機本地安裝方式,還支援雲平臺安裝。

官網地址:jitsi.org/

JsSIP

JsSIP是基於WebRTC的JavaScript SIP協議實現的庫,可以在瀏覽器和Node.js中執行。它可以與 OverSIP、Kamailio、Asterisk、OfficeSIP等SIP Server一起執行。

Github地址:github.com/versatica/J…

SRS

SRS是一個採用MIT協議授權的國產的簡單的RTMP/HLS 直播伺服器。最新版還支援FLV模式,同時具備了RTMP的實時性,以及HLS中屬於HTTP協議對各種網路環境高度適應性,並且支援更多播放器。它的功能與nginx-rtmp-module類似, 可以實現RTMP/HLS的分發。

Github地址:github.com/ossrs/srs

JRTPLIB

JRTPLIB 是一個開源的 RTP協議實現庫,支援Windows和unix平臺。它支援多執行緒,處理效能較好。它還支援RFC3550、UDP IPV6,支援自定義擴充套件傳輸協議。但它不支援TCP傳輸,這需要開發者自己來實現。同時,它也不支援音視訊的分包,程式碼要你自己來實現。

Github地址:github.com/j0r1/JRTPLI…

OPAL

OPAL是OpenH323的下一個版本,繼承了Openh323協議,其新包含了SIP協議棧,是實現SIP協議的首選,缺點是參考例子較少。

程式碼地址:sourceforge.net/projects/op…

Kurento

Kurento是一個基於WebRTC的媒體服務端,幷包含了一系列API,可以簡化web與移動端實時視訊應用的開發。

Github地址:github.com/Kurento

Janus

Janus是一個WebRTC媒體閘道器。不論是做流媒體、視訊會議、錄製、閘道器,都可以基於Janus來實現。

Github地址:github.com/Kurento

其它商業服務

Callstats.io

實時通訊過程中的,延時、丟包、接通率、掉線率等質量問題,都影響使用者體驗。商用專案尤其需要關注。Callstats是一家通過對WebRTC呼叫進行專業監測,來幫助使用者蒐集通訊資料,提升通話質量的服務商。

Callstats也通過Github開放很多案例,可供使用Jitsi-videobridge,、turn-server、JsSIP的開發者參考。

Github地址:github.com/callstats-i…

Meetecho

Meetecho是著名的開源WebRTC閘道器專案Janus的開發者。他們還提供基於Janus開發的技術諮詢與部署服務、建立視訊會議直播與錄製服務等。

Github地址:github.com/carlhuda/ja…

聲網Agora

聲網提供了從編解碼到端到端傳輸的全套服務,開發者可以接入上文所述的音視訊前後處理的開源專案,配合使用聲網SDK可以建立高質量的實時音視訊應用。在Web端,Agora Web SDK可以幫助WebRTC開發者解決服務端傳輸中會遇到的卡頓、延時、回聲、多人視訊不穩定等問題。同時,聲網SDK還對多個系統平臺的應用提供實時音視訊通訊服務。

聲網在Github上有許多可供開發者參考、實踐的demo原始碼,覆蓋了從網頁端、iOS到Android平臺,以及音視訊直播、遊戲連麥、企業會議、AR、直播答題、小程式等多種實時互動應用場景。

Github地址:github.com/AgoraIO-Com…

18個實時音視訊開發中會用到開源專案

我們在這裡列出了18個開源專案,以及3個能有效保證實時音視訊傳輸質量的服務。不過篇幅有限,還有很多開源專案我們沒有詳細列出,比如在音視訊方面,Xiph.org的Speex、FLAC,還有Xvid、libvpx、Lagarith、Daala、Thor等。歡迎大家繼續補充。

最後給希望開發實時音視訊App,或希望學習 WebRTC 的開發者推薦一些博文與資料:rtcdeveloper.com/t/topic/435

相關文章