從開發小白到音視訊專家

weixin_34249678發表於2017-12-07

本文整理自盧俊的演講,目標讀者是對音視訊開發感興趣但是又不知道如何下手的初學者們,希望對大家有所幫助。

盧俊,七牛雲客戶端團隊技術負責人。擁有豐富的音視訊領域的開發和實戰經驗,先後開發過 Android 播放 SDK、Android 推流 SDK、短視訊 SDK,並主導了七牛連麥系統的設計和實現。服務過上百家直播客戶,包括熊貓、全民、龍珠、汽車之家、懂球帝等。

1. 成長的煩惱

經常收到一些網友的來信或者留言,反饋如下這樣的困惑:

“我是一名應屆畢業生,該如何快速地成長起來”

“我只懂 C/C++,是學 Android 開發有前途,還是 iOS 開發有前途?”

“我是一名 Android/iOS 開發,已經可以獨立完成一個完整的 App 開發上線,該如何繼續提升?”

“我想從事音視訊開發,該如何入門? 如何進階 ?”

很高興看到大家有這樣的問題,因為這也從側面反映了你是一個積極向上,想不斷努力來提升自己的人。

我就先從一個簡單的問題聊起,“到底 Android 開發有前途還是 iOS 開發有前途?”

其實這個問題跟 “PHP 是不是世界上最好的語言一樣”,只會引發爭論,卻沒有什麼實際價值,在我看來,無論是 Windows、Linux、Android 還是 iOS 開發,都沒有什麼優劣之分,它們其實都有著很多的共同點,那就是:

  1. 都是基於作業系統提供的 API 完成特定需求的實現

當然,也有些不同的地方,比如:

  1. 系統的 API 和特性不同

  2. 程式語言不同,Windows/Linux 以 C/C++ 為主,Android 以 Java 為主,iOS 以 Object C 為主等等

但無論什麼平臺,他們的學習曲線其實是類似的,都要經歷差不多如下的環節:

  1. 學習對應平臺的程式語言,如:C/C++,Java,Object C,Javascript 等

  2. 熟悉對應平臺提供的 API,如:UI 庫,網路,檔案,資料庫, 圖片處理,多媒體處理 等等

  3. 掌握平臺相關的特性、框架和原理,如:Windows 的 WINSOCK,ODBC,WPF 等,Unix 的設計哲學,Android 的四大元件,iOS 的 MVC 模式等等

  4. 通過具體的專案,熟悉和練手,達到可完成任意功能的開發

當你已經走到第 4 步了後,往往就會感覺遇到了瓶頸,產生如文章開頭的問題,下一步何去何從 ?

其實我一直有一個觀點,就是:

“基於平臺的 API 做應用開發,並不是一個可以走得多遠的方向,真正有價值的地方在於與具體的業務方向結合”,比如:

  • 網路安全
  • 音視訊
  • 智慧硬體
  • 深度學習
  • 大資料
  • 其他(比如:金融、通訊等)

在具體的業務領域,你可以慢慢沉澱下來,用自己的努力和時間換來對領域知識的深入理解和積累,逐漸從一個開發小白走向最懂這個行業的專家。

今天呢,我就主要跟大家分享下,如果你對音視訊這個領域感興趣,應該如何入門和提高 ?

2.音視訊開發包括哪些內容

雖然一篇文章無法把音視訊開發的知識點都介紹清楚,但是大概的學習路線還是可以梳理一下的,我們先看看下面這張圖:

其實說白了,音視訊開發,就是要掌握影象、音訊、視訊的基礎知識,並且學會如何對它們進行採集、渲染、處理、傳輸等一系列的開發和應用。

  • 採集:它解決的是,資料從哪裡來的問題
  • 渲染:它解決的是,資料怎麼展現的問題
  • 處理:它解決的是,資料怎麼加工的問題
  • 傳輸:它解決的是,資料怎麼共享的問題

每一個門類,都可以深挖,衍生出一個又一個充滿技術挑戰的話題,比如:如何更高效地渲染畫面、如何提高音視訊的壓縮比,如何優化弱網下的音視訊資料傳輸等等。

其實,音視訊開發的技術積累,也沒有那麼難,帶著問題去 Google,帶著任務去實踐,一切都不是問題,我們就從上面說的 4 個方向,逐個探索一下,有哪些知識點,是要我們去了解和掌握的。

2.1 採集

採集,它解決的是,資料從哪裡來的問題,那麼,資料究竟從哪裡來的呢 ?

其實無論在哪個平臺,影象、視訊最初都是來自攝像頭,而音訊最初都是來自麥克風,因此,做音視訊採集,就要掌握如下的技術知識:

  1. 系統的攝像頭採集介面是什麼,怎麼用 ?

比如:

Windows:DirectShow Linux:V4L2 Android:Camera iOS:AVCaptureSession

  1. 系統的攝像頭採集的引數怎麼配置,都是什麼含義 ?

比如:解析度、幀率、預覽方向、對焦、閃光燈 等

  1. 系統的攝像頭輸出的影象/視訊資料,是什麼格式,不同格式有什麼區別 ?

比如:圖片:JPEG,視訊資料:NV21,NV12,I420 等

  1. 系統的麥克風採集介面是什麼,怎麼用 ?

比如:

Windows:DirectShow Linux:ALSA & OSS Android:AudioRecord iOS:Audio Unit

  1. 系統的麥克風採集引數怎麼配置,都是什麼含義 ?

比如:取樣率,通道號,位寬 等

  1. 系統的麥克風輸出的音訊資料,是什麼格式?

比如:PCM

2.2 渲染

渲染,它解決的是,資料怎麼展現的問題,那麼,資料究竟怎麼展現呢 ?

其實無論在哪個平臺,影象、視訊最終都是要繪製到檢視上面,而音訊最終都是要輸出到揚聲器,因此,做音視訊渲染,就要掌握如下的技術知識:

  1. 系統提供了哪些 API 可以繪製一張圖片或者一幀 YUV 影象資料的 ?

比如:

Windows:DirectDraw, Direct3D, GDI,OpenGL 等 Linux: GDI, OpenGL 等 Android:ImageView,SurfaceView,TextureView,OpenGL 等 iOS: CoreGraphics,OpenGL 等

  1. 系統提供了哪些 API 可以播放一個 mp3 或者 pcm 資料 ?

比如:

Windows:DirectSound 等 Linux:ALSA & OSS 等 Android:AudioTrack 等 iOS: AudioQueue 等

2.3 處理

處理,它解決的是,資料怎麼加工的問題,那麼,資料究竟可以怎麼加工呢 ?

首先,我們看看影象/音視訊的資料可以做哪些加工 ?

其實無論在哪個平臺,影象和音視訊的加工,除了系統的 API,大多數都會依賴一些跨平臺的第三方庫的,通過掌握這些第三方庫的原理和使用方法,基本上就可以滿足日常音視訊處理工作了,這些庫包括但不限於:

  1. 影象處理:OpenGL,OpenCV,libyuv,ffmpeg 等

  2. 視訊編解碼:x264,OpenH264,ffmpeg 等

  3. 音訊處理:speexdsp,ffmpeg 等

4.音訊編解碼:libfaac,opus,speex,ffmpeg 等

因此,學習和掌握這些第三方庫的使用,非常有必要。

2.4 傳輸

傳輸,它解決的是,資料怎麼共享的問題,那麼,資料究竟怎麼共享呢 ?

共享,最重要的一點,就是協議。

我覺得網際網路之所以能夠如此蓬勃地發展,將整個世界都緊密聯絡在一起,其實是離不開 W3C 這個委員會的巨大貢獻的,因為無論什麼資料,要想在不同的國家、不同裝置之間互聯互通,離不開 “標準”,有了 “標準”,大家就能互相讀懂對方。

因此,研究音視訊傳輸,其實就是在研究協議,具體有哪些協議呢 ?

  1. 音視訊在傳輸前,怎麼打包的,如:FLV,ts,mpeg4 等

  2. 直播推流,有哪些常見的協議,如:RTMP,RSTP 等

  3. 直播拉流,有哪些常見的協議,如:RTMP,HLS,HDL,RTSP 等

  4. 基於 UDP 的協議有哪些?如:RTP/RTCP,QUIC 等

網際網路環境下的音視訊的傳輸,是一個非常有挑戰和價值的方向,為了解決弱網下的傳輸延時、卡頓,提高使用者體驗,整個業界都在不斷地進行著深入的探索和優化。

3.小結

限於篇幅原因,經驗分享就到這裡了,音視訊的路很長,更多的還是要靠自己去學習和實踐,帶著追求極致的精神去探索和優化,相信大家都能快速成長,成為真正的行業專家!

關於這個話題,有任何疑問歡迎來信 lujun.hust@gmail.com 交流,另外,歡迎關注新浪微博 @盧_俊 或者 微信公眾號 @Jhuster 獲取最新的文章和資訊。

相關文章