書單 | 計算機視覺的修煉祕笈

微軟研究院AI頭條發表於2018-02-06

640?wxfrom=5&wx_lazy=1

不久前我們推出的自然語言學習書單推薦受到了大家的熱烈歡迎,在此先感謝大家的關注和支援。


與此同時,有很多讀者紛紛留言想得到計算機視覺領域的圖書推薦。今天我們就滿足大家的願望,邀請微軟亞洲研究院計算機視覺組資深研究員王井東博士為大家推薦計算機視覺領域的經典書目,他還貼心地為大家劃分了綜合篇、幾何篇、機器學習篇和經典讀物四大類。


計算機視覺是從影象和視訊中提出數值或符號資訊的計算系統,更形象一點說,計算機視覺是讓計算機具備像人類一樣的眼睛,看到影象,並理解影象。加州大學洛杉磯分校統計學和電腦科學教授教授朱鬆純曾表示“人的大腦皮層的活動大約70%是在處理視覺相關資訊。視覺就相當於人腦的大門。如果不能處理視覺資訊的話,整個人工智慧系統是個空架子,只能做符號推理,沒法研究真實世界的人工智慧。


一起來看看這些計算機視覺領域的修煉祕笈吧!下一個計算機視覺高手也許就是你哦!


640.png?wxfrom=5&wx_lazy=1

一、綜合篇


1. Computer Vision: A Modern Approach

作者:David A. Forsyth,‎ Jean Ponce

出版時間:2003(第一版),2011(第二版)

適合人群:初級到中級學者

推薦指數:★★★★★


640?wx_fmt=jpeg


主要內容:本書包含了計算機視覺領域眾多問題:成像、面向單張影象的早期視覺、面向多張影象的早期視覺、中層視覺問題、高層視覺問題,也包括了相關的視覺應用,如基於影象的建模與繪製、以人為中心的視覺問題、影象搜尋,最後,作者也簡要講述了視覺演算法相關的優化技術。


推薦理由:本書既有對計算機視覺問題的系統的講解,又有對相關問題的詳細的講述。通過本書,讀者能夠實現計算機視覺應用。本教材成書較早(第一版:2003,第二版:2011),但內容全面廣泛,可作為高年級本科生或研究生的教材或參考書,也可作為計算機視覺工程人員的參考書。本書也適合作為計算機視覺相關領域,包括多媒體搜尋、計算機影象學、機器人、影象處理、以及成像等領域的研究人員參考書。


圖書主頁:http://luthuli.cs.uiuc.edu/~daf/book/book.html


2. Computer Vision: Algorithms and Applications

作者:Richard Szeliski

出版時間:2010

適合人群:初級到中級學者

推薦指數:★★★★★


640?wx_fmt=jpeg


本書內容:本教材包含用於分析理解影象的各種各樣的技術,同時也講述了具有挑戰性的現實世界的視覺問題,比如醫學影象,以及適合於個人相簿的影象編輯技術等。具體課題包括:成像,影象處理,特徵檢測、匹配與分割,基於特徵的對齊,基於運動的結構重建,影象貼上,計算攝影學,立體對齊,三維重建,基於影象的繪製和識別等等。作者也提供了計算機視覺演算法涉及到的線性代數、數值優化技術、貝葉斯建模與推理。


推薦理由:本書是作者多年從事計算機視覺教學與研究的成果,按照課程專案的方式組織。可供高年級本科生和研究生計算機視覺課程的教材。


圖書主頁:http://szeliski.org/Book/


640.png?

二、幾何篇


1. Multiple View Geometry in Computer Vision

作者:Richard Hartley, Andrew Zisserman

出版時間:2000 (第一版),2004(第二版)

適合人群:初級到中級學者

推薦指數:★★★★★


640?wx_fmt=jpeg


本書內容:理解真實世界的三維結構是計算機視覺領域的一個基本問題。本書內容包括三維幾何與重建所需要的計算相關的幾何原則及物體的代數表達。本書以統一框架的形式給出了場景重建的理論與實現細節。同時作者也提供了詳盡的背景知識、應用和實現演算法的解釋。


推薦理由:本教材系統是多視角幾何經典教材,既包含經典的方法,又包括現代的方法。本書寫作清晰明瞭,又不失連貫性。本書可作為計算機視覺和計算機圖形學等課程高年級本科生和研究生教材,對於自動駕駛、機器人、AR/VR、無人機、地理測繪等領域研究人員和技術人員是重要的參考書。


圖書主頁:http://www.robots.ox.ac.uk/~vgg/hzbook/


2. An Invitation to 3-D Vision: From Images to Geometric Models

作者:Yi Ma, Stefano Soatto,‎ Jana Kosecká,‎ S. Shankar Sastry

出版時間:2005

適合人群:初級到中級學者

推薦指數:★★★★★


640?wx_fmt=jpeg


主要內容:本書著重講述了計算機視覺中的重要問題:利用線性代數和矩陣理論從一系列二維影象中重建三維結構和運動。本書的特點是一套基於多幅影象的研究幾何和重建幾何模型的統一框架,也包括了影象形成、基本的影象處理方法以及特徵提取等內容,同時也給出實現視覺演算法及系統的操作指南。


推薦理由:本書適合於計算機視覺、應用數學、計算機圖形學,及機器人等方向的高年級本科生、研究生以及研究人員。同時作者也提供了演算法實現的程式,對於自動駕駛、機器人、AR/VR、無人機、地理測繪等領域研究人員和技術人員是重要的參考書。


圖書主頁:http://vision.ucla.edu/MASKS/


3. 計算機視覺: 計算理論與演算法基礎

作者:馬頌德,張正友

出版時間:1998 (第一版),2003(第二版)

適合人群:初級到中級

推薦指數:★★★★★


640?wx_fmt=jpeg


主要內容:計算機視覺從資訊處理的層次研究視覺資訊的認知過程,以及視覺資訊處理的計算理論、表達與計算方法。本書系統地介紹了計算機視覺的重要理論與演算法,包括影象特徵提取、攝像機定標、立體視覺、運動視覺(或稱序列影象分析)、由影象灰度恢復三維物體形狀的方法、物體建模與識別方法以及距離影象分析方法等。


推薦理由:本書主要涵蓋了計算機視覺領域早期視覺的問題,對相關問題的研究背景和實現方法做了詳細闡述。可作為高年級本科生或研究生的教材或參考書,也可供自動駕駛,AR/VR,無人機,地理測繪等領域研究人員和技術人員參考。


640.png?

三、機器學習篇


1. Computer Vision: Models, Learning, and Inference

作者:Simon J.D. Prince

出版時間:2012

適合人群:初級到中級學者

推薦指數:★★★★★


640?wx_fmt=jpeg


主要內容:本書介紹瞭解決計算機視覺問題的概率模型學習與推理的方法,講述瞭如何利用訓練資料建立觀察影象和要估計的內容的聯絡,例如估計三維結構。本書包括概率基礎知識、概率圖模型、圖分割方法、多視覺幾何、相機標定、人臉識別、目標跟蹤等等。書中共介紹了70多種演算法。


推薦理由:本書可以看成計算機視覺與機器學習結合的果實,提供了應用於計算機視覺研究的機器學習(深度學習除外)基本知識,描述簡明直觀。本教材可作為高年級本科生以及研究生計算機視覺教材,也適合於計算機視覺從業人員。


圖書主頁:http://www.computervisionmodels.com/


2. Pattern Recognition and Machine Learning

作者:Christopher Bishop

出版時間:2006

適合人群:初級到中級學者

推薦指數:★★★★★


640?wx_fmt=jpeg


主要內容:本書是第一本從貝葉斯的角度講述模式識別,用圖模型的方式描述離散概率分佈的書籍。內容包括:線性迴歸模型、線性分類模型、神經網路、核方法、稀疏核方法、圖模型、混合模型與期望最大化演算法、近似推理、取樣方法、連續隱變數模型等。


推薦理由:本書主要講述應用於模式識別問題的機器學習方法,也包括視覺識別問題,適合作為高年級本科生及研究生的教材,也是計算機視覺領域研究人員及從業人員學習機器學習的參考書。


圖書主頁:https://www.microsoft.com/en-us/research/people/cmbishop/#!prml-book?from=https%3A%2F%2Fresearch.microsoft.com%2F%7Ecmbishop%2FPRML%2Findex.htm


3. Deep Learning

作者:Ian Goodfellow and Yoshua Bengio and Aaron Courville

出版時間:2016

適合人群:初級、中級到高階學者

推薦指數:★★★★☆


640?wx_fmt=jpeg


主要內容:本書包括三大部分,第一部分介紹了基本的數學工具和機器學習概念,第二部分描述了最著名的深度學習演算法,第三部分列舉了深度學習研究前沿的想法及問題。


推薦理由:本書不是專門為計算機視覺而寫的深度學習教材,但是包含了成書之前計算機視覺領域發明的深度學習技術,可作為計算機視覺領域的高年級本科生及研究生的教材,也可作為計算機視覺研究人員和從業人員參考書。


圖書主頁:http://www.deeplearningbook.org/


4. Generalized Principal Component Analysis

作者:RenéVidal,‎ Yi Ma,‎ Shankar Sastry

出版時間:2016

適合人群:中級到高階學者

推薦指數:★★★★★


640?wx_fmt=jpeg


主要內容:本書介紹了關於從一個或多個子空間或流形產生出來的,可能含有噪聲、大誤差或者異常的高維資料建模的數學理論和計算工作的最新進展,涵蓋了用於子空間估計和分割的最新的代數的、幾何的、統計的計算方法,並且給出了若干在影象處理、影象視訊分割、人臉識別與聚類等問題的有趣應用。


推薦理由:本教材可做為計算機視覺以及影象和訊號處理、資料科學、機器學習、系統理論等領域的研究生和起步的研究者。本書包含了大量的圖解說明、例子、以及練習習題,同時涵蓋了本教材涉及到的統計、優化、代數幾何等方面的基本概念和原理。


圖書主頁:http://perception.csl.illinois.edu/gpca/


640.png?

四、經典讀物篇


Vision: A Computational Investigation into the Human Representation and Processing of Visual Information

作者:David Marr

出版時間:1982

適合人群:中級及高階學者

推薦指數:★★★★★


640?wx_fmt=jpeg


主要內容:本書提供了理解視覺感知的框架,也涉及了大量研究和理解大腦及其功能的問題。在Marr的框架裡,視覺過程建立了一套表達方法:開始於影象描述,終結於在周圍環境中的三維物體描述。他提出了在神經科學和認知科學領域具有重大影響力的多層次分析方法論:計算層次、演算法層次、硬體演算法層次。


推薦理由:本書系統的描述了Marr的對於視覺感知的理解的框架。本書自出版以來,影響一代大腦及認知科學家。時至今日,這本書依然是致力於大腦和認知科學、計算機視覺領域特別是視覺感知的研究人員的參考書。


怎麼樣,找到適合自己的書了嗎?2018年不妨先給自己定個小計劃:讀完3本計算機視覺的經典書目!


你還有哪些喜歡的計算機視覺領域的書呢?


下一期你又希望我們推薦哪個領域的經典書目呢?歡迎在評論區留言!


你也許還想


  王井東詳解ICCV 2017入選論文:通用卷積神經網路交錯組卷積

  觀點|朱鬆純:初探計算機視覺三個源頭兼談人工智慧

  書單 | NLP祕笈,從入門到進階


640.png?

感謝你關注“微軟研究院AI頭條”,我們期待你的留言和投稿,共建交流平臺。來稿請寄:msraai@microsoft.com。

640.jpeg?


相關文章