數字影像是機器視覺系統工作的前提和基礎，工業機器視覺系統把成像子系統的訊號轉換為反映現實場景的二維數字影像，並對其進行分析、處理，得出各種指令來控制機器的動作。

1、影像基礎知識

影像是指所有具有視覺效果的畫面，它是對客觀物件的一種相似的、生動的描述。

根據色彩不同，影像可以分為彩色影像和黑白（灰度）影像。透過對人眼結構及特性的研究發現，人眼對紅(R）、綠(G)、藍(B）3 種顏色特別敏感，不同強度的 RGB 混合後刺激視網膜上的錐狀體，使人眼可以感知自然界中的幾乎所有色彩。反過來，自然界中的色彩可以分解為不同強度 RGB 基本色的組合，這種表示色彩的方式稱為 RGB 顏色模型或 RGB 色彩空間，如下圖所示：

相應地，也可以將彩色影像的研究分解為對 RGB 分量所對應的灰度影像的研究。

1.1、影像型別

影像根據記錄方式的不同可分為模擬影像和數字影像兩大類。

如果將灰度影像看作二維空間上的光強度函式 f (x，y)，則模擬灰度影像就是對該空間上光強度幅值 f 變化的連續記錄。當(x，y)和 f 為離散、有限的數值時，光強度幅值 f 的變化將以類似矩陣的形式被記錄，此時所記錄的影像就稱為數字影像，而所記錄的值對應在影像中的每個點稱為畫素(pixel)，橫向及縱向畫素的個數稱為影像的解析度(image resolution)，如果是彩色數字影像，則在計算機中需要記錄每個畫素對應的 RGB 分量，如下圖所示：

工業機器視覺系統中提及的影像通常就指數字影像。

1.2、影像分別率、系統解析度和畫素解析度

影像解析度、系統解析度和畫素解析度是機器視覺系統設計時較常見的引數，它們通常與客戶對機器視覺系統的需求關係最為密切，是選擇相機和鏡頭的重要依據。

影像解析度指影像中儲存的資訊量，是每英寸影像內有多少個畫素點，解析度的單位為 PPI（Pixels Per Inch），通常叫做畫素每英寸。影像解析度一般被用於 PS 中，用來改變影像的清晰度。
系統解析度指成像系統可以識別出監測目標的最小細節或最小特徵。諸如“要求系統能檢測 0.1mm 的目標"、"要求系統測量精度達到 0.01mm"之類的要求一般都和系統解析度相關。
畫素解析度指為了表示檢測目標所需要的畫素數。一般情況下，可以根據客戶對檢測目標中最小特徵的要求來確定最小畫素解析度。如果將整個影像看作週期為最小特徵大小的週期訊號，則根據奈奎斯特取樣定律，必須對訊號每個週期取樣 2 個點以上，才能完整恢復該訊號。因此如果客戶沒有特別要求，常用至少兩個畫素來代表檢測目標中的最小特徵，這可被看作是影像感測器的奈奎斯特定律。

影像感測器應具備的最小畫素解析度常透過下面的公式計算：

Rmin 為最小畫素解析度。
Lmax 為檢測目標的最大長度。
lmin 為檢測目標的最小特徵長度（視覺系統的解析度)。
pmin 為表示最小特徵的畫素數。

在無特別要求時，pmin=2，如果客戶要求使用多於 2 畫素來表示最小特徵，則最小解析度將適當增加。

1.3、視場

視場（Field of View，FOV）指成像系統中影像感測器可以監測到的最大區域。在機器視覺系統設計時，考慮到一般都會使被檢測目標儘量填滿整視場，因此常用視場大小代替目標的最大長度 Lmax 來計算視覺系統的畫素解析度。如下圖（a）所示，表示被檢測目標在水平方向上佔據整個視場，而圖（b）表示目標未填滿視場。

如果橫縱方向上視場大小為[FOVh，FOVv]，檢測目標的最小特徵的大小為[Ih，lv]，則影像感測器應具有的最小畫素解析度為：

成像系統視場的大小可以透過研究其成像規律得知。目前，機器視覺系統常用使用配備各種鏡頭系統的工業 CCD/CMOS 相機作為成像系統，透鏡成像示意圖如下所示：

鏡頭系統一般使用透鏡系統，其成像遵循高斯成像公式：

f 為透鏡焦距(focal length，凸正凹負)。
u 為物距。
v 為像距（實正虛負)。如下圖所示。通常將像距與物距的比值定義為透鏡的放大率 M：

2、影響成像質量的因素

數字影像是對成像系統輸出的訊號進行數字化後的結果，成像系統反映真實場景的效能和質量直接決定整個機器視覺系統的效能。

影響機器視覺成像系統成像質量的因素主要包括：光源（Illumination）、系統解析度（System Resolution）、畫素解析度（Pixel Resolution）、對比度（Contrast）、景深（Depth of Field，DOF）、投影誤差（Perspective Error）和鏡頭畸變（Lens Distortion）。

而這些因素（引數）卻直接或間接地由硬體選型和安裝方式決定。

3、成像系統模型

工業或研究領域的成像系統多種多樣，常見的有工業 CCD/CMOS 相機、工業顯微鏡、生物顯微鏡、X 射線成像儀、紅外成像儀、熱成像儀等。無論這些成像系統的原理有多複雜，都可被抽象為下圖所示的簡化模型。

千差萬別的成像系統對現實世界中的可見光、紅外、X 射線、熱量等實施某種轉換 T (x，y)，將物理量轉換為電訊號，再經影像採集裝置取樣、量化後生成數字影像。

4、鏡頭系統簡化模型

由於對機器視覺成像系統來說，相機鏡頭到所檢測目標的距離（稱為工作距離，相當於物距）相對於相機焦距可近似認為是無窮遠。若將其帶入高斯成像公式，可得出此時相機像距近似等於其焦距，也就是說相機成像在焦平面上。據此，可以將鏡頭系統抽象為類似小孔成像的簡化模型，如下圖所示：

根據該簡化模型，可以得出機器視覺系統影像感測器尺寸 S（感測器平面某個方向上的長度)、視場 FOV、工作距離 WD 及鏡頭焦距 f 之間的約束關係：

此時，透鏡的放大率 M 則可以等效為：

如果進一步將前述最小畫素解析度的計算公式與該約束關係結合（用視場 FOV 代替目標的最大長度 Lmax)，則可以得出以下成像系統簡化模型的引數約束關係：

該公式所顯示的引數間的相互約束關係是機器視覺系統設計和搭建部署時系統設計和裝置選型的基礎。

實際中感測器尺寸 S 可以透過查詢相機的技術規範獲知，焦距 f、工作距離 WD 直接由所選擇的鏡頭決定。在已知這些引數時，可以很容易地計算出視場 FOV。相機的畫素解析度由其有效畫素區域（即感測器尺寸）決定，通常用橫向和縱向有效畫素數來表示（如 768×576）。為機器視覺系統所選擇的相機畫素解析度，必須大於或等於按照專案需求（包括對最小特徵尺寸 lmin 和用於表示最小特徵的畫素數 pmin 的要求）計算出的最小畫素解析度 Rmin。下圖進一步顯示了公式中涉及的引數含義：

5、鏡頭與相機的選型

工業機器視覺系統中，鏡頭與相機的選型非常重要。如果事先既未確定相機又未確定鏡頭，則需要先了解專案工作環境對相機安裝（工作距離）、要檢測的最大範圍(視場)、最小特徵的尺寸和代表它的畫素數的要求，然後根據這些條件來計算應使用何種鏡頭或相機。下圖為機器視覺專案選擇鏡頭和相機的簡化流程：

無論何種情況，都是基於成像系統簡化模型的引數約束關係和專案需求獲取最優搭配的過程。

5.1、鏡頭的選型

如果將機器視覺系統與人類視覺系統進行類比，那麼相機的感測器晶片就如同人的視網膜，而鏡頭則相當於眼睛內的晶狀體。各種現實世界中的影像都透過這個“晶狀體"對光線進行變換（匯聚）後，投射在"視網膜”上。

機器視覺成像系統使用的鏡頭通常由凸透鏡和凹透鏡結合設計而成。

單個凸透鏡或凹透鏡是進行光束變換的基本單元。凸透鏡可對光線進行匯聚，也稱為會聚透鏡或正透鏡。
凹透鏡對光線具有發散作用，也稱為發散透鏡或負透鏡。

兩種透鏡成像均遵循高斯成像公式，透過把它們結合使用，在校正各種像差和失真後，設計出具有不同結構和技術指標的複合鏡頭系統。與鏡頭相關的主要技術引數有鏡頭解析度、焦距、最小工作距離、最大像面、視場/視場角、景深、光圈和相對孔徑及其安裝介面型別等。

5.1.1、鏡頭解析度

鏡頭的空間解析度、相機畫素解析度和相機的空間解析度、系統空間解析度和系統解析度是幾個極容易混淆的概念。

鏡頭空間解析度表示它的空間極限分辨能力，常用拍攝正弦光柵的方法來測試。如果從訊號處理的角度來看，任何非週期影像訊號都可以被看作週期影像（或子影像）的疊加，而任何週期影像又都可以被分解為亮度按正弦變化的圖形的疊加。因此，透過研究鏡頭對亮度按正弦變化圖形的反應，就可以研究鏡頭的效能和解析度。正弦光柵就是亮度按照正弦變化的影像，如下圖所示：

其中棚格黑白相間，可把黑色看作正弦波谷，把白色看作正弦波峰。正弦光柵中一對相鄰黑線和白線稱為一個線對(line pair，lp)，它所佔據的長度被定義為正弦光柵的空間週期，單位是毫米。正弦光柵空間週期的倒數就是空間頻率(spatial frequency)，它表示每毫米內的線對數，單位是線對/毫米(Ip/mm)。透過拍攝正弦光柵，研究鏡頭每毫米內能分辨的線對數，就可以獲知鏡頭的解析度。鏡頭解析度越高，則說明其每毫米內能分辨的線對數越多。對於機器視覺系統設計來說，只需要查詢鏡頭參數列即可獲知其解析度。

相機畫素解析度是指相機感測器上縱橫方向上的畫素數。
相機的空間解析度卻表示它的空間極限分辨能力。根據前述相機奈奎斯特定律，相機要能恢復空間影像，必須至少使用 2 個畫素來表示影像的最小單元。如果用研究鏡頭的空間解析度類似的方法來研究相機空間解析度，則正弦光柵中的每對線需要至少 2 個畫素來表示。由此，可以透過畫素的物理大小來計算相機的空間解析度。例如，某相機的畫素物理大小為 8.4um×9.8um，則相機在橫縱方向上的空間解析度為：

對於鏡頭和相機構成的成像系統來說，整個系統的空間解析度取鏡頭和相機空間解析度的最小值。

5.1.2、鏡頭成像要素

影響鏡頭成像的因素包括：焦距、最大像面、視場/視場角、漸暈、景深等方面。

焦距是指無限遠處目標在鏡頭的像方所成像位置到像方主面的距離。焦距體現了鏡頭的基本特性：即在不同物距上，目標的成像位置和成像大小由焦距決定。市面上常見的鏡頭焦距大小包括 6mm、8mm、12.5mm、25mm 以及 50mm 等。對機器視覺成像系統來說，工作距離就是成像系統中所說的物距。由於視覺成像系統模型的假定條件是工作距離相對於鏡頭焦距為無限遠，因此一般在鏡頭的產品引數中都會說明其最小工作距離。當相機在小於該最小工作距離的環境下工作時，就會出現影像失真，影響機器視覺系統的可靠性。
最大像面是指鏡頭能支援的最大清晰成像範圍（常用可觀測範圍的直徑表示)，超出這個範圍所成的像對比度會降低而且會變得模糊不清。最大像面是由鏡頭本身的特性決定的，它的大小也限定了鏡頭可支援的視場的大小。
鏡頭的視場就是鏡頭最大像面所對應的觀測區域。視場角是視場的另一種表述方法，類似人眼“視角"的意義。視場角等於最大像面對應的目標張角。通常，在遠距離成像系統中，例如望遠鏡、航拍鏡頭等場合，鏡頭的成像範圍均用視場角來衡量。而近距離成像中，常用實際物面的直徑（即幅面）來表示。

由於機器視覺成像系統中的感測器多製作成長方形或正方形，因此鏡頭的最大像面常用它可以支援的最大感測器尺寸(單位為英寸，1 英寸約為 2.54cm）來表示。相應地，鏡頭的視場也可以用最大像面所對應的橫向和縱向觀測距離或視場角來表示，如下圖所示：

對於同一相機來說，有公式如下：

S 為相機感測器在二維平面某個維度上的大小。
f 為焦距。
2w 為視場角。

由於相機感測器尺寸固定，因此視場角也可以被看作焦距的另一種表達。因此在生活中，人們常按照鏡頭的視場角對其進行分類，如望遠鏡（6~12°)、遠距攝像鏡頭（120~46°) .標準鏡頭（46~65°)、廣角鏡頭（650~100°）及超廣角鏡頭( >100°）等。

一般來說，鏡頭的失真會隨著焦距的減小(或視場角的增大）而增大，因而在構建機器視覺系統（特別是精確測量系統)時，一般都不會選擇焦距小於 8mm 或視場角很大的鏡頭。

鑑於鏡頭能清楚成像的範圍受到最大像面的限制，因此在為相機選配鏡頭時，要特別注意相機感測器與鏡頭可支援最大感測器之間的關係。

一般來說，必須確保所選鏡頭可支援的最大感測器尺寸大於或等於相機的感測器尺寸。這樣做的另一個主要原因是為了避免漸暈(Vignetting）現象的發生。

如圖下圖(c)所示，如果相機感測器的尺寸大於鏡頭可支援的最大感測器尺寸時，所生成的影像就會形成類似隧道的效果，該現象稱為漸暈現象。漸暈現象會增加機器視覺系統的開發難度，因此應儘量避免。下圖中的(a) 、(b）分別顯示了在鏡頭可支援的最大感測器尺寸等於或大於相機的感測器尺寸時視覺系統的成像情況，這兩種情況下機器視覺系統均能正常工作。

景深也是一個與鏡頭和成像系統關係十分密切的引數，它是指在鏡頭前沿著光軸所測定的能夠清晰成像的範圍，如下圖所示：

在成像系統的焦點前後，物點光線呈錐狀開始聚集和擴散，點的影像沿光軸在焦點前後逐漸變得模糊，形成一個擴大的圓，這個圓稱為彌散圓(circle of confusion)。若這個圓形影像的直徑足夠小（離焦點較近)，成像會足夠清晰，如果圓形再大些（遠離焦點)，成像就會顯得模糊。當在某個臨界位置所成的像不能被辨認時，則該圓就被稱為容許彌散圓(permissible circle of confusion)。焦點前後兩個容許彌散圓之間的距離稱為焦深。在目標物一側，焦深對應的範圍就是景深。

δ為容許彌散圓的直徑。
f 為鏡頭焦距。
D 為對焦距離。
F 為鏡頭的拍攝光圈(aperture)值。光圈值 F 常用鏡頭焦距和鏡頭入瞳的有效直徑 Din 的比值來表示，它是鏡頭相對孔徑 Dr 的倒數，即：

從景深公式可以看出，後景深要大於前景深，而且景深一般隨著鏡頭的焦距、光圈值、對焦距離（可近似於拍攝距離)的變化而變化。在其他條件不變時：

光圈越大（光圈值 F 越小)，景深越小；光圈越小(光圈值 F 越大），景深越大。
鏡頭焦距越長，景深越小；焦距越短，景深越大。
距離越遠，景深越大；距離越近，景深越小。

在檢測目標的高度在一定範圍內可能變化的情況下，選擇合適的景深，對於機器視覺系統的穩定性尤為重要。

5.1.3、普通鏡頭和遠心鏡頭

普通鏡頭與人眼一樣，觀測物體時都存在"近大遠小”的現象，如下圖 (a)所示。也就是說，雖然物體在景深範圍內可以清晰成像，但是其成像卻隨著物距增大而縮小。如果被測目標不在同一物面上(如有厚度的物體），則會導致影像中的物體變形。另一方面，相機感測器的感光面通常並不容易被精確調整到與鏡頭的像平面重合(調焦不準)，由此也會產生誤差。為此，人們設計了遠心鏡頭。

遠心鏡頭(telecentric lens）有較大的景深，且可以保證景深範圍內任何物距都有一致的影像放大率，如下圖 (b）所示。多數機器視覺在測量、缺陷檢測或者定位等應用上，對物體成像的放大倍率沒有嚴格要求，一般只要選用畸變較小的鏡頭，就可以滿足要求。但是，當機器視覺系統需要檢測三維目標（或檢測目標不完全在同一物面上）時，就需要使用遠心鏡頭。

例如，要檢測厚度大於視場直徑的 1/10 的物體，或需要檢測帶孔徑、三維的物體等。一般來說，如果被測目標物面變化範圍大於視場直徑的 1/10 時，就需要考慮使用遠心鏡頭。它可以確保測試過程中物距在一定範圍內改變時，系統放大倍數保持不變，從而保證系統的測量精度。

5.2、相機的選型

5.2.1、CCD/CMOS

早期的相機多基於映象管成像。隨著整合電子技術和固體成像器件的發展，以電荷耦合器件(Charge Coupled Device，CCD）為感測器的相機，因其與真空管相比具有無灼傷、無滯後、工作電壓及功耗低等優點而大行其道。CCD 於 1969 年由美國貝爾實驗室的 Willard S.Boyle 和 George E.Smith 發明，它能夠將光線變為電荷儲存起來，並隨後可在驅動脈衝的作用下將儲存的電荷轉移到與之耦合的區域。人們正是利用它的這一特點發明瞭各種各樣的 CCD 成像裝置。

CCD 實際上可以被看作由多個 MOS (Metal Oxide Semiconductor）電容組成。在 P 型單晶矽的襯底上透過氧化形成一層厚度約為 100~150nm 的 SiOz 絕緣層，再在 SiO，表面按一定層次蒸鍍一層金屬或多晶矽層作為電極，最後在襯底和電極間加上一個偏置電壓(柵極電壓)，即可形成一個 MOS 電容器，如下圖所示：

CMOS (Complementary Metal Oxide Semiconductor）影像感測器的開發最早出現在 20 世紀 70 年代初。20 世紀 90 年代初期，隨著超大規模積體電路(VLSI）製造工藝技術的發展，CMOS 影像感測器得到迅速發展。CMOS 影像感測器的光電轉換原理與 CCD 影像感測器相同，二者的主要差異在於電荷的轉移方式上。CCD 影像感測器中的電荷會被逐行轉移到水平移位暫存器，經放大器放大後輸出。由於電荷是從暫存器中逐位連續輸出的，因此放大後輸出的訊號為模擬訊號。在 CMOS 感測器中，每個光敏元的電荷都會立即被與之鄰接的一個放大器放大，再以類似記憶體定址的方式輸出，如下圖所示：

因此 CMOS 晶片輸出的是離散的數字訊號，之所以採用兩種不同的電荷傳遞方式，是因為 CCD 是在半導體單晶矽材料上整合的，而 CMOS 則是在金氧半導體材料上整合的，工藝上的不同使得 CCD 能保證電荷在轉移時不會失真，而 CMOS 則會使電荷在傳送距離較長時產生噪聲，因此使用 CMOS 時，必須先對訊號放大再整合輸出。

CCD 和 CMOS 影像感測器比較，如下表所示：

5.2.2、模擬相機和數字相機

CCD/CMOS 晶片完成光電轉換後，其輸出為模擬或數字電訊號。通常該訊號還要被進一步放大、矯正，新增同步、調製或取樣編碼，生成符合各種標準的影片訊號後才正式輸出。理論上講，相機的輸出訊號可以是任意自定義的形式。但是，由於電視系統先於機器視覺發展多年，若以電視系統中已廣泛使用的影片方式輸出訊號，不僅更便於訊號的傳輸，還能最大限度地利用各種現有的成熟軟硬體技術，因此除了少數相機輸出非標準訊號外，大多數相機的輸出都是模擬或數字影片訊號。機器視覺相機也因此根據其輸出訊號的形式分為模擬相機和數字相機兩大類。

模擬相機的輸出訊號通常被加工為可以支援隔行掃描（interlacing scan）顯示的影片訊號，以便其能與傳統電視或影片監控等系統相容，而多數數位相機的輸出則直接按照支援逐行掃描（progressive scan）的方式進行編碼。我們知道，支援逐行掃描的影片訊號將每一幀影像按順序逐行連續編碼，傳送到顯示裝置後，也會被逐行以掃描的方式顯示。支援逐行掃描的訊號資料量很大，在電視技術發展的初期要透過天線傳輸的此類訊號極其困難。為了能減少訊號的資料量，同時不影響影像的視覺效果，人們提出了隔行掃描的方法。

與模擬相機不同，數字相機會透過其內部整合的 A/D 轉換器將影像轉換為數字訊號，並編碼為數字影片後，按照 RS-422、LVDS (RS-644) 、 FireWire 1394、USB、Camera Link 或千兆乙太網 GigE(Gigabit Ethernet)等標準傳輸。相機中的 A/D 轉換器位數決定了它能從暗到亮識別的灰度級數，常用位深度(bit depth）來表述，如 8 位、10 位、12 位或 16 位等。

對於彩色相機來說，相機的位深度決定了 RGB 各色彩分量中灰度資料的豐富程度，也就決定了相機能識別或表示的顏色數量。對黑白相機來說，位深度則直接決定了相機可以識別的灰度級數。

例如，一個 8 位的黑白數字相機最高能夠檢測 0(暗)~256(亮）個灰度級，而一個 12 位相機則可以檢測 0~4096 個灰度級。如果要檢測的灰度級間隔比較細，則應儘量使用位數高的相機。例如，若要檢測 213 和 214 灰度級之間的灰度級，則應使用超過 8 位的相機。

數字影片訊號多采用逐行掃描方式代替隔行掃描，且用幀有效（frame enable）和行有效(line enable)訊號代替了模擬影片訊號中的場同步和行同步訊號，來精確控制每行和每幀影像。每行中的單個畫素都以獨立數字訊號的形式，在畫素時鐘的控制下傳送，由於數字影片訊號的同步訊號（幀有效、行有效和畫素時鐘）與影像資料並沒有像模擬影片訊號那樣混合在一起傳輸，因此數字影片訊號不存在模擬影片訊號的畫素抖動問題。此外，數字影片相對於模擬影片有較高的解析度和幀率、較多的灰度等級、高傳輸速度、較低的訊號衰減和噪聲等優點。

6、總結

為機器視覺系統選擇相機，是一個綜合鏡頭和影像採集卡與相機的介面以及相機自身引數的逐步篩選的過程。按道理來說，第一步應該確定相機與鏡頭和影像採集卡的物理介面，以便所選的相機可以與鏡頭和採集卡正常連線。但是，由於目前相機與鏡頭和電腦/影像採集卡之間的介面都趨於標準化，這就使得我們可以直接從專案對機器視覺系統的精度要求入手來選擇相機。

相機選擇並無固定流程可循，根據經驗，應主要從以下幾個方面進行（暫不考慮預算)︰

根據專案要求和機器視覺成像系統模型，確定相機的感測器尺寸及解析度。
確定相機的輸出方式及標準（模擬/數字，色彩，速率等)。
確定相機物理介面及電器介面。
確定相機其他效能指標。

工業機器視覺系統相機如何選型？