目錄
目錄
第1章 緒論 1
1 1 人類視覺系統 1
1 2 計算機視覺系統與發展 3
1 3 目標探測與目標識別 5
1 4 關鍵技術綜述 6
1 5 應用概述 7
習題 8
參考文獻 9
第2章 視覺目標探測成像及特性 10
2 1 光電探測成像基本模型 10
2 2 光與電磁波成像 26
2 3 目標反射與輻射特性 30
習題 40
參考文獻 41
第3章 目標視覺特徵提取與描述 42
3 1 特徵提取與描述方法綜述 42
3 2 基於描述子的局部特徵提取和描述方法 43
3 3 基於深度學習的特徵提取方法 59
習題 79
參考文獻 79
第4章 圖像復原方法 81
4 1 圖像復原的基本原理 81
4 2 運動模糊圖像的復原方法 86
4 3 大氣湍流圖像復原方法 93
4 4 圖像去霧算法 96
習題 104
參考文獻 105
第5章 視頻電子穩像技術 107
5 1 電子穩像的基本概念 107
5 2 運動估計 111
5 3 運動平滑和運動補償 122
習題 126
參考文獻 127
第6章 目標檢測方法 128
6 1 目標檢測綜述 128
6 2 基於背景建模的目標檢測方法 135
6 3 基於特徵描述子的目標檢測方法 142
6 4 基於深度學習的目標檢測方法 146
習題 156
參考文獻 156
第7章 目標識別方法 158
7 1 目標識別 158
7 2 基於特徵描述子的目標識別方法 160
7 3 基於深度學習的目標識別方法 172
習題 181
參考文獻 181
第8章 目標跟蹤 183
8 1 目標跟蹤任務概述 183
8 2 基於生成式模型的單目標跟蹤方法 188
8 3 基於相關濾波的單目標跟蹤方法 190
8 4 基於深度學習的單目標跟蹤方法 196
8 5 多目標跟蹤方法 201
習題 204
參考文獻 204
第9章 視覺導航與定位方法 206
9 1 視覺定位定姿原理 206
9 2 景象匹配定位原理 233
9 3 SLAM算法原理 237
習題 245
參考文獻 246
第10章 視覺目標探測識別定位技術在航空工程領域的應用 247
10 1 航空工程領域圖像復原的應用 247
10 2 航空工程領域電子穩像的應用 250
10 3 航空工程領域目標檢測的應用 251
10 4 航空工程領域目標識別的應用 255
10 5 航空視覺輔助導航應用 256
精彩書摘
第1章 緒論
1 1人類視覺系統
人類視覺系統是指人類感知自然和理解視覺信息的生物系統。它能夠感知色彩、形狀、運動和深度等視覺特徵,並將其整合成有意義的圖像和場景。因此人類視覺系統對於人類理解世界至關重要。
人類視覺系統主要由眼睛、大腦皮層及視覺相關的神經通路組成。其中,眼睛作為人類視覺系統的外部器官,主要負責捕獲光線並將其轉為視覺信號;大腦皮層是人類視覺系統中處理和解釋視覺信息的主要部分,主要負責對接收到的視覺信息進行更高級的處理和感知;視覺通路是指從眼睛到大腦的信息傳遞路徑,包括傳入視網膜的視神經、傳輸到大腦的視覺皮層,以及在大腦內部不同區域之間的連接。
1 1 1人眼結構
如圖11所示,人眼主要由以下部分構成。
圖11人眼結構示意圖
(1)角膜(cornea)。角膜是眼睛的透明前表面,負責將光線聚焦到眼內,是一個彎*的透明結構,其*率決定了光線的折射程度。
(2)虹膜(iris)。虹膜是位於眼球前部的一種組織,位於角膜和晶狀體之間,用於控制眼睛中的瞳孔大小,以調節 眼睛的進光量。
(3)瞳孔(pupil)。瞳孔是位於虹膜中央的黑色圓孔,與虹膜一起控制眼睛的進光量。光線較暗的環境下瞳孔擴張,明亮條件下瞳孔收縮。
(4)晶狀體(lens)。晶狀體是位於瞳孔後面的透明凸透鏡,通過調節 其*率使得不同遠近物體的反射光線聚焦。
(5)視網膜(retina)。視網膜是眼球內的光敏細胞層,負責將光信號轉換為神經信號。當光線照射到光敏細胞時會激活相應的感光色素分子,從而產生神經信號。光敏細胞主要分為兩種,分別為視錐細胞(cones)和視杆細胞(rods)[1]。視錐細胞主要負責顏色視覺和高分辨率視野,在明亮光照條件下敏感。人類視網膜中的視錐細胞有三種類型,分別對應紅(長波長)、綠(中波長)、藍(短波長)三種基本顏色光[2],通過不同組合產生對顏色的感知;視杆細胞主要負責低光照條件下的視覺和運動檢測。
(6)盲點(blind spot)。盲點位於視網膜的中央,是視神經的起點。該位置無光敏細胞,因此無法感知光線。
(7)中央凹點(聚焦點,fovea)。人眼的中央凹點通常指黃斑區域,位於視網膜的中央,是視錐細胞主要分佈的區域,因此也是視網膜上*敏感的區域。
1 1 2人眼視覺系統特點
作為一個複雜且高效的感知系統,人眼視覺主要有以下幾方面特點。
(1)視覺亮度範圍寬。人眼的視覺系統能適應從暗閾值到強閃光約10個數量級的亮度範圍,可以感受到十分微弱的光線,也可以適應非常強烈的光線[3]。
(2)視覺分辨率高。人眼視覺分辨率是指對圖像細節 的分辨和識別能力。人眼成像於視網膜,分辨率約為1角分,即0 017度。在理想條件下,人眼能夠區分兩個相距1角分的像點,使得人眼可以觀察到十分細微的細節 。此外,由於視網膜中央凹點的視錐細胞密度更高,因而這部分的成像分辨率較外周視野更高、成像更清晰,而周圍區域的成像在細節 上會較模糊。
(3)視覺適應性強。人眼視覺適應性是指人眼在不同光照條件下迅速調整自身的視覺感知能力,以適應所處環境的光強。這種適應能力可以使人眼在不同的亮度和色彩環境中仍保持相對穩定的視覺感知,有效識別和理解周圍的環境。人眼視覺適應性主要包括三個部分,分別為暗適應、亮適應及色彩適應。暗適應是指從明亮環境過渡到昏暗環境時,人眼會增加視網膜上視杆細胞的敏感度,以增強低光條件下的視覺感知能力。暗適應的過渡時間依環境而定,通常需要幾分鐘到半小時。亮適應是指從暗光環境過渡到明亮環境,人眼會減少視網膜上的色素分子濃度,降低視杆細胞敏感度的同時增加視錐細胞的敏感度,以適應高光條件下的視覺感知。亮適應過程較快,通常在幾分鐘內即可完成。色彩適應可以使人眼在不同色溫的光線環境中感知和識別顏色,通過調節 視網膜上的色素濃度,改變視錐細胞對不同波長光線的敏感度,實現對不同色彩的適應。這一過程通常需要幾分鐘到幾十分鐘的時間。
(4)視覺對比靈敏度高。人眼的對比靈敏度是指人眼對圖像中亮度差異的感知能力,也稱對比感知能力,它衡量了人眼能夠分辨的*小亮度差異。人眼對比靈敏度通常為0 02~0 10,即人眼能夠感知到圖像中2%~10%的亮度差異。但對比靈敏度通常會受到光線條件、個體差異、視覺疲勞等影響。通常情況下,人眼視覺對比靈敏度在明亮環境中相對較高,在昏暗環境中則相對較低。
(5)具有亮度感覺、色覺及錯覺。人眼的亮度感覺、色覺和錯覺指的是視覺系統在感知光線和色彩時所表現出的特性和現象。其中,亮度感覺是指人眼對光線亮度的感知能力,包括對光線強度、光源大小、光線分佈的感知。色覺也叫顏色感知,是指人眼對不同波長的光線的感知能力。錯覺是指人眼在感知光線和色彩時出現的誤判現象。常見的錯覺包括光斑錯覺、色彩對比錯覺、大小對比錯覺等。這些錯覺可能是由於光線條件、視覺系統特性及大腦處理方式造成的。
1 2計算機視覺系統與發展
1 2 1計算機視覺系統的組成及發展
人眼視覺系統是人類獲取和感知外界信息的重要方式,能夠處理各種複雜的視覺任務;而計算機視覺系統則是基於攝像機捕捉的圖像信號,通過部署在計算機上的算法來實現對圖像的理解。其借鑒人眼視覺系統的特性和機制,通過圖像處理、模式識別、機器學習等技術設計算法和模型,實現對圖像的分析與環境的感知。
計算機視覺系統是由視覺傳感器、高速圖像採集系統、計算硬件單元、圖像處理單元、視覺算法系統等模塊共同組成的,如圖12所示。各組件的作用如下:
(1)視覺傳感器,由一個或多個圖像傳感器組成,用於捕獲所拍攝環境的畫面,常用的圖像採集傳感器包括可見光相機、紅外相機、激光掃描儀等;
(2)高速圖像採集系統,由專用視頻解碼器、圖像緩衝器、控制接口電路組成,負責將模擬圖像信號向數字圖像信號進行轉化,並將轉化後的數字圖像上傳至計算機進行顯示和進一步處理[4];
(3)計算硬件單元,主要包括中央處理器(CPU)、圖形處理器(GPU)、存儲器等,負責圖像數據的存儲和運算;
(4)圖像處理單元,用於圖像數據的初步處理,例如圖像增強、邊緣檢測、圖像分割等,以提高後續視覺算法系統的處理能力,或*立完成一些簡單的識別任務;
(5)視覺算法系統,由實現計算機視覺各類任務的算法組成,如圖像理解、三維感知、運動估計、目標識別、目標跟蹤等,是計算機視覺系統的核心組成部分。
圖12計算機視覺系統的基本組成
計算機視覺這一學科的發展主要經歷了四個階段:*早的計算機視覺技術可以追溯到20世紀50年代。早期的計算機視覺技術主要關注圖像處理和模式識別任務,第1算法包括邊緣檢測、角點提取、模板匹配等,可用於解決字符識別這類較簡單的檢測識別任務。20世紀80年代,馬爾視覺計算理論的歸納與提出,為計算機視覺這一學科的建立奠定了基礎。20世紀90年代開始,越來越多的專家學者開始重點研究圖像特徵的提取與描述,這一時期也被稱為特徵工程時代。SIFT、SURF、HOG等第1的特徵描述子被相繼提出並得到廣泛應用,在目標檢測、目標跟蹤等任務上取得了顯著進展。同時,支持向量機、隨機森林等傳統的機器學習算法也在圖像分類等任務上取得不錯的效果。進入21世紀,深度學習技術的蓬勃發展徹底改變了傳統計算機視覺系統的處理方式。卷積神經網絡的應用不僅實現了圖像數據的端到端學習,更大大提高了圖像分類、目標檢測、語義分割等任務的算法性能。此外,一些大規模數據集,如ImageNet、COCO等的構建和應用也進一步提高了模型的泛化能力。
目前,跨模態和多模態視覺處理技術成為該領域的研究熱點與發展趨勢。即充分利用現有硬件平臺資源,通過圖像信息與文本、語音、深度等其他模態數據的融合處理,以提升視覺任務的算法性能。多模態信息的綜合利用不僅可以提高視覺系統的魯棒性和泛化性,更能拓寬計算機視覺技術的應用領域。此外,GPT(generative pre-trained transformer,即基於transformer的生成式預訓練語言模型)的問世充分展現了大模型的優異性能。大模型一般指深度學習模型中參數量非常大的模型,通常會包含數百萬甚至數十億的參數,需要耗費大量的計算資源和存儲資源。大模型可以通過訓練更多的數據,學習到更複雜的特徵表示,從而具備更強的泛化能力。因此,大模型也是目前專家學者*為關注的研究熱點。當然隨著實際應用需求的不斷增加,低功耗、輕量化、實時性也是計算機視覺系統研發面臨的新挑戰。
1 2 2馬爾視覺理論
英國心理學家和神經科學家、計算神經科學創始人大衛 馬爾(David Marr)提出了馬爾視覺理論,主要探討了計算機視覺和人類視覺系統的基本原理和過程,使計算機視覺研究有了一個比較明確的體系,大大推動了相關研究的發展,為計算機視覺成為一門學科奠定了基礎。馬爾認為”看”就是人通過觀察,認知有什麼東西和它們在什麼地方。因此,視覺*先是一個信息處理任務,將其分解為三個層次。
層次1:計算理論層次(computational level)。這一層次主要對整個視覺系統的輸入、輸出做宏觀描述,定義視覺系統要解決的具體任務,輸出描述視覺系統的信息形式。形象地說,就是解決展開計算的信息是什麼、計算的目的是什麼、計算的邏輯是什麼這三個問題。
層次2:表示與算法層次(representational and algorithmic level)。這一層次關注視覺系統將輸入轉為輸出的具體算法。形象地說,就是解決實現這個計算理論的方法是什麼、輸入和輸出的表示是什麼、各種表示之間的變換關係是什麼這三個問題。
層次3:硬件實現層次(implementational leve