上篇文章討論了“機器的機器視覺”研究的最終目標和實現路徑。其中,“機器的機器視覺”的最終目標概括為以下三項:
1、被動式、實時、高精度、低功耗的三維圖像生成能力;
2、被視物體和場景的空間及運動的快速感知和智能識別能力;
3、所見即所得的自動視覺學習、歸納、總結的能力。
以上三項目標的實現路徑為按照前后順序,依次完成。同時,前文還重點討論了機器視覺的三維圖像生成能力是“機器的機器視覺”實現的前提和必要條件。
既然三維圖像生成能力是“機器的機器視覺”實現的前提和必要條件,那現有的機器視覺的三維圖像生成能力能否滿足“機器的機器視覺”的需要,如果不滿足采用什么樣的技術方式和技術路線能夠實現“機器的機器視覺”的三維圖像生成能力?“機器的機器視覺”的三維圖像生成能力的最終目標是什么?以上問題就是本篇重點討論的問題。
(一) “機器的機器視覺”的三維圖像生成能力的目標
按照前面文章的思路,在談論“機器的機器視覺”的時候,首先用人眼作為參照,給“機器的機器視覺”提出了三個遠大的理想和奮斗目標,所以,在討論“機器的機器視覺”的三維圖像生成能力的時候,我們還是以人眼作為參考,給它訂立一個相對容易實現的小目標。我們認為,“機器眼”或稱“機器的機器視覺”在視覺生成方面的努力方向和奮斗目標應該像智慧生物的眼睛一樣,具備以下幾項功能:
1、成像過程的自動化;
“機器眼”的三維成像過程必須實現高速全自動,該過程包括:圖像采集、圖像預處理、圖像傳輸、圖像三維運算、圖像顯示、數據存儲等,以上過程的自動化是一個復雜的系統工程,可能涉及的技術包括:自動調焦、自動曝光控制、圖像預處理和自適應算法、圖像壓縮、高速采集和傳輸通訊、三維自動生成、圖像存儲等等,以上過程的全自動,需要付出極大努力。同時,成像過程的自動化還包含另一層更重要的意思,就是無論何時、無論何地、無論拍的對象是啥、無論任何拍照環境,都能自動完成三維成像。
2、生成數據的三維化;
“機器眼”的最終輸出數據一定是包含三維尺寸的數據或表示三維空間幾何的結構化數據,同時,還需要有表面紋理特征的相關數據,以及其它與視覺相關的數據。只有基于三維數據的“機器眼”,才能在后續的視覺識別和視覺理解方面最終達到智慧生物的水平。
3、生成過程的實時化;
“機器眼”的三維成像過程的采樣速度要求應該不低于人眼的每秒24幀,目前,二維圖像的技術指標已經超過該指標,但在三維快速成像和建模方面還有很大差距。
4、生成方法的被動化;
“機器眼”的三維成像方式應該像智慧生物一樣采用被動成像方式,在智慧生物中,除了在完全黑暗環境下生存的蝙蝠采用主動超聲波進行空間和物體的識別,絕大多數生物都采用簡單可靠的被動光學成像方式形成視覺,其道理在于被動成像具有低能耗、結構簡單、隱蔽性好的特點,而機器視覺技術當前還很難做到這一點。以無人汽車為例,目前廣泛采用多線激光雷達進行空間感知,這種方式容易對外界產生干擾,相互之間也會產生干擾,同時設備昂貴復雜。對于“機器眼”采用電磁波、激光、紅外光等主動成像方式用于三維成像時,可以在一些特定場合下作為被動成像的一個替代,最佳選擇應該還是首選被動成像。
5、生成算法的通用化;
“機器眼”在三維成像時,為了滿足對全自動成像的要求,自動適應各類環境和光照條件,需要三維運算實現通用化,在不同場景、不同被視物、不同光照條件下都能夠自動完成三維成像。就像工業傳感器一樣,只要接上電源,就可以通過標準輸出接口,采集到傳感器的測量數據,無需另外編制專用程序和采用其它各類不同的輔助措施完成三維成像。
6、生成結構的小型化。
“機器眼”的三維成像系統,需要實現集成化和小型化。目前,手機拍照已經基本實現集成和小型化,但是還未具備三維圖像的采集和輸出功能。一般利用平面圖像進行三維空間解算或采用掃描或結構光方式進行三維運算,需要耗費大量運算資源,基本都需要與臺式計算機或服務器相連接,前端圖像采集和后端三維運算設備硬件龐雜,體積大,難以實現小型化。現在為加快運算速度,降低對服務器資源的依賴,流行的做法是采用GPU、FPGA等芯片進行并行運算,可有效減少硬件資源。未來由于三維運算的通用算法出現,為開發專業三維運算芯片提供了有利條件,有了三維運算芯片,就可以實現“機器眼”的三維嵌入式運算和結構的小型化。
以上6項要求和目標,是實現“機器眼”的必由之路,在技術飛速發展的今天,這六項要求有些已經不同程度的局部實現,還有些經過努力可以在不遠的將來得到實現。上述6項要求的核心是三維運算的通用化,當實現了這個主目標后,其它次級目標就會相對容易完成和實現。
(二)現有機器視覺的三維圖像生成能力綜述
既然三維運算實現通用化是“機器眼”或“機器的機器視覺”獲得三維感知的必要條件,我們就需要分析一下現有機器視覺技術在三維感知上具有哪些技術手段?這些技術存在哪些技術上的優勢和短板?我們需要選擇哪條技術路線可以實現三維運算的通用化?
目前,機器視覺技術可以產生三維數據的大致有以下幾種手段:
⒈來自激光測距原理的激光掃描儀和激光雷達
該類技術和應用已十分成熟,例如,激光測距、激光掃描、激光雷達等,這些設備的三維生成是基于單點位移傳感器的距離測量,同時依靠高速旋轉和高速數據采集而產生三維數據,用于物體外部輪廓測量和距離測量等,廣泛應用于逆向工程、三維檢測和重現、無人汽車、自動測量等。
激光掃描儀和激光雷達在三維生成方面的缺點是對被測物不能從整體上快速全面的把握其形貌特征,掃描時間長,不能適應動態測量的要求,數據量大,三維空間運算需要耗費大量計算資源,且大多需要人工干預,難以滿足自動檢測和在線檢測的要求。由于激光掃描儀和激光雷達三維點云數據量大,占用大量存儲空間,一般用于精細三維建模,不適用于及時三維識別,不能實現快速匹配和三維數據檢索。
⒉光截圖三維測量技術
光截圖三維測量技術是通過線激光建立激光平面,將三維問題變為二維問題降維進行解決。該技術的測量過程是由一個線激光發生器產生一個激光平面,通過與該平面成一定角度布置的數字攝像機成像后,對圖像進行二值化處理,得到被測物體與該激光線交線的圖像,該激光平面與二維圖像像素之間具有唯一的對應關系,通過標定可實現該物體激光切線的三維空間尺寸的精確測量。
該類檢測技術適用于特定場合和特定物體的高速在線三維尺寸測量,其在三維生成方面的缺點是只針對獨立的激光平面,不能整體把握被視物的三維特征,使用范圍和測量范圍有限,需要提前進行標定,對測量物和測量環境有特定的要求,激光對被測物有干擾。
⒊雙目視覺測量技術
人眼之所以能夠快速判斷被視物體的遠近和大小,是由于人類擁有固定間距同時可動態調焦調角度的兩只眼睛,同時還擁有一個圖像處理運算速度目前最快速的計算機都難以企及的大腦的緣故。如果有兩只固定距離和焦距的相機對同一物體同時成像,其兩個圖像上的成像點位置與被測物上的測量點,存在著唯一的對應關系,按照兩個圖像的之間的視差進行計算就可以獲得被視物測量點的三維空間位置坐標,這就是雙目視覺測量原理。目前3D電影基本采用該方法進行拍攝和立體重現。
使用雙目相機進行三維生成目前是最熱門的研究項目,該技術最早來源于航空測量的相關技術,在航測過程中,相機相當于在空中進行平行移動,對于連續拍攝的兩張圖像來說,就相當于平行雙目相機測量系統,但在實際三維生成過程中,一般圖像匹配運算量大,且雙目匹配的匹配點存在大量和普遍的歧義性,且無法自動消除,需要人工手動干預來實現三維建模,該方法無法實現三維的自動生成。
使用雙目三維測量比激光測量來說有一些優點,該技術可以從整體上對被測物三維空間結構進行把握,測量屬于被動式測量,對環境無不良干擾和擾動,在三維生成后,被測物的整體輪廓和細部特征相對誤差小,而且,可以從紋理上對被測物進行區分,這些特點是單點激光、結構光以及其它依靠單點激光的三維設備所不具備的。
4、雙目視覺+結構光等三維測量技術
為了消除雙目匹配的歧義性,實現雙目視覺的三維自動生成,目前,許多廠家進行了研究,利用結構光與雙目視覺相結合的方式,解決了匹配的歧義性問題,實現了三維自動生成。常用的結構光一般采用遠紅外不可見光,或其它安全級別的激光。這樣的結構光在被視物表面形成便于自動雙目匹配的光斑,極大地消除了雙目匹配的歧義,實現了高速自動的深度檢測和三維檢測。
還有就是采用激光、紅外線飛行時間TOF進行三維測量的設備,采用多次不同焦距曝光的三維測量的設備以及采用其它方式的三維測量的設備。以上這些方式都是近來逐步發展起來的三維自動生成的技術方法,這些方法都是為了解決三維生成的實時性和通用性問題,具有一定的技術先進性和領先性。
但如果用前述“機器眼”三維生成的六項目標進行對照的話,這些技術還存在一些明顯的缺陷和問題。產生問題的主要原因是以上方法都是采用主動成像的方式,由于采用激光或遠紅外光等作為主動成像的輔助手段而帶來一系列的問題。
首先,采用結構光等主動成像方式在室外陽光下使用時,可對成像造成強烈干擾,不能滿足成像質量要求;其次,這些方式要求被測物對結構光或激光有良好的反射性能,對于吸光面、大曲面、強反射光滑面,不能形成良好反射,影響檢測效果;第三,當激光功率太小時,測量深度會減小,測量精度會下降,當激光功率加大時,又容易造成使用者或被測物的傷害;第四,采用結構光等主動成像方式只能是在結構光照到的位置進行檢測,對于結構光之間的空隙,無法形成三維測量數據,所以,該類方法無法做到對被測物細部特征的三維成像;第五,由于結構光照到的部位和其它照不到的位置在成像時的高對比度要求,使被測物的顏色和紋理無法同步測量和展示。
分析以上幾種三維成像方式,采用基于雙目視覺測量技術中的被動式純光學成像的技術,是最符合“機器眼”三維成像目標要求的技術。在該技術的基礎上,如何有效克服歧義性,實現全自動三維成像,是三維成像技術亟待解決的問題。
(三)通用式三維即時成像技術
北京清影機器視覺技術有限公司通過完全自主創新,自行開發完成“通用式三維即時成像技術”,研制成功具有通用視覺的三維“矩陣相機”。目前,“矩陣相機”首先實現的是自動三維“感覺”,在秒級以內自動獲得被視場景的三維影像,其下步的目標就是“知道”。我們今后的目標,就是依托“矩陣相機”的自動三維視覺感知能力,最終實現“機器的機器視覺”。
“通用式三維即時成像技術”是在綜合分析了現有三維圖像技術線路的基礎上,采用基于雙目視覺測量技術中的純光學成像原理,采用多相機矩陣的硬件結構,通過空間幾何分析對矩陣相機之間的圖像進行關聯匹配運算,從而自動消除匹配過程的歧義性,實現高速、通用、被動的三維成像。
“通用式三維即時成像技術”已經基本實現了“機器眼”的三維自動感知的六項目標,是實現“機器的機器視覺”的最佳可行之路。
“通用式三維即時成像技術”,我們的一小步,機器世界的一大步……