我們生活在一個三維的世界中,三維信息對于我們的感知和理解這個世界至關重要。從二維顯示中獲得深度信息可以更好地實現人機交互;獲取和處理實時三維路況信息是自動駕駛技術的關鍵;醫生在手術場景中獲取三維信息可以更精確地識別和處理病灶位置……獲取、恢復和重建三維信息,是計算機視覺領域的核心研究內容,在工業、娛樂、教育、醫療等領域有著廣泛應用前景。
兩視圖幾何是三維重建的基礎。在兩幅相關圖片中找到對應于同一三維點的二維特征點,即建立匹配關系,可以計算出位姿變換和三維點坐標,這是許多三維重建任務的基礎步驟,比如運動恢復結構(structure from motion, SFM),同時定位與地圖構建(simultaneous localization and mapping,SLAM)等。一般通過對提取到的特征點建立描述符,然后根據最近鄰關系進行初步匹配。這樣得到的匹配關系存在大量的誤匹配(可能高達95%),因此需要識別并剔除錯誤匹配(outlier rejection)。傳統的方法是基于隨機一致性采樣(RANSAC),但是在視角變換大、亮度變換劇烈、存在遮擋等情況中無法取得滿意效果。因此,如何更好地識別和剔除誤匹配成為了三維重建中的瓶頸任務。
近日,清華大學醫學院生物醫學工程系廖洪恩教授課題組的學術論文“OANet:基于層次結構的圖神經網絡來學習兩視圖幾何匹配關系建立”(OANet: Learning Two-View Correspondences and Geometry Using Order-Aware Network)被國際電氣電子工程師學會-模式分析與機器智能匯刊(IEEE Transactions on Pattern Analysis and Machine Intelligence, IEEE TPAMI)出版,刊登在2022年第44期第6卷。該研究通過設計一個新的圖神經網絡結構,對兩視圖的初步匹配關系進行誤匹配識別和剔除,取得了很好的結果,極大提升了三維重建任務的效果。IEEE TPAMI是人工智能領域公認的知名期刊之一,也是中國計算機學會認定的人工智能領域A類期刊之一。
圖1. 本研究提出的OA-Net網絡結構
廖洪恩課題組提出了一種新的神經網絡結構OANet(Order-Aware Network,圖1)實現了對誤匹配的高效識別和剔除。該網絡以初始建立的匹配點對為輸入,輸出每對點對是正確匹配的概率。由于輸入點對沒有順序關系,無法應用卷積神經網絡,本研究從圖卷積中的池化操作得到啟發,以多層神經網絡為基本結構,設計了差異化池化層(Differentiable Pooling layer)模塊(圖2左),通過訓練得到一個分配矩陣(assignment matrix),將該矩陣和輸入點對矩陣相乘,實現對輸入點對的聚類(cluster)。文中證明,這樣得到的聚類是輸入不變的(permutation-equivariant),即無論輸入點對是以什么順序進入網絡,得到的聚類順序是不變的,這樣通過網絡學習到了輸入點對的內在結構。為了使得網絡能對每個輸入點對都進行分類,又設計了差異化反池化層(Differentiable Unpooling Layer)模塊(圖2右),通過學習到一個反池化分配矩陣(unpooling assignment matrix),將聚類反投影成為與輸入點對一一對應的輸出結構。利用新的池化和反池化操作,可以構建層次化的圖神經網絡,從而極大地提升了基于多層神經網絡的圖神經網絡的表達能力,并保持了O(N)的復雜度。網絡最終為每個輸入點對都被分配了一個概率,表示是否為正確匹配,以這個概率加權的八點法得到的兩視圖基本矩陣作為損失函數對網絡進行訓練。在應用階段,剔除掉低概率的點對,就能實現對匹配的識別和過濾。
圖2. 左:差異化池化層(Differentiable Pooling layer)模塊;右:差異化反池化層(Differentiable Unpooling Layer)模塊
本研究使用該網絡結構在多個任務中進行了實驗,包括室內室外數據集上的位姿估計任務、運動恢復結構任務、視覺定位任務,都極大提升了重建精度,并超越了同時期其他算(圖3)法。相關的研究方法曾在IEEE國際計算機視覺與模式識別會議(CVPR 2019)圖像匹配比賽中取得了第一名,并在視覺定位任務中也取得了最優(state-of-the-art)。本研究提出的網絡結構通用性好,對特征點提取等步驟沒有限制。匹配點對的內在結構和是否是正確匹配由網絡訓練得到,無需人工定義,可以非常方便地在特定任務中“即插即用”(Plug-and-Play)。本研究還對網絡的泛化性進行了實驗,結果表明提出的網絡泛化性好,有遷移到其他非自然圖像場景的應用潛力。
圖3. 在室內室外位姿估計任務中和其他方法對比,最下一行是本研究提出的方法
清華大學醫學院教授廖洪恩是該研究的通訊作者,2020屆博士畢業生張家輝為該研究的第一作者。該研究得到國家自然科學基金項目國家重大科研儀器研制項目、國家重點研發計劃重點專項、北京市自然科學基金等項目支持。
廖洪恩課題組長期致力于三維醫學影像和微創精準診療的研究,依據臨床手術過程中的實時信息指引,以實施精密治療從而提高治愈率和患者的生存質量(Quality of Life)為目的,致力于創建和推廣一種以增強現實醫學影像顯示技術和智能微創器械為診斷和治療平臺的精準微創診療一體化模式。課題組先后提出了基于術前術中多模態信息融合分析實時診療引導、智能型微創手術機器人輔助精準診療等理論與系統,為針對復雜外科疾病的跨尺度多模態成像引導智能化診療理論的建立奠定了堅實的基礎,相關研究被國際知名學術期刊《醫學影像分析》(Medical Image Analysis)、《IEEE醫學影像匯刊》(IEEE Transaction on Medical Imaging)、《柔性機器人技術》(Soft Robotics)、《診療》(Theranostics)等報道。