從“看見”到“看懂”，機器視覺如何開啟新“視”界？

作者：閱讀：254次　發布時間：2025-10-25 20:31:13

【導語】近年來，人工智能浪潮席卷多領域，深度學習更顛覆了機器視覺。機器視覺如何“看”世界？相比人眼，它有何優勢？從20世紀60年代萌芽，到如今AI驅動新時代，機器視覺已在電磁波譜、生活場景、跨學科領域等“大顯身手”，成為人類探索未知的“智慧之眼”。

近年來，人工智能的快速發展讓多個領域發生了重要變化(huà)。作(zuò)為(wèi)人(rén)工智能的核心分支，深度學習的高速發展也對機器視覺產生了顛覆性的影響。

究竟何為機器視覺？機器何以“看見”？相比人眼，機器視覺具有何種優勢？又能在哪些領域發揮重要作用？

機器視覺的“前世今生”

眾所周知，人類借助五種主要感官認識世界，其中獲取信息的80%來自視覺。糖心免费视频之所以能獲取所看到的信息，其實是由物體的反射光照到人眼中，再借助眼中的光感受器將光信號轉化為電信號，然後交給大腦進行處理，從而形成人類視覺。

視覺作為人類最高級別的感知對於人們而言非常重要，而在機器的世界裏，視覺的重要性也不可小覷。所謂機器視覺便是為機器裝上“眼睛”，用傳感器來代替人眼，以電腦來代替人腦，自動處理分析圖像或視頻，使機器能夠“看懂”環境並自主決策的技術。

事實上，機器視覺的出現可追溯至20世紀60年代。1963年，機器視覺領域出現了第一篇博士論文《三維實體的機器感知》，論文的作者為美國麻省理工大學的勞倫斯·吉爾曼·羅伯茨（L. G. Roberts），他利用計算機程序從數字圖像中提取出立方體、楔形體、棱柱體等多麵體的三維結構，並對物體形狀及物體的空間關係進行描述。在這一階段，機器視覺技術隸屬於模式識別領域，主要集中在二維圖像的分析和識別上，最典型的應用包括文件裏的字符識別、工件表麵的處理、分析和解釋等。

1973年，英國神經係統學家與心理學家大衛·馬爾（DavidC.Marr）教授應邀在美國麻省理工大學的AI實驗室領導一個研究小組，建立了一套視覺計算理論，使該領域的研究有了較為明確的體係，極大地推動了機器視覺研究的發展。令人感到惋惜的是，大衛·馬爾教授因為身體原因很早便過世了，在他去世後，他帶領的研究小組根據他在1973-1977年間進行的研究，整理出一本學術著作——《視覺》，這本專著的問世也標誌著計算機視覺（機器視覺）成為一門獨立學科，他也被譽為計算機視覺領域的“開山鼻祖”。

20世紀80年代至今，機器視覺領域飛速發展。硬件性能從早期集成電路計算機發展到GPU等高性能芯片，數據資源從早期少量手寫數字數據到如今的海量圖像數據。同時，機器視覺領域的算法也實現了持續優化，從基於規則的算法發展到基於深度學習的算法，而在應用領域方麵，早期簡單的字符識別已是過去式，如今已能夠實現視覺導航與人機交互。由此可見，機器視覺在近40多年間，在多個方麵都展現出了長足的進步。

伴隨著近些年AI領域的崛起，深度學習在計算機視覺領域出現了嶄新突破，標誌著機器視覺進入了AI驅動的新時代。

複雜的機器視覺係統

與人眼類似，若想使機器擁有獲取並處理信息的能力，也需要一套完整的體係，包括圖像采集係統、視覺信息處理軟件、顯示器、處理器單元、機械控製軟件，以及執行機構。

實際運行過程中，先由圖像采集係統獲取視覺（圖像）信息，類似用照相機拍攝一張照片，然後將圖像傳給視覺信息處理軟件，進行圖像的分析與決策，而這些工作由處理器單元來執行操作，其就像機器的“大腦”，負責視覺算法運行，顯示器則負責呈現視覺算法的運行結果。同樣，也可以將決策結果傳給機械控製軟件，它會根據決策指導運動或操作，隨後交由執行機構根據控製信息完成相應操作。

隨著機器視覺領域的不斷發展，領域內的研究內容也愈加廣泛。機器視覺領域的研究人員常會選取其中部分細分領域進行深入研究，如圖像分類、目標檢測與識別、圖像語義分割、目標跟蹤、立體視覺與三維重建、視頻理解與行為分析、醫學影像分析、三維理解與視覺導航等。

和人類視覺相比，機器視覺擁有超強的信號感知能力和對海量數據的快速分析能力，係統穩定性高且不知疲倦，因而常被應用於不同領域。

在整個電磁波譜“大顯身手”

盡管是一個隻有幾十年發展史的新興學科，機器視覺卻已經在圖像處理領域彰顯出龐大力量。目前，機器視覺係統處理的最主要的數據來源是電磁波譜成像，此外還包括聲波、超聲波等。在整個電磁波譜上，幾乎所有的電磁波都可以成像，因而人們利用不同的傳感器去形成數字圖像數據，再利用圖像處理或機器視覺技術完成工業生產、醫療診斷等科學探索的視覺任務。

在電磁波譜的最左端是波長最短、能量最強的伽馬射線，它的圖像主要應用於核醫學和天文圖像中。醫院裏，人們有時會見到正電子發射計算機斷層顯像設備（PET），其被用於骨骼病變的定位。檢查時，將放射性同位素注射到人體內，這些同位素會發生衰變，同時發出伽馬射線，再利用伽馬射線檢測儀收集放射線產生圖像。如果人體存在病變或腫瘤，該部位吸收的放射性元素就會更多，放射出來的伽馬射線更強，因此會在圖像裏呈現很亮的狀態，醫生就能夠根據圖像亮度的分布進行診斷。

與伽馬射線相鄰的是大家相對熟悉的X射線，其被廣泛應用於醫學、天文、工業圖像等。醫學檢查中的CT——計算機X射線斷層攝影儀器，便是運用了X射線，其穿透人體時，能使人體組織在熒屏上或膠片上形成影像。基於X射線的穿透性、熒光效應和感光效應，以及人體組織之間的密度和厚度的差別，醫生能夠根據圖像的顏色進行診斷。以下圖頭部CT圖像為例，骨骼密度最高，因此吸收的X射線最多，因而在圖像上呈現白色；肌肉和液體密度中等，所以吸收中等強度的X射線而呈現灰色，如大腦組織與眼球；氣體和脂肪密度最低，所以吸收的X射線最少，因而在圖像中顯現為黑色或深灰色。

此外，紫外波段、可見光、紅外波段、微波波段、無線電波段均可被機器視覺係統處理。其中，紫外波段應用於工業檢測、顯微方法、生物成像、天文觀測等；可見光廣泛應用於顯微方法、天文學、遙感、工業檢測等領域；紅外波段廣泛應用於顯微方法、天文學、遙感、工業等領域；微波圖像的典型應用則是星載雷達；無線電波段則主要應用於醫學和天文學，在醫學領域，主要用於核磁共振圖像（MRI），其與CT相比，圖像更為清晰，對於軟組織成像的效果更佳。

身邊的機器視覺

除醫學領域的影像學檢查之外，生活中也處處存在著機器視覺的痕跡。旅遊中拍攝風景照時，人們常會發現照片中的顏色相比肉眼看到的實景更為鮮豔，鮮花綠草更為明豔，灰蒙蒙的天空在照片中呈現出湛藍的美，這些便是機器視覺中的圖像增強技術在默默助力。

駕駛車輛進入停車場時，入口處常能快速進行車牌自動識別，進而準確掌握車輛進場時間，這一目標的實現也依賴於機器視覺。為實現車牌號碼的精準識別，先由相機拍攝車輛照片再對車牌位置進行定位，隨後對字符進行分割，比對樣本庫，從而對每個字符進行識別，最後便能準確輸出結果。

識別景與物之餘，機器視覺對於人臉識別的應用更是司空見慣。在火車進站、身份認證、人臉支付等領域已實現了諸多應用。目前，人臉識別係統主要分為兩類技術路線，其一是二維人臉識別，即通過相機拍攝一幅可見光的二維照片，在圖片上進行一些特征點的定位和提取，然後在數據庫中進行比對，進而輸出最相似的麵容對應的姓名。這種方式的優勢在於可以直接使用普通攝像頭，成本較低，但比較容易被照片或視頻“欺騙”。

另一種是三維人臉識別，需要使用三維結構光相機，其中的紅外發射器能夠投影出一些規則圖案的點陣，再將其投影在人的臉部，而紅外相機則對投影之後的人臉進行拍攝，進而得到點陣的圖案。由於人臉凹凸不平，所以原本設計規則的點陣在拍攝之後會發生形變，通過比較前後兩個圖案的變形情況，便可得到人臉的三維模型，從而在後端的數據庫進行模型比對並輸出結果。相比二維人臉識別，這種識別方式準確度更高。

近來關注度較高的“文本生成圖像”也與(yǔ)機(jī)器(qì)視覺密不可分。作為一個高度融合的跨學科領域，其被稱為“生成式視覺”或“視覺內容生成”。“生成式視覺”旨在生成、編輯、增強圖像，利用自然語言處理（NLP）技術理解文本提示詞的含義，屬於計算機視覺與NLP的學科交叉。

此外，交通領域的自動駕駛與輔助駕駛，航天遙感領域的地球人造衛星、氣象觀測、植被覆蓋率監測、城市規劃分析、地物變化監測、地震救援、數字地球，深空探測領域的探月工程等，都離不開機器視覺的“鼎力支持”。

近些年，人工智能領域飛速發展，將機器視覺從一個解決特定問題的“工具箱”，轉變為一個具備強大“自動學習能力”的、能夠解決通用問題的“智能平台”，不僅極大地提升了機器視覺的性能上限，也拓展了機器視覺的能力和應用邊界，讓人們深刻體會到科技不是冰冷的代碼，而是人類探索未知的“眼睛”。

撰文：記者廖邁倫

采訪專家：袁丁，北京航空航天大學宇航學院教授

本文封麵圖片來自版權圖庫，轉載使用可能引發版權糾紛

【官網首頁】【返回列表】

上一篇：浙裏科技前研⑥ | 壓縮時空，“一眼千年”不是夢

下一篇：量子計算機是怎樣“攢”出來的？

糖心免费视频,糖心APP官网进入,糖心APP污视频,成人糖心VLOG视频

🆔-AI智慧體育與城市空間數字化解決方案服務商