Nature重磅：AI進入「光學」時代，首次畫出彩色梵高

作者：閱讀：301次　發布時間：2025-09-04 09:31:47

【導語】快速、節能地實現生成式AI的可擴展推理是當前行業的重大挑戰。近期，加州大學洛杉磯分校的研究團隊在Nature期刊上發表了一項突破性成果——將“光”引入AIGC領域，成功實現了基於係統硬件物理定律的全新圖像光學(xué)生(shēng)成(chéng)。這(zhè)一(yī)光(guāng)學(xué)生(shēng)成(chéng)式(shì)模(mó)型(xíng)不(bù)僅(jǐn)性(xìng)能(néng)媲(pì)美(měi)數(shù)字(zì)神(shén)經(jīng)網(wǎng)絡(luò)模(mó)型(xíng)，還(hái)有(yǒu)望(wàng)為(wèi)節(jié)能(néng)且可擴展的推理任務開辟新路徑，進一步挖掘光學與光子學在AIGC領域的潛力。該研究成果引發了廣泛關注，為AI行業的發展帶來了新的機遇。

快速、節能地實現生成式 AI 的可擴展推理，是當前 AI 行業麵臨的最緊迫挑戰之一。

今天，AI 行業發展更進一步，將“光”引(yǐn)入 AIGC 領域，完全基於係統硬件物理定律，首次實現了具備特定特征的全新（未見過的）圖像生成。

來自加州大學洛杉磯分校的研究團隊成功實現了手寫數字、時尚糖心APP官网进入、蝴蝶、人臉及藝術品（如梵高風格）的單色與多色圖像光學生成，且整體性能媲美基於數字(zì)神經網絡的生成式模型。

相關研究論文以“Optical generative models”為題，已發表在權威科學期刊 Nature 上。

論文鏈接：

http://www.nature.com/articles/s41586-025-09446-5

研究團隊表示，這一光學(xué)生成式模型有望為節能且可擴展的推理任務開辟新路徑，進一步挖掘光學與光子學在 AIGC 領域的潛力。同時，這種光學係統與機器學習方法的融合，有望應用於增強現實（AR）和虛擬現實（VR）領域。

在一篇同期發表的新聞與觀點文章中，法國國家科學研究中心 FEMTO‑ST 研究所研究員 Daniel Brunner 認為，這項成果具有重要的技術與科學意義，是邁向利用非常規物理係統構建生成式計算模型的重要一步。

文章鏈接：

http://www.nature.com/articles/d41586-025-02523-9

在 Brunner 看來，由於光子處理信息具有天然優勢，如可以同時處理整個三維體積中的數據，“光學生成式模型也有望具備生成三維圖像的潛力”。

Brunner 表示，要使未來的光學生成式模型更強、更靈活，可能還需要構建“同時采用光學編碼器與光學解碼器的模型”，並嚐試構建多層解碼係統，運用更複雜的光學現象。

然而，正如 Brunner 所言，這項研究的“未來價值取決於能否實現完全落地”，但任重而道遠。

“理想情況下需借助可擴展的集成電路技術，同時避免當前數字硬件編碼所需耗時耗能的數據預處理環節。即便在電子學、光學物理計算及兩者融合領域曆經數十(shí)年(nián)研(yán)究(jiū)後(hòu)，這(zhè)仍(réng)將(jiāng)是(shì)一(yī)項(xiàng)極(jí)具(jù)挑(tiāo)戰(zhàn)性(xìng)的(de)任(rèn)務。”

光學生成式模型：讓光“動手畫畫”

近年來，生成式數字模型已經發展到能夠合成多樣化的高質量圖像、類人的自然語言、全新的音樂作品(pǐn)，甚(shén)至(zhì)設(shè)計(jì)出(chū)全新(xīn)的(de)蛋(dàn)白(bái)質(zhì)。這(zhè)些(xiē)新(xīn)興(xìng)的(de)生(shēng)成(chéng)式(shì) AI 技(jì)術(shù)在(zài)包(bāo)括(kuò)大(dà)語(yǔ)言(yán)模(mó)型(xíng)（LLM）、具(jù)身(shēn)智(zhì)能(néng)以(yǐ)及(jí) AIGC 等(děng)應(yīng)用(yòng)中(zhōng)發(fā)揮(huī)著重要作用。

然而，隨著生成式模型的成功應用，其規模也迅速擴大，對電力、內存資源的消耗日益加重，同時推理時間也顯著增長。其可擴展性和碳足跡，正成為日益關注的問題。

盡管已有多種方法試圖降低模型規模與能耗，並提升推理速度，但依然迫切需要新的路徑，來構建高能效、可擴展的生成式 AI 模型。

在此背景下，研究團隊提出了一種受擴散模型啟發的光學生成式模型，其編碼器為傳統數字實現，而解碼器則由光學元件構成。

在這一架構中，一個淺層、快速的數字編碼器首先將隨機噪聲映射為相位圖案，這些圖案作為目標數據分布的光學生成種子。隨後，一個聯合訓練的、基於自由空間傳播的可重構解碼器對這些種子進行全光學處理，從而生成前所未見的圖像，並遵循預期的數據分布。

值得注意的是，除了淺層編碼器階段用於產生照明功率與隨機種子，該光學生成式模型在圖像生成的過程中幾乎不消耗任何計算資源。

圖｜光學生成式模型示意圖。

研究團隊提出了兩種圖像光學生成路徑：快照式和迭代式。

在快照光學生成式模型中，每幅圖像或輸出數據的快照光學生成，可在需要時通過隨機訪問這些預先計算的光學生成種子之一來實現。所需圖像合成完全依賴光在自由空間中的傳播過程，並由一個優化後的、固定狀態的衍射解碼(mǎ)器(qì)完(wán)成(chéng)。

圖(tú)片(piàn)

圖(tú)｜快(kuài)照(zhào)光(guāng)學(xué)生(shēng)成(chéng)式(shì)模(mó)型(xíng)

迭(dié)代(dài)光(guāng)學(xué)生(shēng)成(chéng)式(shì)模(mó)型(xíng)則(zé)在(zài)每(měi)一(yī)個(gè)時(shí)間(jiān)步(bù)，前(qián)一(yī)步(bù)生(shēng)成(chéng)的(de)帶(dài)噪聲圖像被輸入光學係統。經過波的傳播後，多色信息被記錄下來，用於提供給下一次光學迭代，同時加入一些預設的噪聲。在最後一個時間步，圖像傳感器陣列記錄輸出強度以完成最終圖像生成。當模型完成訓練後，在盲推理階段，迭代光學生成式模型會逐步從高斯噪聲分布重建目標數據分布。

圖｜迭代光學生成式模型

此外，研究團隊還展示了如何通過在空間光調製器（SLM）上直接實現從強度到相位的轉換，並結合在圖像傳感器平麵上的光電轉換。他們能夠利用迭代光學生成式模型實現複雜的域映射——盡管其性能和圖像多樣性相比使用數字編碼器的迭代光學生(shēng)成(chéng)式(shì)模(mó)型有所降低。

光真“畫”出了數字和梵高

為了展示快照式和多色光學生成式模型，研究人員搭建了一個基於自由空間、工作於可見光波段的硬件係統。波長為 520 nm 的激光被準直後，用以均勻照射 SLM。SLM 顯示的是由淺層數字編碼器處理並預先計算得到的相位圖案，也就是光學生成種子。

這些編碼後的相位圖案通過分束器後調製光場，接著被另一塊 SLM 處理，該 SLM 作為固定或靜態的解碼器使用。對於每一個光學生成式模型而言，優化後的解碼器表麵狀態是固定的，而同一套光學架構可通過切換狀態，生成符合不同目標分布的圖像。在快照式光學生成式模型的輸出端，生成圖像的光強信息由圖像傳感器捕獲。

根據所訓練的數據集，該光學生成式模型能夠輸出梵高風格的人物、建築或植物圖像，也可以生成 0 到 9 的手寫數字圖像，或是時尚配飾的圖像。其中，數字(zì)和(hé)配(pèi)飾(shì)圖(tú)像(xiàng)為(wèi)黑(hēi)白(bái)圖(tú)像，而梵高風格的圖像則為彩色圖像。通過一個純粹基於硬件物理規律實現的機器學習模型，直接生成具有特定特征的全新圖像，此前尚未實現。

圖｜多色光學生成式模型的數值和實驗結果，用於創作絢麗的梵高風格藝術作品。與(yǔ)采用 1000 步迭代的教師數字擴散模型對比。

當向模型輸入隨機種子時，雖然生成的圖像各不相同，但仍屬於與訓練數據相同的類別。例如，使用梵高風格肖像作為訓練數據的模型，會輸出一係列具(jù)有(yǒu)梵(fàn)高(gāo)畫(huà)風(fēng)的(de)人(rén)物(wù)圖(tú)像(xiàng)，而(ér)不(bù)同(tóng)的(de)隨(suí)機(jī)種(zhǒng)子(zi)可(kě)以(yǐ)生(shēng)成(chéng)戴(dài)帽(mào)子(zi)或(huò)不(bù)戴(dài)帽(mào)子(zi)的(de)人(rén)物(wù)形(xíng)象(xiàng)。

研(yán)究(jiū)人(rén)員(yuán)將(jiāng)他(tā)們(men)的(de)實(shí)驗(yàn)結(jié)果(guǒ)與實驗模擬結果及完全數字化的生成模型進行了比較。他們發現，輸入相同的隨機種子，這些模型所生成圖像的質量與光學生成式模型基本相當。

光學生成，充滿新機遇

研究團隊通過衍射網絡架構，從噪聲圖案中演示了快照式光學圖像生成。他們的框架能夠從噪聲中光學生成多樣化圖像，展現出一種高度理想的“創造性”快照圖像生成能力，超越了以往研究的範圍。

此外，在不更改架構或物理硬件的前提下，僅通過將衍射解碼器重新配置為新的優化狀態，就能實現適應不同數據分布的光學生成。這種光學生成式模型的靈活性，對於邊緣計算、增強現實、虛擬現實顯示等領域具有重要意義，也適用於各類娛樂相關應用。

研究結果還表明，在教師擴散概率模型（DDPM）的引導下，可以對目標分布的知識進行蒸餾。通過模擬擴散過程，迭代光學生成式模型(xíng)能(néng)夠(gòu)以(yǐ)自(zì)監督方式學習目標分布，避免模式崩塌，並生成比原始數據集更加多樣的結果。迭代式光學生成式模型還具有去除數字編碼器的潛力，可根據不同數據分布生成多樣化輸出。

當然，光學生成式模型仍麵臨一些普遍性挑戰。其中之一是光學硬件或係統配置中可能出現的錯位和物理缺陷；另一個挑戰在於光調製器設備或其表麵可實現的相位位深有限，而這些器件用於物理呈現生成的光學生成種子及解碼層。

為應對這些挑戰，可以在訓練過程中直接引入相關限製條件，使數值優化係統更好地符合物理限製與本地硬件的性能條件。這一策略相較於忽略位深限製的訓練方法，在性能上實現了明顯提升。

該分析中的一個關鍵發現是，僅需使用三個離散相位水平的相對簡單解碼器表麵，就已足以完成圖像生成。這為用被動的、薄層表麵替代解碼器帶來了可能。

基於該方法，還可以設計空間或光譜複用的光學生成式模型。光學生成式模型還可實現三維圖像的體積生成，為增強現實、虛擬現實和娛樂等應用帶來新機遇。

整理：小羊

【官網首頁】【返回列表】

上一篇：爆火的“思維鏈”竟是一個“海市蜃樓”？三大證據實錘→

下一篇：Nature：模擬光學計算機，讓AI推理能效提升百倍？

糖心免费视频,糖心APP官网进入,糖心APP污视频,成人糖心VLOG视频

🆔-AI智慧體育與城市空間數字化解決方案服務商