Nature：模擬光學計算機，讓AI推理能效提升百倍？

作者：閱讀：303次　發布時間：2025-09-04 14:01:28

【導語】人工智能（AI）與組合優化正引領科學研究與工業應用的飛速發展，但其能耗問題日益凸顯，對數字計算的可持續性構成挑戰。當前新型計算係統往往局限於單一領域，且頻繁的數字轉換導致效率低下。微軟英國劍橋研究院團隊提出的“模擬光學計算機”（AOC），打破了這一局限，實現了AI推理與組合優化任務的高效並行處理，無(wú)需(xū)數(shù)字(zì)轉(zhuǎn)換(huàn)，展(zhǎn)現(xiàn)出(chū)顯(xiǎn)著(zhe)的(de)能(néng)效(xiào)優(yōu)勢(shì)。相(xiāng)關研(yán)究(jiū)已(yǐ)發(fā)表(biǎo)於(yú)Nature期(qī)刊(kān)，為(wèi)更(gèng)高(gāo)速(sù)、更(gèng)可(kě)持(chí)續(xù)的(de)計(jì)算(suàn)提(tí)供(gōng)了(le)新(xīn)路徑。AOC結(jié)合(hé)3D光(guāng)學(xué)與(yǔ)模(mó)擬(nǐ)電(diàn)子(zi)技(jì)術(shù)，麵(miàn)向(xiàng)機(jī)器(qì)學(xué)習(xí)與(yǔ)優(yōu)化(huà)任(rèn)務(wu)，展(zhǎn)現(xiàn)出強大的應用潛力，有望在能效方麵實現百倍提升，推動硬件與算法的創新協同發展。

人工智能（AI）和組合優化正在推動科學研究和工業應用的快速發展，但它們日益增長的能耗也對數字計算的可持續性提出了嚴峻挑戰。

同時，目前大多數新型計算係統要麽隻擅長 AI，要麽隻擅長優化，而且還需頻繁進行高能耗的數字轉換，效率受限。另外，在實際應用中，這些係統也常難與硬件高效配合，無論是處理內存受限的神經網絡、解決複雜優化問題，還是應對模擬計算噪聲，都表現不佳。

如果換一種思路，不再依賴“0”與“1”的切換，而是用光與模擬信號去計算呢？這種不需要頻繁轉換、不依賴數字邏輯的計算方式，能否打破現有的限製？

基於此，微軟英國劍橋研究院團隊及其合作者提出了“模擬光學計算機”（Analog Optical Computer，AOC），其在無需數字轉換的情況(kuàng)下(xià)，能(néng)夠(gòu)同(tóng)時(shí)高(gāo)效(xiào)完(wán)成(chéng) AI 推(tuī)理(lǐ)與(yǔ)組(zǔ)合(hé)優(yōu)化(huà)任(rèn)務(wu)，並(bìng)具(jù)備(bèi)顯(xiǎn)著的擴展潛力與能效優勢。

相關研究論文已發表在權威科學期刊 Nature 上。上海交大校友、微軟英國劍橋研究院首席研究員褚嘉琦（Jiaqi Chu）為該論文的作者之一。

據介紹，AOC 實現了將模擬電子技術與三維光學技術相結合，使同一平台能夠同時加速 AI 推理和組合優化任務。這種“雙領域能力”得益於快速的定點搜索方法，無需數字轉換，同時也增強抗噪聲能力。基於這種定點抽象，AOC 可運行具備遞歸推理能力的新型計算密集型神經模型，並采用先進的梯度下降方法解決高表現力優化問題。

圖｜AOC 架構與應用示意圖

研究團隊表示，AOC 架構基於可擴展的消費級技術構建，為實現更高速、更可持續的計算提供了有前景的路徑。其原生支持迭代式、計算密集型模型，為 AI 與優化領域的未來創新提供了可擴展的模擬計算平台。

模擬光學計算機：如何加速AI和優化任務？

AOC 在應用層麵主要麵向兩類任務：機器學習推理任務和組合優化任務。研究團隊通過四個典型案例展示了 AOC 在這兩類任務中的能力。這項研究也體現了硬件與抽象層協同設計的優勢，呼應了數字加速器與深度學習模型共同演進的趨勢。

AOC 硬件結合了 3D 光學技術與模擬電子技術，並基於平衡模型實現了兩個機器學習推理任務：圖像分類與非線性回歸。在這兩項任務中，模型均通過 AOC-DT 進行數字訓練，並直接部署到硬件上，無需進一步校準。這對硬件精度提出了較高要求，同時也要求 AOC-DT 具備較高的保真度。

在圖像分類實驗中，AOC 的結果證明了采用數字訓練並將權重轉移至光電模擬推理硬件的可行性。將 AOC 的結果與線性分類器進行比(bǐ)較時，運行在 AOC 上的平衡模型所作出的貢獻更加明顯。研究人員還訓練了一個簡單的前饋模型，線性分類器和前饋模型都具有與 AOC 硬件相同數量的參數。盡管 AOC 實現了略高的準確率，但 MNIST 和 Fashion-MNIST 數據集本身較為簡單，難以充分展現自遞歸模型的全部潛力。

**研究表明，AOC 硬件可以運行非線性回歸模型。**他們選擇兩個非線性函數進行回歸：高斯曲線和正弦曲線。**硬件準確地重現了這兩個函數。**相比高斯曲線，正弦曲線由於存在多個極小值和極大值，對擬合精度提出了更高要求，因此需要更高精度的可微分數字孿生模型（AOC-DT）。此外，AOC 為運行在硬件上的平衡模型提供了支持。

圖｜AOC 在機器學習推理中的應用

QUMO 代表了一類廣泛的組合優化問題，旨在最小化目標函數，QUMO 問題的求解過程即為找到一組使目標函數最小化的變量賦值。研究團隊在 AOC 硬件上展示了兩個典型的 QUMO 應用場景：醫學圖像重建與金融交易結算。

他們在 AOC 硬件上實現了壓縮感知，這是一種可以用更少的測量實現準確信號重建的技術(shù)。最(zuì)終(zhōng)的(de)圖(tú)像(xiàng)重(zhòng)建(jiàn)結(jié)果(guǒ)與(yǔ)原(yuán)始(shǐ)線(xiàn)條(tiáo)高(gāo)度(dù)一(yī)致(zhì)。所(suǒ)有(yǒu) QUMO 實(shí)例(lì)均(jūn)以(yǐ)完(wán)全模(mó)擬(nǐ)方(fāng)式(shì)求(qiú)解(jiě)，未(wèi)使(shǐ)用(yòng)任(rèn)何(hé)數(shù)字(zì)後(hòu)處(chù)理(lǐ)。為(wèi)了(le)驗(yàn)證(zhèng)壓(yā)縮(suō)感(gǎn)知(zhī)在(zài)大(dà)規(guī)模(mó)下(xià)的(de) QUMO 表(biǎo)達(dá)形(xíng)式(shì)，研(yán)究(jiū)人(rén)員(yuán)使(shǐ)用(yòng) AOC-DT 從(cóng) FastMRI 數(shù)據(jù)集中(zhōng)重(zhòng)建(jiàn)了(le)一(yī)幅(fú)腦(nǎo)部(bù)掃(sǎo)描(miáo)圖(tú)像(xiàng)。這(zhè)一(yī)問(wèn)題(tí)包(bāo)含(hán)超(chāo)過(guò) 200000 個(gè)變(biàn)量(liàng)。在(zài)典(diǎn)型(xíng)的(de) 4 倍(bèi)和(hé) 8 倍(bèi)欠(qiàn)采樣(yàng)率(lǜ)下(xià)，重(zhòng)建(jiàn)的(de)均(jūn)方(fāng)誤(wù)差(chà)（MSE）均(jūn)低(dī)於(yú) 0.07。

在(zài)金(jīn)融(róng)領(lǐng)域的(de)優(yōu)化(huà)任(rèn)務(wu)中(zhōng)，他(tā)們(men)使(shǐ)用(yòng) AOC 硬(yìng)件(jiàn)解(jiě)決(jué)了(le)一(yī)個(gè)交(jiāo)易(yì)結(jié)算(suàn)問(wèn)題(tí)。每(měi)一(yī)筆(bǐ)證(zhèng)券(quàn)交(jiāo)易(yì)都(dōu)是(shì)以(yǐ)支(zhī)付(fù)換(huàn)取(qǔ)證(zhèng)券(quàn)的(de)交(jiāo)換(huàn)，清(qīng)算(suàn)所(suǒ)會(huì)處(chù)理(lǐ)這(zhè)類(lèi)交易的批次，在每個交易批次中，交易結算的目標是最大化已結算交易的總數或總價值。鑒於交易數量龐大，同時受到法律約束和其他附加要求的限製，這成為一項複雜的優化問題。在該交易結算場景中，AOC 硬件在 7 個塊坐標下降法（BCD）步驟(zhòu)內(nèi)找(zhǎo)到(dào)了(le)全局(jú)最優解。相比之下，量子硬件在相同問題上的成功率僅為 40–60%。

圖｜AOC 在優化中的應用

利用 AOC-DT，研究人員還在 QPLIB 基準測試中最難的具有線性不等式約束的二次二元問題上驗證了算法性能，這些問題被表述為 QUMO 實例。AOC 方法與商用求解器 Gurobi 進行了對比，後者在這些問題上通常需要超過一分鍾才能達到當前已知的最優解。

這種全模擬操作最大限度地減少了模數轉換的開銷。

未來潛力：實現100倍能效提升

值得注意的是，現實應用對硬件的擴展能力提出了更高要求。使用 AOC 處理實際任務，需要其硬件能夠支持從數億到數十億個權重的可擴展性。

研究團隊表示，AOC 通過模塊化架構具備滿足這一需求的潛力，該架構可將核心的光學矩陣–向量乘法運算分解為較小的子向量與子矩陣乘法，從而實現可擴展的內存計算。

研究團隊預計，AOC 可支持參數規模在 1 億至 20 億之間的模型，對應需要 50 至 1000 個光學模塊。如果單個光學模塊能夠同時處理正負權重，則所需模塊數量可減少一半。AOC 所采用的所有組件，包括 microLED、光電探測器、SLM 及模擬電子器件，均已具備持續擴展的製造生態係統，能夠支持晶圓級的生產。

AOC 的運(yùn)行(xíng)速(sù)度(dù)和(hé)功(gōng)耗(hào)決(jué)定(dìng)了(le)其(qí)能(néng)效(xiào)。其(qí)速(sù)度(dù)受(shòu)光(guāng)電(diàn)組(zǔ)件(jiàn)帶(dài)寬(kuān)限(xiàn)製(zhì)，通(tōng)常(cháng)為(wèi) 2 GHz 或(huò)更(gèng)高(gāo)。對於一個 1 億權重的矩陣，使用 25 個 AOC 模塊時，功耗估計為 800 W，可實現 400 Peta-OPS 的計算速度，在 8 位權重精度下的能效為每瓦 500 TOPS。相比之下，最新的 GPU 在相同精度下處理稠密矩陣時，其係統能效最高僅為每瓦 4.5 TOPS。

總之，AOC 架構在擴展到實際的機器學習和優化任務方麵展現出良好前景，有望在能效方麵實現約 100 倍的提升。

展望未來，AOC 的協同設計方法——將硬件與機器學習和優化算法緊密對齊——有望持續推動硬件與算法的創新飛輪，這對實現可持續計算至關重要。

注意：封麵圖為版權圖庫圖片，轉載使用可能引發版權糾紛。

【官網首頁】【返回列表】

上一篇：Nature重磅：AI進入「光學」時代，首次畫出彩色梵高

下一篇：全球首款“夜視眼”問世，中國新型視覺假體，或將拓展人類視覺極限

糖心免费视频,糖心APP官网进入,糖心APP污视频,成人糖心VLOG视频

🆔-AI智慧體育與城市空間數字化解決方案服務商