
【导语】人工智能(AI)与组合优化正引领科学研究与工业应用的飞速发展,但其能耗问题日益凸显,对数字计算的可持续性构成挑战。当前新型计算系统往往局限于单一领域,且频繁的数字转换导致效率低下。微软英国剑桥研究院团队提出的“模拟光学计算机”(AOC),打破了这一局限,实现了AI推理与组合优化任务的高效并行处理,无(wú)需(xū)数(shù)字(zì)转(zhuǎn)换(huàn),展(zhǎn)现(xiàn)出(chū)显(xiǎn)著(zhe)的(de)能(néng)效(xiào)优(yōu)势(shì)。相(xiāng)关研(yán)究(jiū)已(yǐ)发(fā)表(biǎo)于(yú)Nature期(qī)刊(kān),为(wèi)更(gèng)高(gāo)速(sù)、更(gèng)可(kě)持(chí)续(xù)的(de)计(jì)算(suàn)提(tí)供(gōng)了(le)新(xīn)路径。AOC结(jié)合(hé)3D光(guāng)学(xué)与(yǔ)模(mó)拟(nǐ)电(diàn)子(zi)技(jì)术(shù),面(miàn)向(xiàng)机(jī)器(qì)学(xué)习(xí)与(yǔ)优(yōu)化(huà)任(rèn)务(wu),展(zhǎn)现(xiàn)出强大的应用潜力,有望在能效方面实现百倍提升,推动硬件与算法的创新协同发展。

人工智能(AI)和组合优化正在推动科学研究和工业应用的快速发展,但它们日益增长的能耗也对数字计算的可持续性提出了严峻挑战。
同时,目前大多数新型计算系统要么只擅长 AI,要么只擅长优化,而且还需频繁进行高能耗的数字转换,效率受限。另外,在实际应用中,这些系统也常难与硬件高效配合,无论是处理内存受限的神经网络、解决复杂优化问题,还是应对模拟计算噪声,都表现不佳。
如果换一种思路,不再依赖“0”与“1”的切换,而是用光与模拟信号去计算呢?这种不需要频繁转换、不依赖数字逻辑的计算方式,能否打破现有的限制?
基于此,微软英国剑桥研究院团队及其合作者提出了“模拟光学计算机”(Analog Optical Computer,AOC),其在无需数字转换的情况(kuàng)下(xià),能(néng)够(gòu)同(tóng)时(shí)高(gāo)效(xiào)完(wán)成(chéng) AI 推(tuī)理(lǐ)与(yǔ)组(zǔ)合(hé)优(yōu)化(huà)任(rèn)务(wu),并(bìng)具(jù)备(bèi)显(xiǎn)著的扩展潜力与能效优势。
相关研究论文已发表在权威科学期刊 Nature 上。上海交大校友、微软英国剑桥研究院首席研究员褚嘉琦(Jiaqi Chu)为该论文的作者之一。

据介绍,AOC 实现了将模拟电子技术与三维光学技术相结合,使同一平台能够同时加速 AI 推理和组合优化任务。这种“双领域能力”得益于快速的定点搜索方法,无需数字转换,同时也增强抗噪声能力。基于这种定点抽象,AOC 可运行具备递归推理能力的新型计算密集型神经模型,并采用先进的梯度下降方法解决高表现力优化问题。

图|AOC 架构与应用示意图
研究团队表示,AOC 架构基于可扩展的消费级技术构建,为实现更高速、更可持续的计算提供了有前景的路径。其原生支持迭代式、计算密集型模型,为 AI 与优化领域的未来创新提供了可扩展的模拟计算平台。
模拟光学计算机:如何加速AI和优化任务?
AOC 在应用层面主要面向两类任务:机器学习推理任务和组合优化任务。研究团队通过四个典型案例展示了 AOC 在这两类任务中的能力。这项研究也体现了硬件与抽象层协同设计的优势,呼应了数字加速器与深度学习模型共同演进的趋势。
AOC 硬件结合了 3D 光学技术与模拟电子技术,并基于平衡模型实现了两个机器学习推理任务:图像分类与非线性回归。在这两项任务中,模型均通过 AOC-DT 进行数字训练,并直接部署到硬件上,无需进一步校准。这对硬件精度提出了较高要求,同时也要求 AOC-DT 具备较高的保真度。
在图像分类实验中,AOC 的结果证明了采用数字训练并将权重转移至光电模拟推理硬件的可行性。将 AOC 的结果与线性分类器进行比(bǐ)较时,运行在 AOC 上的平衡模型所作出的贡献更加明显。研究人员还训练了一个简单的前馈模型,线性分类器和前馈模型都具有与 AOC 硬件相同数量的参数。尽管 AOC 实现了略高的准确率,但 MNIST 和 Fashion-MNIST 数据集本身较为简单,难以充分展现自递归模型的全部潜力。
**研究表明,AOC 硬件可以运行非线性回归模型。**他们选择两个非线性函数进行回归:高斯曲线和正弦曲线。**硬件准确地重现了这两个函数。**相比高斯曲线,正弦曲线由于存在多个极小值和极大值,对拟合精度提出了更高要求,因此需要更高精度的可微分数字孪生模型(AOC-DT)。此外,AOC 为运行在硬件上的平衡模型提供了支持。

图|AOC 在机器学习推理中的应用
QUMO 代表了一类广泛的组合优化问题,旨在最小化目标函数,QUMO 问题的求解过程即为找到一组使目标函数最小化的变量赋值。研究团队在 AOC 硬件上展示了两个典型的 QUMO 应用场景:医学图像重建与金融交易结算。
他们在 AOC 硬件上实现了压缩感知,这是一种可以用更少的测量实现准确信号重建的技术(shù)。最(zuì)终(zhōng)的(de)图(tú)像(xiàng)重(zhòng)建(jiàn)结(jié)果(guǒ)与(yǔ)原(yuán)始(shǐ)线(xiàn)条(tiáo)高(gāo)度(dù)一(yī)致(zhì)。所(suǒ)有(yǒu) QUMO 实(shí)例(lì)均(jūn)以(yǐ)完(wán)全模(mó)拟(nǐ)方(fāng)式(shì)求(qiú)解(jiě),未(wèi)使(shǐ)用(yòng)任(rèn)何(hé)数(shù)字(zì)后(hòu)处(chù)理(lǐ)。为(wèi)了(le)验(yàn)证(zhèng)压(yā)缩(suō)感(gǎn)知(zhī)在(zài)大(dà)规(guī)模(mó)下(xià)的(de) QUMO 表(biǎo)达(dá)形(xíng)式(shì),研(yán)究(jiū)人(rén)员(yuán)使(shǐ)用(yòng) AOC-DT 从(cóng) FastMRI 数(shù)据(jù)集中(zhōng)重(zhòng)建(jiàn)了(le)一(yī)幅(fú)脑(nǎo)部(bù)扫(sǎo)描(miáo)图(tú)像(xiàng)。这(zhè)一(yī)问(wèn)题(tí)包(bāo)含(hán)超(chāo)过(guò) 200000 个(gè)变(biàn)量(liàng)。在(zài)典(diǎn)型(xíng)的(de) 4 倍(bèi)和(hé) 8 倍(bèi)欠(qiàn)采样(yàng)率(lǜ)下(xià),重(zhòng)建(jiàn)的(de)均(jūn)方(fāng)误(wù)差(chà)(MSE)均(jūn)低(dī)于(yú) 0.07。
在(zài)金(jīn)融(róng)领(lǐng)域的(de)优(yōu)化(huà)任(rèn)务(wu)中(zhōng),他(tā)们(men)使(shǐ)用(yòng) AOC 硬(yìng)件(jiàn)解(jiě)决(jué)了(le)一(yī)个(gè)交(jiāo)易(yì)结(jié)算(suàn)问(wèn)题(tí)。每(měi)一(yī)笔(bǐ)证(zhèng)券(quàn)交(jiāo)易(yì)都(dōu)是(shì)以(yǐ)支(zhī)付(fù)换(huàn)取(qǔ)证(zhèng)券(quàn)的(de)交(jiāo)换(huàn),清(qīng)算(suàn)所(suǒ)会(huì)处(chù)理(lǐ)这(zhè)类(lèi)交易的批次,在每个交易批次中,交易结算的目标是最大化已结算交易的总数或总价值。鉴于交易数量庞大,同时受到法律约束和其他附加要求的限制,这成为一项复杂的优化问题。在该交易结算场景中,AOC 硬件在 7 个块坐标下降法(BCD)步骤(zhòu)内(nèi)找(zhǎo)到(dào)了(le)全局(jú)最优解。相比之下,量子硬件在相同问题上的成功率仅为 40–60%。

图|AOC 在优化中的应用
利用 AOC-DT,研究人员还在 QPLIB 基准测试中最难的具有线性不等式约束的二次二元问题上验证了算法性能,这些问题被表述为 QUMO 实例。AOC 方法与商用求解器 Gurobi 进行了对比,后者在这些问题上通常需要超过一分钟才能达到当前已知的最优解。
这种全模拟操作最大限度地减少了模数转换的开销。
未来潜力:实现100倍能效提升
值得注意的是,现实应用对硬件的扩展能力提出了更高要求。使用 AOC 处理实际任务,需要其硬件能够支持从数亿到数十亿个权重的可扩展性。
研究团队表示,AOC 通过模块化架构具备满足这一需求的潜力,该架构可将核心的光学矩阵–向量乘法运算分解为较小的子向量与子矩阵乘法,从而实现可扩展的内存计算。
研究团队预计,AOC 可支持参数规模在 1 亿至 20 亿之间的模型,对应需要 50 至 1000 个光学模块。如果单个光学模块能够同时处理正负权重,则所需模块数量可减少一半。AOC 所采用的所有组件,包括 microLED、光电探测器、SLM 及模拟电子器件,均已具备持续扩展的制造生态系统,能够支持晶圆级的生产。
AOC 的运(yùn)行(xíng)速(sù)度(dù)和(hé)功(gōng)耗(hào)决(jué)定(dìng)了(le)其(qí)能(néng)效(xiào)。其(qí)速(sù)度(dù)受(shòu)光(guāng)电(diàn)组(zǔ)件(jiàn)带(dài)宽(kuān)限(xiàn)制(zhì),通(tōng)常(cháng)为(wèi) 2 GHz 或(huò)更(gèng)高(gāo)。对于一个 1 亿权重的矩阵,使用 25 个 AOC 模块时,功耗估计为 800 W,可实现 400 Peta-OPS 的计算速度,在 8 位权重精度下的能效为每瓦 500 TOPS。相比之下,最新的 GPU 在相同精度下处理稠密矩阵时,其系统能效最高仅为每瓦 4.5 TOPS。
总之,AOC 架构在扩展到实际的机器学习和优化任务方面展现出良好前景,有望在能效方面实现约 100 倍的提升。
展望未来,AOC 的协同设计方法——将硬件与机器学习和优化算法紧密对齐——有望持续推动硬件与算法的创新飞轮,这对实现可持续计算至关重要。
注意:封面图为版权图库图片,转载使用可能引发版权纠纷。