芯片设计大大降低了光计算所需的能量

麻省理工学院的研究人员已经开发出一种新型的“光子”芯片,这种芯片使用光而不是电,在这个过程中消耗的能量相对较少。这种芯片可以被用来处理大规模的神经网络,其效率是当今经典计算机的数百万倍。

神经网络是机器学习模型,广泛用于机器人目标识别、自然语言处理、药物开发、医学成像和驱动无人驾驶汽车等任务。利用光学现象加速计算的新型光神经网络,其运行速度和效率都比电子神经网络快得多。 

但是随着传统的和光神经网络变得越来越复杂,它们消耗了大量的能量。为了解决这个问题,研究人员和包括谷歌、IBM和特斯拉在内的主要科技公司开发了“人工智能加速器”,这是一种专门的芯片,可以提高训练和测试神经网络的速度和效率。

对于电子芯片,包括大多数人工智能加速器,有一个理论上的最低能耗限制。最近,麻省理工学院的研究人员开始为光学神经网络开发光子加速器。这些芯片的效率提高了几个数量级,但它们依赖于一些体积庞大的光学元件,这些元件将它们的使用限制在相对较小的神经网络上。

在发表于《物理评论X》的一篇论文中,麻省理工学院的研究人员描述了一种新的光子加速器,它使用了更紧凑的光学元件和光学信号处理技术,以大幅降低功耗和芯片面积。这使得该芯片可以扩展到比同类芯片大几个数量级的神经网络。

在MNIST图像分类数据集上对神经网络进行仿真训练表明,该加速器理论上可以处理的神经网络比传统的基于电子的加速器的能量消耗限制低1000多万倍,比光子加速器的能量消耗限制低1000多万倍。研究人员目前正在研制一种原型芯片,以实验证明这些结果。

电子研究实验室的博士后Ryan Hamerly说:“人们正在寻找一种技术,这种技术可以在能源消耗的基本限制之外进行计算。”“光子加速器很有前途……但我们的动机是建立一个(光子加速器),可以扩展到大型神经网络。”

这些技术的实际应用包括减少数据中心的能源消耗。“对运行大型神经网络的数据中心的需求越来越大,随着需求的增长,这在计算上变得越来越棘手,”合著者之一、电子研究实验室的研究生亚历山大•斯鲁德斯(Alexander Sludds)表示。其目标是“用神经网络硬件满足计算需求……解决能源消耗和延迟的瓶颈。”

加入Sludds和Hamerly论文的有:合著者Liane Bernstein, RLE研究生;麻省理工学院物理学教授Marin Soljacic;麻省理工学院电子工程与计算机科学副教授、RLE研究员、量子光子学实验室主任德克·英格伦(Dirk Englund)。 

紧凑的设计

神经网络通过许多计算层处理数据,这些计算层包含相互连接的节点,称为“神经元”,以发现数据中的模式。神经元接收来自上游邻居的输入,并计算一个输出信号,该信号被发送到下游更远的神经元。每个输入还被分配一个“权重”,一个基于其相对于所有其他输入的重要性的值。随着数据通过层“更深入”地传播,网络学习到的信息也越来越复杂。最后,输出层根据各个层的计算生成预测。

所有人工智能加速器的目标都是在神经网络中称为“矩阵乘法”的特定线性代数步骤中,减少处理和移动数据所需的能量。在那里,神经元和权重被编码成单独的行和列表,然后结合起来计算输出。

在传统的光子加速器中,用一层中每个神经元的信息编码的脉冲激光器流入波导并通过分束器。由此产生的光学信号被输入一个正方形光学元件网格,称为“马赫-曾德尔干涉仪”,该干涉仪被编程来执行矩阵乘法。干涉仪,编码了关于每个重量的信息,使用信号干扰技术处理光学信号和重量值,计算每个神经元的输出。但有一个缩放问题:每个神经元必须有一个波导,每个重量必须有一个干涉仪。因为权值的数量与神经元的数量成平方,这些干涉仪占用了大量的空间。

哈默利说:“你很快就会意识到,输入神经元的数量不可能超过100个左右,因为你无法在芯片上安装那么多组件。”“如果你的光子加速器每层不能处理超过100个神经元,那就很难将大型神经网络应用到这个结构中。”

研究人员的芯片依赖于一种更紧凑、更节能的“光电”方案,该方案用光学信号编码数据,但在矩阵乘法中使用“平衡零差检测”。这是一种通过计算两个光学信号的振幅(波高)的乘积来产生可测量电信号的技术。

由每个神经网络层的输入和输出神经元信息编码的光脉冲——这是训练网络所必需的——通过一个通道流动。用矩阵乘法表中整行权值信息编码的单独脉冲通过单独的通道流动。携带神经元和权重数据的光学信号被扇出到零差光探测器的网格中。光电探测器利用信号的振幅来计算每个神经元的输出值。每个检测器将每个神经元的电输出信号输入调制器,调制器将信号转换回光脉冲。光信号成为下一层的输入,以此类推。

该设计要求每个输入和输出神经元只需要一个通道,并且只有神经元数量的零差光探测器,而不是权值。由于神经元的数量总是远远少于重量,这节省了大量空间,因此芯片能够扩展到每层有100多万个神经元的神经网络。

找到最佳位置

对于光子加速器,信号中不可避免地存在噪声。输入芯片的光越多,噪音就越小,精度也就越高——但这是非常低效的。输入光越少,效率越高,但对神经网络的性能有负面影响。但是伯恩斯坦说,有一个“最佳点”,在保持精度的同时使用最小的光功率。

人工智能加速器的最佳加速点是通过计算一次乘两个数字的操作需要多少焦耳来衡量的,比如在矩阵乘法期间。目前,传统的加速器的测量单位是皮焦耳,或者1万亿分之一焦耳。光子加速器的测量单位是阿特焦耳,它的效率要高出一百万倍。

在他们的模拟中,研究人员发现他们的光子加速器可以以亚阿托焦耳效率工作。“在失去精度之前,你可以输入一些最小的光功率。我们芯片的基本极限比传统加速器低得多……也比其他光子加速器低得多,”伯恩斯坦说。

新闻旨在传播有益信息,英文原版地址:http://news.mit.edu/2019/ai-chip-light-computing-faster-0605

http://petbyus.com/1762/