一种更简洁高效的全模拟神经网络计算设备

作者: aeks | 发布时间: 2025-10-23 17:59 | 更新时间: 2025-10-23 17:59

学科分类: 信息与通信工程 控制科学与工程 电子科学与技术 计算机科学与技术

近年来,人工智能(AI)发展迅速,但大型AI任务(如大语言模型ChatGPT)对算力需求激增,导致巨大能耗。当前主流计算设备(CPU、GPU)基于冯·诺依曼架构,因计算与存储分离存在“冯·诺依曼瓶颈”,能效较低(CPU约1-10吉 FLOPS/瓦,GPU约100吉 FLOPS/瓦)。

人类大脑却展现出极高能效:每秒约10¹⁶次模拟运算,功耗仅20瓦,能效达数百太 AOPS/瓦。受此启发,研究人员开发了类脑神经网络计算硬件,通过突触阵列实现向量-矩阵乘法(VMM),能效可达太 FLOPS/瓦级,远超GPU。但现有类脑硬件与大脑的系统能效仍有较大差距,原因可能有二:一是缺乏大脑的多种数据压缩功能(以降低计算复杂度),二是未像大脑那样完全在模拟域运行(模拟计算无需量化离散,支持更高密度并行处理)。

为此,本研究开发了系统和芯片级的低开销全模拟神经网络计算硬件(FANCH)。其创新点包括:
1. **全模拟计算**:输入信号经压缩预处理后,直接进入模拟突触阵列进行存内计算,结果由模拟处理单元(跨阻放大器TIA、差分电压放大器DFA、全模拟激活函数单元FAFU、电压比较器CMP等)处理,无需任何数模转换或缓冲,避免了传统硬件中ADC/DAC转换的功耗。
2. **输入数据压缩**:采用局部平均滤波等算法压缩数据,将MNIST手写数字图像从28×28压缩至7×7,三层全连接神经网络规模从784×100×10缩减至49×10×10,突触数量减少约135倍,计算复杂度降低约17倍。
3. **软硬件协同训练**:通过调整FAFU的系数K1和K2,优化神经网络权重与模拟激活特性,使FANCH的准确率损失降至预设阈值(0.5%)以下。

硬件测试显示,FANCH在压缩后的MNIST手写数字测试集上准确率达87.64%,仅比软件模拟基准(88%)低0.36%;功耗仅27.3毫瓦,识别速度快至0.6微秒。与基于混合模数或数字域的类脑硬件相比,FANCH能效提升1.54-2.81倍;与主流商用AI加速硬件相比,系统级FANCH_SL能效潜力提升2.1-15.3倍。

该研究为边缘设备提供了高效低资源的全模拟AI计算方案,未来需进一步探索其在大规模神经网络、复杂数据集上的扩展性,以及引入模拟存储技术、先进工艺节点等以提升性能。

DOI: 10.1126/sciadv.adv7555

标签: 全模拟神经网络计算硬件 数据压缩 边缘计算