忆阻器_忆阻器的应用
深度学习的飞速发展带来了巨大的算力需求,然而基于存算分离的“冯·诺依曼架构”的传统硅基芯片面临着“存储墙”等问题,芯片算力增长逐渐陷入瓶颈。为了解决这个矛盾,研究人员从生物大脑的工作模式得到启发,提出了基于忆阻器的存算一体架构。
深度学习的飞速发展带来了巨大的算力需求,然而基于存算分离的“冯·诺依曼架构”的传统硅基芯片面临着“存储墙”等问题,芯片算力增长逐渐陷入瓶颈为了解决这个矛盾,研究人员从生物大脑的工作模式得到启发,提出了基于忆阻器的存算一体架构。
这种全新的架构在处理神经网络等任务时在能效和速度上较“冯·诺依曼架构”有望实现几个数量级的提升,是实现超低功耗、超高算力计算芯片的最有潜力的技术路线之一本文综述了各种类型忆阻器的工作机理与最新进展,对比了国内外研究团队的器件研究进展;综述了基于忆阻器的存算一体芯片在神经网络、信号处理和机器学习等方向的应用演示的研究进展;总结了基于忆阻器的存算一体芯片目前面临的挑战,并提出中国在该领域进一步发展的建议。
自20世纪中叶,受大脑神经元结构与特性启发,研究人员先后提出了人工神经网络(artificial neural network,ANN)和脉冲神经网络(spiking neural network,SNN)等多种算法。
近10年来,深度学习(deep learning,DL)的相关研究成果出现了爆炸式增长,实际应用也逐步落地,已经彻底改变了人类的日常生活与此同时,深度学习的迅速发展也给芯片带来巨大的算力需求,这种需求平均每3~4个月就会翻一番,远远超过了摩尔定律的发展速度。
更具挑战的是,近年来芯片算力增长正逐渐陷入瓶颈,算力的需求与芯片所能提供的算力之间出现了尖锐的矛盾芯片算力增长逐渐变缓主要有以下几个原因:在器件角度,漏电流的影响使得晶体管尺寸微缩变得愈发困难;在制造角度,由于逐渐逼近物理极限,先进制程芯片生产的成本越来越难以控制。
这使得单位面积晶体管密度增长放缓此外,在架构角度,目前芯片多采用存算分离的“冯·诺依曼架构”,这使得在执行以大数据为核心的计算任务时,数据会在计算单元和存储单元之间来回搬移,由此导致了一些“冯·诺依曼瓶颈”问题:首先,访问存储单元的速度远低于计算单元的运算速度,并且差距正在越来越大,即存在“存储墙”问题;其次,目前计算机体系中的存储器通常具有由不同存储介质组成的层级结构,存储容量越大的层级访问延时也大,这就导致了数据跨层级传输时存在巨大的时间损耗。
对比目前各种计算芯片动辄成百上千瓦的功耗,人类大脑只需要约20W就可以实现灵活高性能的计算,这启发人们重新关注大脑的结构与特性与计算机传统的冯·诺依曼架构中存算分离的模式不同,实际生物大脑中的神经元既参与计算又参与存储,不存在上述的各种存算分离局限,受此启发,研究人员设计出了存算一体架构。
这种全新的架构在处理特定任务时可以在能效和速度上较“冯·诺依曼架构”实现几个数量级的提升,是实现超低功耗、超高算力计算芯片的最具潜力的路径之一存算一体架构需要一种既可以作为计算单元又可以作为存储单元的器件,忆阻器的特性刚好与之契合。
忆阻器是基于器件阻值来存储信息的,并且其电阻可以通过外加的激励实现连续、可逆的调节,在去掉激励后仍可以保持当前电阻状态,这种特性与生物神经元突触非常相似,因此忆阻器也被称为“电子突触器件”忆阻器的阵列集成通常以交叉阵列(crossbar)的形式实现,如果将矩阵中的元素一一映射到对应忆阻器电导值,输入输出信号分别穿过交叉阵列行列中间的节点,那么仅基于欧姆定律、基尔霍夫电流定律等物理定律,就可以自然地完成向量矩阵乘运算。
这一特性使得基于忆阻器的存算一体架构既可以运行各类神经网络,也可以运行包含向量矩阵乘法的其他算法,这为存算一体芯片未来的广泛应用打下了基础此外,除了作为“电子突触器件”,近些年的研究也拓展了忆阻器在“电子神经元器件”“电子树突器件”等仿生器件中的应用。
受篇幅影响,本文仅聚焦于目前忆阻器最为主要的“电子突触器件”应用的研究现状忆阻器器件研究进展忆阻器通常由金属-介质-金属(metal-insulator-metal,MIM)的夹层结构组成,包含2层电极和1层忆阻功能层,其电学特性往往与电极层和功能层密切相关。
依据不同的工作机理,广义上的忆阻器主要包含以下几种类型:阻变随机存储器(resistive random access memory,RRAM),相变存储器(phase-change memory,PCM),磁随机存储器(magnetic random access memory,MRAM),铁电存储器(ferroelectric memory)。
本节将依此分类对这4类器件的结构、特性与研究进展展开讨论,并在最后一节着重对国内外的研究现状进行了对比1阻变随机存储器阻变随机存储器依照其阻变机理主要可分为导电细丝型和非导电细丝型(界面型)2类(图1):导电细丝型器件依赖于阻变介质中导电通道的形成与断裂,其主要包括氧空位通道型阻变器件和金属通道型阻变器件;非导电细丝型器件则依赖于阻变介质的体效应,或者阻变介质与电极之间的界面效应。
前者往往具备更快的操作速度及良好的非易失性,因此相较于后者其更适合于作为需要数据保持的“电子突触器件”后者通常具备天然的模拟阻变特性,但由于保持特性较差,其往往作为动态忆阻器应用于例如“电子树突器件”等领域。
下面重点讨论2类导电细丝型器件的阻变机理与研究进展
图1 2种不同阻变机理示意1、氧空位通道型阻变器件氧空位通道型阻变器件又被称为金属氧化物阻变存储器(metal-oxide RRAM,OxRRAM),或价变存储器(valence change memory,VCM)。
在其MIM结构中,通常中间层介质为绝缘的过渡族金属氧化物现阶段业内关于OxRRAM的阻变机理仍存在争议,较为普遍的看法是其阻变过程依赖于介质层内形成的氧空位导电细丝当导电细丝连接时器件呈现低阻态(low-resistance state,LRS),而当细丝断开时器件处于高阻态(high-resistance state,HRS)。
由于其阻变特性与氧离子迁移密切相关,因此也被称为阴离子型阻变器件图2为OxRRAM器件阻变过程示意
图2 OxRRAM器件阻变过程示意为了在神经网络中作为记忆权重(weight)的突触,OxRRAM器件需要具有在多个阻态间切换的能力,即实现多比特单元(multi-bit cell,MLC)在较早期的研究中,韩国浦项科技大学Hyunsang Hwang团队基于Ta/N-。
/Pt体系的器件,通过在
中掺杂N元素消除多余的导电路径,将导电细丝限制在局部区域,改善了器件的多比特特性大多数的OxRRAM在设置(set)时会出现电导态的突变,这对各种深度学习任务都有不利影响清华大学吴华强团队通过在介质层内插入热增强层来增加阻变时的温度,使得阻变层产生更多条弱导电细丝,而不是一条强导电细丝。
这种方法有效改善了器件的模拟特性以及多级数据保持能力目前有多种不同材料体系的OxRRAM有了相关的展示,包括
/
、
和
等,不同材料体系的器件在保持性(retention)、可靠性(reliability)、耐擦写性(endurance)等方面各有优劣密歇根大学Wei团队研究了含有6种过渡金属(Zr、Hf、Nb、Ta、Mo、W)构成的高熵氧化物(high-entropy oxides,HEO)作为阻变层,利用高熵材料的“鸡尾酒”效应,有效结合不同材料体系的OxRRAM技术的优点,改善了忆阻器的整体特性。
2、金属通道型阻变器件金属通道型阻变器件,又称导电桥型随机存储器(conductive bridging random access memory,CBRAM),或电化学型存储器(electrochemical metallization memory,ECM)。
其结构通常包含活泼电极,阻变介质层和惰性电极3个部分,其中的活泼电极通常为Ag或Cu,阻变介质层可以是固态电解质,也可以是氧化物材料金属通道型阻变器件的阻变机理如下:在正压激励下,活泼电极发生电化学反应,产生金属阳离子。
这些阳离子在电场作用下漂移通过阻变介质层,在惰性电极附近还原为金属原子并逐渐堆积,直至形成连接两端电极的金属桥,器件被设置到低阻态而在相反电压激励下,金属桥发生电化学溶解,器件重置(reset)为高阻态。
由于金属通道型阻变存储器是由金属阳离子构成导电细丝,因此也被称为阳离子型阻变器件其I-V特性曲线与微观机理如图3所示
图3 CBRAM器件的阻变I-V特性曲线与微观机理示意由于CBRAM具有大开关比和高驱动电流等特性,适合作为选通管(selector)与忆阻器串联组成1S-1R(1-Selector-1-RRAM)结构,以有效缓解交叉阵列中的潜行路径电流问题。
华中科技大学缪向水团队设计了一种基于CuS/GeSe的选通管,这种选通管具有超高开关比(1.25×
)、高驱动电流(600μA)以及超低关断电流(~100fA)等特性与OxRRAM相同,CBRAM也可以用于非易失性存储应用,但由于CBRAM中的金属阳离子具有较强的扩散能力,使得CBRAM器件的保持特性与耐擦写特性提升困难。
为了限制金属离子的扩散,研究人员研究了各种双层材料比利时微电子研究中心Belmonte等对比了Cu/
、Cu/
、Cu/Ta/GeSe 3种不同的双层/多层堆叠结构并对比分析了不同体系器件的开关比,保持特性和耐擦写特性的差异区别当用于神经网络应用时,CBRAM需要良好的线性特性台湾交通大学Tseng团队基于Te/MgO/HfOx/TiN CBRAM器件研究了。
先沉积后退火的改进方法退火后在HfOx薄膜中产生了更多的氧空位,这种过量的氧空位调节了金属碲细丝的形状,通过最窄部分的连接与断开实现电阻的连续切换,从而改善了线性度2相变存储器相变存储器(PCM)是相对成熟的非易失性存储技术之一,其工作机理主要依靠如。
(GST)等相变材料这类材料在晶态和非晶态之间的电阻有很大差异,并且可以通过施加特定电压脉冲产生的焦耳热实现二者之间的切换(图4)当对PCM器件施加较短脉宽的大电压脉冲时,相变材料迅速升温,并在脉冲结束后又快速降温,这使得相变材料经历了淬火过程而转变为非晶态,器件因此展现出高阻态。
而当对PCM器件使用较长的小电压脉冲时,相变材料保持在结晶温度以上并缓慢冷却,这使得相变材料会逐渐转变为晶态,器件因此展现出低阻态
图4 相变存储器结构及工作原理尽管目前PCM研究已经较为成熟,但其目前仍然面临许多挑战首先,PCM器件存在高编程电流的问题,尤其是reset操作,单个器件操作电流甚至会高于100μA,这会导致较大的编程功耗,严重阻碍其大规模集成。
针对这个问题,斯坦福大学Wong团队在相变材料和底部电极中间插入了热阻挡层,将产生的热量限制在PCM器件内,从而降低了驱动电流意大利米兰理工大学Lacaita等研究发现,通过减小加热材料与相变材料接触面积,可以显著减小编程电流。
其次,相变材料的结晶相通常是稳定的,但非晶相往往是亚稳态,这会导致PCM器件电阻随时间变化而稳定增加,这种现象也被称为电阻漂移深圳大学丁科元等设计了用由交替沉积的限制材料和相变层组成的多层异质结构代替了相变层,降低了成分变化和相分离的可能性,从而有效降低了电阻漂移的影响。
另外,在芯片大规模集成时,器件的耐擦写特性同样非常重要,由于不同相之间密度不同,在反复擦写后可能会在相变材料与电极的边界处形成空隙,导致PCM卡在高电阻状态韩国延世大学的Ko团队通过优化沉积条件,抑制了空隙的产生,大大提高了耐擦写特性。
3磁随机存储器磁随机存储器(MRAM)同样是一种比较成熟的非易失性存储器磁隧穿结(magnetic tunnel junction,MTJ)是MRAM中的关键元件MTJ由2层铁磁材料构成,并且这2层中间有一个薄(1~2nm)的绝缘层用于电子隧穿。
这2个铁磁层中,一个是参考磁层,具有固定的磁化方向,另一个是自由层,可以在2种方向之前切换自旋转移扭矩MRAM(spin-transfer torque MRAM,STT-MRAM)是目前的最成功的一类MRAM,其基本结构是1T-1MTJ,即由一个晶体管和一个MTJ组成。
STTMRAM主要利用自旋转移力矩效应改变自由层的磁化方向,进而实现器件状态的改变(图5)当电子从参考层流向自由层时,电子自旋会在参考层中发生极化,随后自旋角动量转移到自由层,使得自由层与参考层磁化方向相同,此时MTJ处于低阻状态,也称为“0”状态。
相反则自旋方向与自由层相反的电子会被固定层反射回自由层,从而使得自由层与参考层磁化方向相反,此时MTJ处于高阻状态,也称为“1”状态
图5 磁随机存储器状态转换相比于其他忆阻器,STT-MRAM的独特优势在于低操作电压,使用CMOS逻辑电路中的电压就足以进行写入操作,因此可以与处理器逻辑电路做在同一个芯片里另外,STT-MRAM的耐擦写次数非常高,适合于实现对读/写循环有大量需求的在线训练神经网络。
但STT-MRAM的缺点在于其开关比较低,典型值仅为2左右,这导致其数据存储的可靠性降低,通常只能存储二进制数据,不利于进行模拟计算北京航空航天大学赵巍胜团队将MTJ和肖特基二极管集成制造了整流隧道磁阻器件(rectified tunnel magnetoresistance,RTMR),通过调整交流电(AC)和直流电(DC)的比例,实现了高开关比(>100)。
此外,最近几年MRAM研究领域出现了一些新技术,包括自旋轨道矩磁随机存储器(spin orbit torque MRAM,SOTMRAM)和电压调控磁各向异性磁随机存储器(voltage-controlled magnetic anisotropy MRAM,VCMA-MRAM)等。
SOT-MRAM使用基于三端MTJ的概念来隔离读取和写入路径,提高了器件的耐擦写特性与读取稳定性VCMA-MRAM利用VCMA效应,能进一步降低写入能量,减小MTJ的面积4铁电存储器铁电存储器(ferroelectric memory)主要依靠外加电场改变铁电材料的极化状态,从而引起器件电阻值的变化。
铁电材料状态的读取可以通过3种方法来实现(图6)从而产生了3种不同的研究方向第一种方法是在铁电材料两侧施加一个大电场,根据铁电材料是否极化会有大或者小的电流流过铁电材料由于这种基于电容的读取方法是一种破坏性操作,因此需要读取后进行回写。
这种方案用于铁电随机存储器(ferroelectric random-access memory,FeRAM)第二种方法是将铁电材料集成到场效应晶体管的栅极中,不同极化态决定了不同的阈值电压,基于此的器件被称为铁电场效应晶体管(ferroelectric field-effect transistor,FeFET)。
第三种方法是在2个电极中间夹着一个非常薄(通常只有几纳米)的铁电材料,通过该器件的隧穿电流取决于铁电极化方向,这种器件被称为铁电隧道结(ferroelectric tunnel junction,FTJ)。
由于FTJ的读出电流很小,有利于允许大规模并行操作,因此适合作为类脑计算系统的突触结构1921年,Valasek在罗谢尔盐(Rochelle salt)中首次观察到铁电特性,此后人们逐渐发现了各种铁电材料。
2011年,研究人员偶然在氧化铪(HfO2)中发现了铁电性,这一发现点燃了人们对铁电存储器的研究热情,因为氧化铪在前端工艺和后端工艺中都是一种成熟且完全兼容CMOS的材料近年来,许多研究尝试使用FTJ构建交叉阵列,但FTJ较低的开关比,限制了其模拟计算的应用。
为解决该问题,东芝Fujii等和德累斯顿工业大学Max等分别通过将铁电层与非常薄的隧道层结合成双层堆叠结构,通过改变势垒高度和隧穿长度产生不同的隧穿电阻,同时实现了大开关比,长保持时间以及低运行电压除了开关比,FTJ的导通电流过低致外围电路无法读取也是一个巨大的挑战,20nm技术节点的FTJ单器件Ion的典型值小于1fA,即使一列有1024个器件总电流也小于1pA,而理想状况下至少要达到1μA。
美国佐治亚理工学院Yu团队从DRAM的结构获得启发,设计了一种圆柱结构的FTJ,增加了器件的有效面积,提升了单个器件的电流,仿真证明了一列100个器件即可使得电流高于1μA
图6 3种读取铁电材料状态的方式(图中虚线表示读取电压)5忆阻器器件研究进展表1总结了国内外一些研究团队的器件指标,以及IEEE国际设备与系统路线图(IRDS)中提出的指标要求尽管许多器件在部分指标上已经达到了要求,但截至目前,尚没有一种能够满足所有指标要求的器件。
研制综合特性优异的忆阻器器件,仍是未来攻克的重点表1 国内外忆阻器器件研究进展
应用演示研究进展近年来,得益于忆阻器器件各种特性的进步,忆阻器的硬件集成与应用演示也有了巨大突破1神经网络受生物大脑神经网络启发的神经网络算法在图像处理和语音识别等任务中表现出与人类近似甚至超过人类的强大性能,引发了人们极大的研究热情。
由于神经网络中存在大量的向量矩阵乘法运算,因此非常适合使用忆阻器阵列实现加速目前,基于忆阻器存算一体架构的神经网络已被证明在速度和能效方面有望较基于冯·诺依曼架构的芯片高出1000倍以上,对于需要高能效的边缘计算应用等非常有吸引力。
因此,近年来研究人员针对神经网络算法的忆阻器阵列实现展开了探索前馈神经网络(feedforward neural network,FNN)是应用最广泛的神经网络算法之一其由2层或多层神经元排列组成,每个神经元仅接收上一层的输入并把结果输出到下一层,各层之间不存在反馈。
其中,感知机(perceptron)是最简单的一类前馈神经网络,单层感知机(single-layer perceptron,SLP)只有输入层和输出层,多层感知机(multiple-layer perceptron,MLP)在输入层和输出层之间插入了隐藏层。
2015年美国加州大学圣巴巴拉分校Strukov团队率先报道了基于12×12规模的RRAM阵列构成的单层感知机网络,实现3个字母“Z”“V”和“N”的分类任务(图7(a)),这是存算一体架构向着神经网络应用迈出的重要一步。
2015年IBM的Burr等在一个具有164885个突触单元的大规模PCM阵列上搭建了用于手写数字识别的3层感知机网络,并且实现了网络的反向传播训练(图7(b)~(c))卷积神经网络(convolutional neural network,CNN)是另一种典型的前馈神经网络,卷积核及池化概念的引入,使其较感知机网络能够精简训练参数、降低过拟合、实现更高维度的信息提取。
清华大学吴华强团队实现了一个全硬件的5层卷积神经网络(图7(d)),并提出了混合训练的方式以补偿器件存在的部分非理想特性,实现推理准确率接近软件计算的准确率另外,该团队通过并行卷积技术和相同核的复制,大大提高了并行度,在能效比和性能密度方面相比于Tesla V100图形处理器(GPU)提高了约2个数量级。
图7 忆阻器阵列在前馈神经网络方向的验证工作循环神经网络(recurrent neural networks,RNN)是另一类常见的神经网络算法,通常用于处理序列信号与前馈神经网络最大的不同在于,其层间存在反馈信号的连接与信息传递(图8(a))。
传统的RNN算法在处理长序列信号时存在长期依赖性问题,为了解决这个问题,研究人员提出了长短期记忆网络(long short-term memory,LSTM),通过引入3个门和单元状态实现有选择性的记忆和遗忘(图8(b))。
美国马萨诸塞大学的Yang团队构建了包含忆阻器LSTM层和忆阻器全连接层的多层网络,并在回归和分类实验中成功演示了LSTM的推理与原位训练,相比全数字系统显著降低了延迟与功耗(图8(c))储备池计算(reservoir computing,RC)是另一种受生物大脑启发的循环神经网络。
储备池计算由输入层、储备池和输出层3部分组成,其中储备池是随机生成的稀疏连接的递归神经元网络,模拟了生物大脑神经元之间的复杂稀疏连接由于仅需要训练输出层的权重参数,因此具有低训练成本和低硬件开销等特点美国密歇根大学的Lu团队基于32×32的RRAM阵列构建了储备池计算网络(图8(d)),实现了语音数字识别和混沌序列预测,相比数字系统有效降低了功耗,同时也说明了忆阻器器件之间的差异让权重分布更加随机,使得对于输出的响应更加多样化,从而有利于提高储备池计算系统性能。
图8 忆阻器阵列在循环神经网络方向的验证工作此外,一些其他神经网络算法同样在基于忆阻器的存算一体架构上得到广泛的研究与演示:生成对抗网络(generative adversarial networks,GAN)是一种近年来研究非常火热的网络,该网络由两部分组成,包括生成器(generator)和判别器(discriminator)。
生成器负责生成逼真样本,判别器则负责判别该样本的真假,两者交替训练,最终使生成器可以输出非常逼真的图像或数据清华大学吴华强团队首次基于RRAM阵列实验演示了使用生成对抗网络的手写数字图案生成,并证明了RRAM的固有随机噪声可用于生成对抗网络的输入,具备生成数字多样性高的优势。
有别于上述人工神经网络,脉冲神经网络(SNN)是一种更贴合生物神经元工作方式的网络,其内部神经元传递的是时间间隔不一的脉冲信号,而非前馈神经网络和循环神经网络中采用的连续值由于算法中增加了时间这个维度,脉冲神经网络非常适合处理基于时空事件的信息,但目前主要受限于没有有效的训练算法,无法搭建更深更复杂的网络,因此仍需算法层面的突破。
近年来,许多研究已经基于包括RRAM、PCM、MRAM和FeFET等在内的各种器件实现了脉冲神经网络算法的仿真或硬件演示,验证了基于忆阻器阵列实现SNN算法的高能效和高扩展性等特点2信号处理与机器学习随着物联网(Internet of Things,IoT)的发展,为了减小通信带宽和延迟,许多应用要求网络边缘端能够快速且低功耗地预处理传感器的原始数据,并仅向云端传输重要的分析结果。
基于忆阻器阵列的存算一体架构有望实现较传统CMOS系统更高效的信号处理,使其成为了一种有吸引力的解决方案与神经网络类似,一些信号处理与传统机器学习的算法核心也是向量矩阵乘法,因此同样可以使用忆阻器阵列来运行,获取更高的速度和能效。
更重要的是,忆阻器阵列能够直接接收并处理从传感器中获取的模拟信号,从而大幅降低输入电路的复杂度在近些年的研究中,研究人员对信号变换、信号编码和传统机器学习等算法的基于忆阻器的实现进行了前沿探索傅里叶变换(Fourier transformation)是用途最广泛、最重要的信号处理算法之一,可以将信号从时域转换为频域。
由于计算机是离散系统,实际工程中常用离散傅里叶变换(discrete Fourier transform,DFT)来近似傅里叶变换清华大学吴华强团队基于RRAM阵列首次实现了离散傅里叶变换,并演示了高保真度的医学图像重建功能(图9(a)~(c)),能效较CPU提高了128倍。
此外,为实现高精度傅里叶变换处理,团队提出了一种准模拟映射(QAM)方案,该方法较传统量化映射(QM)方案提升了映射精度,并具有更高的器件读噪声鲁棒性此外,离散余弦变换(discrete cosine transform,DCT)是较离散傅里叶变换具有更高压缩率的算法,广泛用于数字信号处理和图像压缩。
美国马萨诸塞大学的Yang团队在128×64的RRAM阵列上实现了基于二维离散余弦变换(2D-DCT)的图像压缩(图9(d)~(f)),在保留了包含频谱幅度前15%的频率(即压缩比为20∶3)后使用软件进行还原仍可以得到相似的重构图像,但还原质量不佳。
美国中佛罗里达大学的Zhang等在此基础上通过将2D-DCT重构为线性变化并进行了频谱优化,在提高图像生成质量的同时,降低了延迟、功耗和芯片面积(图9(g)~(h))
图9 忆阻器阵列在信号变换方向的验证工作上述的频域变换压缩信号的思路是先对信号进行采样,再通过频域变化挖掘稀疏性,最后通过压缩算法实现压缩而在一些信号处理的任务中,数据采集与压缩是顺序进行的,如果采用上述的压缩方法会导致采样采集的大部分数据都是无效冗余的数据,造成资源浪费。
为了解决这个问题,人们提出了压缩感知(compressed sensing,CS),压缩感知的基本思想是同时完成采样与压缩,从高维信号中获取少量采样测量值,最后准确地恢复该信号IBM的Le Gallo等基于256Kb的PCM阵列实现了压缩感知的编码和解码的实验演示,功耗仅为现场可编程门阵列(FPGA)系统功耗的2%。
另外该团队还指出由于压缩感知解码的过程仅仅执行读操作,因此观测矩阵仅需编程一次,能够有效避免反复编程带来的运行速度下降、功耗增加和器件可靠性降低等问题另外,基于忆阻器阵列的传统机器学习算法目前也已经得到了深入研究。
主成分分析(principal component analysis,PCA)是目前使用最广泛的数据降维算法之一,也是许多机器学习算法的重要预处理步骤美国密歇根大学的Lu团队基于9×2的忆阻器阵列使用无监督的在线学习(图10(a)),以乳腺癌测量数据库中部分数据作为训练集学习主成分,将9维的原始数据降维到2维的主成分数据,有效地将测试集的数据分成簇(图10(b)),最后使用监督学习将肿瘤分类,实现了97.1%的准确率,十分接近于软件准确率(97.6%)。
k近邻算法(k-nearest neighbors,kNN)是另一种在模式识别方面取得巨大成功的机器学习算法算法核心是计算两点在欧几里得空间中的距离,可以使用忆阻器阵列实现并行计算加速北京大学康晋锋团队设计了kNN算法的有监督训练方案(图10(c)),并通过仿真验证了基于kNN的MNIST手写数字识别,实现了90%以上的准确率。
该团队还通过实验证明即使在器件电导变化高达60%或输入噪声高达40%的情况下,分类精度也不会出现明显下降,证明该算法非常适合RRAM器件(图10(d))
图10 忆阻器阵列在机器学习领域的验证工作3应用领域研究进展总结国内外忆阻器应用领域的研究进展如表2所示目前,国内外的研究团队已经完成了许多神经网络、信号处理和机器学习等算法的硬件阵列或仿真验证演示,到目前为止,使用硬件阵列演示的只是一些较为简单的算法,对于更多真正需要高算力的复杂网络算法仍处于仿真验证阶段。
另外,现有的报道通常仅展示相比CMOS系统在能耗比上的优势,尚未有能与目前顶尖GPU或FPGA相抗衡的峰值算力表2 国内外忆阻器应用领域研究进展
结论国际上对基于忆阻器的存算一体架构的研究仍处在起步状态在器件优化和材料工程方面,不论是哪种工作机制的器件,都仍存在一些非理想效应,尚不能完全满足应用的需求,离真正产业化还有一定距离在硬件集成和应用演示方面,目前完成的应用演示仅局限在较为简单的算法,对于复杂但实用的深度学习算法(如ResNet50、yolo等)仍处于仿真验证阶段。
就目前在器件优化和应用演示的研究进展来看,中国在基于忆阻器的类脑计算领域在国际上已经占有一席之地,在领域内的进一步发展可以从以下4个角度开展1)在器件优化方面,综合特性优异的器件,仍是需要攻克的重点基于现有的忆阻器器件深入探索工作机理,综合优化器件的线性度、对称性、开关比、保持特性和耐擦写特性等参数。
此外,要探索忆阻器的三维集成技术,从而进一步提高集成密度和功能多样性,为未来探索复杂神经网络应用打下基础2)在电路设计方面,交叉阵列结构和外围电路等还有很大优化空间首先,串联线阻分压问题严重限制了单个阵列的大小,尤其是在先进工艺节点下。
如2T2R结构等全新的交叉阵列设计有助于缓解IR drop问题构建更大的交叉阵列其次,目前外围电路(ADC和DAC等电路)的面积和能耗远超过忆阻器阵列,严重降低了存算一体架构本身的速度和能耗优势因此需要进行器件、电路和架构的协同设计,包括高精度低功耗的ADC设计和高吞吐量的数据流方案。
另外,如何发挥忆阻器本身模拟计算的优势,实现感存算一体也是一种非常有吸引力的发展方向3)在芯片集成方面,为了进一步降低功耗、面积和延迟等,需要将包括数字和模拟转换电路、缓冲存储器、数字处理器等在内的所有功能模块与忆阻器阵列集成到一块芯片。
除此之外,还需要设计灵活的架构与调度方案,在保证高能耗的前提下实现高算力与高灵活性,使芯片能够支持各种不同深度学习和复杂信号处理等任务4)在产业发展方面,参考GPU和FPGA等已经成熟技术的发展道路,基于忆阻器的类脑计算作为一种仍处于起步阶段的新技术,要实现产业化落地,需要芯片制造厂、芯片设计厂和高校等加强合作,共同研发、制定目标、应用和推广。
另外,要避免与成熟产品直接竞争,利用存算一体技术自身的优势,开拓新应用、打造新场景、吸引新用户,创造新市场可以预见,通过各个领域的密切合作,基于忆阻器的类脑计算芯片领域将会实现连续不断的突破,而中国的学者和机构也将在其中扮演越来越重要的角色。
本文作者:江之行、席悦、唐建石、高滨、钱鹤、吴华强作者简介:江之行,清华大学集成电路学院,集成电路高精尖创新中心,博士研究生,研究方向为新型存储器;唐建石(通信作者),清华大学集成电路学院,集成电路高精尖创新中心,副教授,研究方向为新型存储器与类脑计算;吴华强(共同通信作者),清华大学集成电路学院,集成电路高精尖创新中心,教授,研究方向为忆阻器与存算一体技术。
原文发表于《科技导报》2024年第2期,欢迎订阅查看。
- 标签:
- 编辑:李松一
- 相关文章
-
乔治布莱克_乔治布莱克 也许苏联的路走错了
原本以为上下两篇能够写完,结果本喵发现我还是太年轻了,资料不查不知道,一查吓一跳,好的消息是苏联的精彩故事着实不少,坏消息是,可能需…
-
台账是什么意思_进销存台账是什么意思
仓库管理员零基础入门教程:仓库台账是什么?台账原纸摆放在台上,工人翻阅的账簿故名台账。说白一点实际上就是流水账,它包括文件、工作…
- 忠犬八公的故事_忠犬八公的故事是哪个国家的电影
- 酒店服务案例_酒店服务案例分享
- 5000万韩币换多少人民币_1亿韩元 = 多少人民币
- 高达mg_高达mg和rg的区别
- 天津经济开发区_天津经济开发区管委会领导班子成员