
1000层NAND,怎么实现?
十几年年前,当 NAND 闪存跨入 3D 时代,人们看着32层、48层的芯片结构,惊叹于工程师在微观世界盖起的高楼。而今天,三星、SK海力士、美光等巨头已经在 300层的云端激烈厮杀。然而,这远远不是终点。行业内开始流传一个近乎疯狂的数字——1000层。
在一块指甲盖大小的硅片上,垂直堆叠上千层原子级薄膜,并在其中穿透数以百亿计、长径比极其夸张的“摩天大楼”通道。这听起来像是一部科幻小说,但在摩尔定律逐渐失效的今天,它正成为全球存储半导体巨头们心照不宣的终极底牌。
把闪存堆到1000层,到底需要经历怎样的“微观基建”狂魔式改造?我们来看一下三星和闪迪在VLSI 2026上的分享。
三星的1000层NAND演进
三星透露,公司此前首次实现了900层级VNAND集成,方法是将两片450层单元晶圆键合在一起。在键合过程中,通过合理的翘曲设计,成功地将翘曲较大的单元晶圆支撑在上卡盘中;同时,应用新的套刻校正技术,解决了翘曲较大的单元晶圆键合过程中出现的对准劣化问题。此外,基于新引入的位线(BL)和字线(WL)结构,验证了单元的正常工作特性,该结构能够显著降低功耗并缩小芯片尺寸。
三星之言,尽管VNAND技术已经发展到目前约400层被认为是最先进的水平,但随着人工智能(AI)市场的爆炸式增长,对高容量的需求也迅速增加,因此开发超过1k层的V-NAND芯片至关重要。然而,基于单晶圆实现600层或更多层的尝试面临着诸多关键挑战,例如读取电流、物理或热应力等[。实现1k层最可行,或许也是唯一可行的方法是采用双晶圆解决方案,将两个单元晶圆键合在一起。作为我们之前发布的NAND路线图技术的一部分,我们引入了一种“单元多重键合(CMB:cell multi-bonding )”结构。
CMB结构的形式为:首先使用混合铜键合(HCB:hybrid copper bonding)将一个单元晶圆连接到外围晶圆上,这是目前典型的VNAND键合结构;然后,如图1所示,将另一个单元晶圆依次键合到HCB上。为了验证图1所示CMB结构形成过程中与键合能力相关的几个主要技术挑战,我们同时制备了450层的实际生产晶圆和具有不同翘曲程度和形状的评估晶圆。

首先,本实验的首要任务是验证:上卡盘能否牢固地夹持具有较大鞍形翘曲的单元晶圆,这与传统的键合方式不同,后者只能夹持翘曲较小的外围晶圆。通过对评估晶圆的实验,结果表明,上层晶圆X轴和Y轴之间的翘曲差异可以承受超过400μm,但当X轴或Y轴的单个翘曲在正方向上超过350μm时,无法完成夹持。这可以解释为,从翘曲形状的角度来看,最小化上层卡盘与晶圆边缘之间的绝对距离与最小化晶圆的鞍形现象(表明轴向翘曲差异)同样重要[图2]。因此,我们设计的上层卡盘能够满足这些翘曲约束,成功且稳定地夹持了450层生产晶圆,并可以进行后续的键合工艺。
其次,在对具有较大鞍形翘曲的上层晶圆进行键合过程中,证实了键合波从中心到边缘的速度差异是由各轴的翘曲量造成的[图3],进而导致轴向变形差异,并最终由于上下晶圆间隙闭合速度的轴向差异而造成键合对准劣化[图4]。

此外,由于上层晶圆的第二次键合是在观察下层晶圆的键合键时进行的,而下层晶圆的键合键已经因第一次键合而发生变形,因此与第一次键合相比,我们生产晶圆的最终键合错位增加了高达200 nm。

为了解决这个问题,我们应用了一种新的套刻校正技术,该技术可对每个晶圆以及晶圆间的配对进行定制化校正,并将单元键合后的最终对准值提升至可接受的水平,与图 5 所示的传统单元外围键合值相近。此外,我们测量了单元键合之间的焊盘电阻,发现其与典型单元外围键合之间的电阻值处于同一水平(图 6),这证实了在结构较差的 CMB 结构中,电气连接没有进一步劣化。

图 7 是使用两片 450 层生产晶圆,通过上述键合工艺成功制备的 CMB 的横截面 TEM 图像,这首次证明了超过 1000 层 NAND 集成工艺的可行性。此外,通过改进BL和WL配置以充分利用CMB的结构优势,有望开发出更高效的NAND产品。如图8所示,如果每个单元晶圆采用8kB BL的双行设计,而非传统的16kB-BL架构,则单元操作中的单元块尺寸将减半,功耗预计降低约30%。

此外,每个单元晶圆上的两条WL可以合并在一起,使用同一个传输开关,称为双驱动WL(DDWL),最终可以将传输开关的总数减少一半,并显著减小芯片尺寸[图9]。
为了验证新改进的BL/WL设计对cell运行的影响,我们分别制造了一个由两个155层cell晶圆组成的310层CMB结构,以测量cell特性[图10]。首先,在检查整个WL的PGM/ERS曲线时,即使在DDWL操作下同时使用单个通道开关,其斜率也与使用不同cell晶圆上的独立通道开关驱动时的斜率相似[图11]。图12显示,基于特定WL的DDWL下的Vth分布是两个cell晶圆上独立生成的Vth分布之和,这最终增加了整个WL的Vth宽度分布,这意味着未来实际产品必须通过电路设计进行改进。

三星重申,通过这个方法,他们证明了通过键合两片晶圆的CMB技术可以实现1k层VNAND集成,并指出新引入的BL/WL结构能够在不久的将来最大限度地提高VNAND产品的效率。“此外,我们有信心,通过我们自身的结构解决方案,能够解决CMB技术最大的成本问题(即重复两次工艺所带来的成本问题),并很快成功开发出真正的1k层产品。”三星说。
闪迪的1000层NAND之路
正如闪迪所说,堆叠更多字线层一直是3D NAND实现更高位密度的主要扩展方法。然而,这种方法会导致块尺寸不断增大,这已成为在1000层以上领域保持位密度增长率的一大挑战。为了克服这一障碍,闪迪基于先进的3D NAND平台,提出了一种新型的横向子块模式,该模式能够将大块尺寸导致的位密度损失恢复高达80%-90%。这一成果为未来的3D NAND扩展提供了一种经济高效的途径。

尽管字线(WL)层叠技术在过去十年中显著提高了比特密度,但快速增长的块大小(图1(a))导致备用块比例增加,从而造成有效比特密度损失(图1(b))。需要注意的是,为了抑制字线阶梯长度,字符串数量(图2(a))需要随着字线层数的增加而增长,这进一步增大了块大小。此外,块大小的增加对垃圾回收提出了更大的挑战,并加剧了写放大,这对内存控制器而言并非最优,最终会导致系统性能和耐久性下降。一个直接的解决方案是将大的物理块沿垂直方向(按层)或横向方向(按字符串)分割成多个逻辑子块(SB:subblocks),如图2(a)所示。与层级子块模式 (SBM:sub-block mode) 相比,字符串子块模式 (String SBM) 更具优势,其优势总结于图 2(b)。

字符串子块模式的一个主要挑战是,在未选中子块 (SB) 中,目标线段 (WL) 两侧的高阈值电压 (Vt) 单元会严重阻塞电子预充电 (ePCH) 路径,导致提升电位损失(图 3)以及相对于正常块模式 (NBM) 的编程干扰 (PD)。Vt 窗口(定义为 Vt 状态之间的总空间)会随着选中子块的擦除-编程循环次数或等效的未选中子块干扰 (USBD:unselected SB disturbances) 次数的增加而减小。本工作旨在克服这一挑战,并探索基于最新 3D NAND 技术构建的实际存储阵列中字符串子块模式的潜力。
与TLC相比,SLC每个状态的Vt窗口更大,且阈值更低,这可能使其能够在有限的USBD范围内原生地在字符串SBM中存活。PD引起的SLC擦除状态上移在初始寿命(BoL:beginning-of-life)条件下随USBD的增加而增加(图4(a))。图4(b)显示,在合理的Vt窗口规范下,SLC在生命周期末期(EoL)条件下的原生USBD容差在100到500之间。图5(a)显示,更高的编程状态会导致更强的PD,这是由于施加了更高的阈值。最佳编程状态位置取决于USBD规范。对于较低的USBD规范(< 50),较高的编程状态是有益的;而对于较高的USBD规范(>400),则优选中等或较低的编程状态,如图5(b)所示。

编程脉冲之前的预充电操作的主要作用是去除在先前的编程验证过程中引入到未选中和/或被抑制的存储柱中的捕获电子。通过顺序WL斜坡下挤出电子,并引入空穴预充电(hPCH:hole pre-charge)以使电子复,已被证明在Tier SBM中有效。由于后者(波形如图6(a)所示)相比前者具有更低的延迟和更简单的设计,因此本研究将其应用于String SBM。hPCH的主要目标是在不干扰任何数据WL的情况下,向通道中注入足够数量的空穴。图6(b)定义了两个关键指标:1)空穴生成率(称为GIDL),以及2)空穴通过电压(称为hVpass)。
采用TCAD(Sentaurus)仿真研究了NBM和String SBM在有/无hPCH的情况下,目标WL下未选弦通道电位在程序脉冲斜坡上升过程中的演化,分别针对SLC(图7(a))和TLC(图7(b))。如图所示,一旦电子被hPCH复合,负的初始通道电位就会上升,并且程序脉冲的增强电位会显著提高。

图 8(a)、(b) 分别展示了在 String SBM 中使用和不使用 hPCH 时 SLC 和 TLC 的 Vt 分布。PD 的显著改善证明了 hPCH 对 String SBM 的有效性。
图 9(a)、(b) 展示了 GIDL 和 hVpass 的设计空间。当 GIDL 和/或 hVpass 较小时,空穴生成率较低,和/或生成的空穴难以通过未选中的数据 WL,在这些 WL 中,擦除状态的 Vt 可能非常低(为负值),尤其对于 TLC 而言。在这种情况下,被捕获的电子无法在短时间内(受编程性能限制)与足够的空穴完全复合,导致 PD 抑制不理想。当 hVpass 较大时,未选中的数据 WL 上的擦除应力会导致擦除干扰 (ED)。在本研究中,擦除态上尾上移和最高态下尾下移分别用于量化PD和ED。SLC的hVpass设计空间宽达4个A.U.(图9(a))。当GIDL小于2个A.U.时,空穴生成率较低,导致PD(图9(b))。
需要注意的是,虽然从hPCH的角度来看,较大的GIDL值没有明显的缺点,但它会使GIDL结承受过大的应力,从而导致耐久性下降。利用推导出的hPCH设计空间,在GIDL为4个A.U.、hVpass为5个A.U.的情况下,评估了SLC串SBM的USBD容差。在 SLC NBM Vt 窗口规范下,SLC String SBM 的 USBD 容差可从 500 提高到 16,000(图 9(c))。

与 SLC 相比,TLC 在 hVpass 为 3 (A.U.) 时更早出现 PD(图 10(a)),这是由于其擦除状态较低且沟道中捕获的电子更多。此外,由于最高编程状态电压更高,TLC 在 hVpass 为 4.5 (A.U.) 时也更早出现 ED。因此,TLC 的设计空间要窄得多,约为 1.5 (A.U.)。 TLC 的 GIDL 下限接近 SLC 的下限,约为 2 (A.U.)(图 10(b)),这并不令人意外,因为空穴生成率与单元 Vt 无关。通过应用 4 (A.U.) 的 GIDL 和 3 (A.U.) 的 hVpass,TLC String SBM 的 USBD 容差在 NBM Vt 窗口规范下从 0 提升至 50(图 10(c))。值得注意的是,这一成果意义非凡,因为它实际上使 TLC String SBM 从“完全不可行”的状态转变为“可行”的状态。
在SBM场景中,可以牺牲其他指标(例如数据保持率、读取干扰等)来换取更高的USBD容错率。通过放宽时间0(程序启动后立即)Vt窗口的规范,SLC的USBD容错率可以从16,000提高到52,000(图11(a)),TLC的USBD容错率可以从50提高到350(图11(b)),这足以满足更多应用场景的需求。基于String SBM中已验证的USBD容错率,当使用超过5个String SB时,比特密度损失的恢复率可以达到80%-90%(图11(c))。
如表 I 所示,本工作中 String SBM 所展现的能力,突破了未来数千层 3D NAND 的大块尺寸限制。

格隆汇声明:文中观点均来自原作者,不代表格隆汇观点及立场。特别提醒,投资决策需建立在独立思考之上,本文内容仅供参考,不作为实际操作建议,交易风险自担。


