多芯片3D IC, 大势所趋
- 2025-07-09 02:41:40
- 982
AI推动单片SoC专向多芯片。
先进封装正在成为高端手机市场的关键差异化因素,与片上系统相比,它能够实现更高的性能、更大的灵活性和更快的上市时间。
单片 SoC 凭借其外形尺寸、成熟的经验和较低的成本,很可能仍将是中低端移动设备的首选技术。但多芯片组件提供了更大的灵活性,这对于 AI 推理以及跟上 AI 模型和通信标准的快速变化至关重要。最终,OEM 厂商和芯片制造商必须确定如何在设计周期内适应变化,以及瞄准哪些细分市场。
新思科技移动、汽车和消费 IP 产品管理执行总监兼 MIPI 联盟主席 Hezi Saar 表示:“不受手机制造商束缚的 SoC 供应商必须追求具有 AI 功能的物联网 SoC 低端功能,而这款产品肯定是单片的。如果他们需要进军移动领域的中端市场,那么其功能将比物联网更高。它也可能是单片SoC,并可能通过多芯片技术进行扩展。当你走向高端时,很明显你不能只采用单片技术。你需要具备制造多芯片的能力,以适应即将发生的变化和快速的上市时间,因为这才是他们真正赚钱的地方。”
换句话说,目标市场决定了架构。“我们看到多芯片 3D 技术大势所趋,移动领域也在采用这种技术,但其发展速度比 NVIDIA 或 AMD 的 HPC 芯片要慢得多,后者在 3D 和 2.5D 技术上投入巨大,系统上多达 12 个芯片,”Ansys 产品营销总监 Marc Swinnen 表示。“低端移动设备无法做到这一点。这主要是成本问题。他们必须专注于将尽可能多的功能集成到小尺寸的单芯片中,并实现低功耗和高速度。”
据英飞凌称,单片 SoC 包含在单个硅片上运行系统所需的所有组件,可能包括具有一个或多个处理器内核的嵌入式微控制器;内存系统,如 RAM 或 ROM;外部接口,如电缆端口(USB、HDMI);无线通信(WiFi、蓝牙);图形处理单元(GPU);以及其他组件,如模拟 / 数字转换器、电压调节器和内部接口总线。
尽管体积小巧(通常也正因如此),单片 SoC 却极其高效,其单处理器性能通常优于更复杂的系统。信号传输距离短,驱动这些信号所需的功率更低,而且只需一个简单的散热器即可散热。许多物联网 SoC 供应商都采用单片策略,因为这可以为客户节省封装和集成成本。
Synaptics 低功耗边缘 AI 高级产品经理 Ananda Roy 表示:“虽然我们很难做到,但把所有功能都放在一个芯片上总是更好的。这为我们带来了竞争优势,因为我们的一些物联网竞争对手把两个芯片放在一个封装中,堆叠起来,或者并排放置,并称之为单芯片解决方案。但实际上,它们只是一个封装中的两个不同的芯片。我们有意识地尝试转向单芯片解决方案,因为从客户的角度来看,它更容易集成,也更容易融入他们的硬件系统设计中。我们基本上在单个芯片上构建了多种技术。”
在高端移动市场,情况则截然不同。该市场使用多个芯片组来提升性能,并使用更多互连来降低电阻和电容。Cadence 计算解决方案事业部高级产品总监 Mick Posner 表示:“在这种情况下,计算引擎通过高性能水平芯片间接口和先进的封装技术进行‘镜像’和连接,以扩展计算处理能力。从技术上讲,这可以扩展到在 3D-IC 堆栈中垂直扩展芯片的处理能力,从而实现更高的互连带宽。”
多芯片组件还能实现计算单元的更大多样性,包括 CPU 和 GPU 的组合,以及高度专业化的加速器。Posner 表示:“3D 堆叠并不局限于相同的处理单元。AI 或内存加速器单元可以成为堆叠的一部分,从而创建高效的特定领域应用引擎。利用先进的 3.5D 封装,还可以使用更传统的芯片间互连(例如 UCIe)水平连接另一个芯片。其他芯片无需与处理节点位于同一技术节点。各种节点的集成可以在性能和成本之间进行权衡,同时选择最适合应用功能或供应链弹性的节点。”
在千禧年的最初几十年里,移动市场推动了许多尖端技术的发展。然而,随着 finFET 时代平面微缩优势的减弱、SRAM 无法微缩以及云端对海量计算能力的需求不断增长,系统公司从单片 SoC 转向了 2.5D 系统,通过中介层连接多个芯片。虽然移动市场在工艺微缩方面仍处于领先地位,但高端移动市场已经超越了这一水平,扩展到多芯片组装 —— 尽管目前尚不清楚移动设备是否会采用 3D-IC,因为它们需要某种先进的冷却系统,而这在当今的移动设备中并不实用。
Synopsys 的 Saar 表示:“2.5D 速度非常快,效率极高,而且距离极短,因此功耗非常高。这些芯片可以采用不同的工艺制造。这个芯片可以是 2nm(基础芯片),而 AI 加速器可以是其他芯片。它们非常灵活。”
高端移动设备正在向 2nm 全栅 (GAA) 制造工艺迈进,以实现高性能,但这种工艺成本高昂且生产时间冗长。Saar 表示:“GAA 工艺需要 X 个月才能从晶圆厂返回。你需要压缩所有这些时间,这是最大的挑战。你正在流片的东西在过去是值得量产的。这一次,你知道你至少需要再进行一次流片,而且在你进行流片的同时,规格可能还会再次演变。我原先认为我需要 70 亿个参数。现在我需要 140 亿个参数,因为手机的用例已经发生了变化。未来我不知道会是什么样子,但他们在引入这些功能时需要考虑到这一点。这就是为什么多裸片似乎是解决灵活性、不确定性和规格持续演变以及你必须采取的市场风险缓解措施的正确答案。”
Saar 指出,每家手机厂商都可以根据其想要占领的市场数量来决定如何部署 AI。“你可以集成一个 AI 加速器,也可以把它放在单独的芯片里,也可以是专用芯片,甚至可能是几个专用的 AI 加速器。这取决于你想要的性能。假设我想要一个用于功能手机的基础芯片。我添加了一个 AI 加速器芯片,这相当于两者之间的 3D 连接。现在,我又在芯片侧面添加了一个芯片,比如说,用于 I/O 扩展,因为我想进军多媒体市场。现在我需要更多的显示功能。我需要 EDP(电子数据处理)。SoC 厂商可以将基础芯片(独立的、单片的)卖给功能手机市场。他们可以添加加速器。现在它变成了智能手机配置,他们可以在芯片侧面添加另一个芯片。然后,它就变成了消费设备、超级机器人或 PC,他们可以运用所有这些配置,从而进军不同的市场。”
通过将 AI 加速器放在第二个芯片上,供应商可以获得更好的性能,因为它在仍然使用相同基础的同时进行了优化。“现在,它不再需要花费数亿美元反复旋转硅片,而是更加稳定了,”Saar 说。
采用多芯片的另一个原因是考虑到模拟和数字信号。例如,Synaptics 用于可折叠移动 OLED 显示屏的触摸控制器可以区分握持设备、口袋拨号、水滴或汗水等情况。“我们的芯片包含一个模拟芯片和一个数字芯片,模拟芯片直接连接到传感器,数字芯片处理所有这些信息,”Synaptics 产品营销总监 Sam Toba 表示。“在数字芯片内部,我们有一个 MCU 内核,之前我们有一个内部定制的 MCU 内核,这确实有很多优势。但是一旦涉及到这些可折叠设备,需要处理的信息量就会变得非常非常大,因此我们决定采用 RISC-V。Si-Five 的 E7 是一个非常强大的 MCU 内核,非常适合高水平处理,我们的矢量协处理器就位于它的外部。”
然后,AI/ML 算法可以判断环境并检测真实的手指触摸。“我们的芯片连接到触摸传感器,检测所有信号,将模拟信号输入模拟芯片,然后在数字芯片上进行处理,”Toba 说道。“该数字芯片包含 E7、Hydra、所有算法和内存。一旦芯片确定触摸是有意义的、有意的,它就会向主机 SoC 报告。”
内存和通信的复杂性
与人工智能一样,内存也在不断变化,并且会随着不同的市场而变化。Saar 表示,如果一家 SoC 供应商瞄准所有市场,他们有几种方法可以实现。“他们可以做单片芯片。但是,他们如何适应硅片的多次自旋?他们现在有 LPDDR 6,它已经定义好了,但它会继续发展。UFS 5.0 现在已经定义好了,但它会继续发展。那么,他们会再自旋一次 2nm 硅片吗?还是会将其限制在其他方面?”
还有各种各样的网络需要考虑。手机芯片需要足够灵活,才能支持新的 5G/6G 协议,同时继续支持旧技术。“在单个系统中支持额外的带宽会增加数据处理的复杂性,也意味着大量的功耗,所以你必须非常高效地实现它,” 弗劳恩霍夫 IIS/EAS 高效电子部门负责人 Andy Heinig 表示。“否则,一方面,移动设备会在很短的时间内耗尽电池电量。另一方面,你还必须散热。你有这些多物理场要求,你需要非常高效的加速器、非常高效的 DSP 实现、数据处理等等。这就是为什么每个人都越来越多地谈论专用处理器的原因。”
在前沿设计中,这在很大程度上涉及芯片集和异构集成。在智能手机的模拟 / 混合信号领域,这可以帮助抵消多芯片组件带来的部分额外成本。根据 Cadence 的白皮书,这种方法可以 “灵活地为 IP 选择最佳工艺节点 —— 尤其是对于 SerDes I/O、RF 和模拟 IP,这些 IP 无需位于‘核心’工艺节点上”。
电源、电池和散热考虑因素
在高端移动市场,供应商正在竞相支持 AI。西门子数字工业软件解决方案网络专家 Ron Squiers 表示:“iPhone 15 和 16 在板载处理中添加了 AI 硬件,许多智能和硬件正在硅片级别融入这些芯片中。NVIDIA 等其他公司正在打造 GPU。Arm 正在打造 Zen 5 [CPU],它充当平台上 AI 硬件的协调器。亚马逊正在开发他们的 Trainium 训练和推理芯片,因此超大规模计算厂商和移动开发者都在做这件事。”
虽然移动设备始终需要 GPU 进行图形处理,但最新版本的 GPU 也能出色地处理 AI 工作负载。例如,Imagination Technologies 在其 E 系列 GPU 中,极大地改变了 ALU 流水线中工作负载的调度和执行方式(见下图 5)。
Imagination 技术洞察副总裁 Kristof Beets 表示:“它曾经拥有非常复杂、非常深的流水线,流水线级数众多,而且流水线延迟很长。我们一直从一个非常大的寄存器存储器(GPU 中 0.5 MB 大小的 SRAM)中持续提供数据 —— 因此,这是一个非常大容量、紧密耦合的大型内存。问题是,如果你在每个周期都不断地从中获取大量数据,然后将其推送到这个流水线,并且在每个周期都写出结果,那会非常耗电。”
新设计采用了更轻量级的流水线,只有两级流水线,并且可以在本地重用更多数据。“我们不会不断访问庞大的 SRAM,而是尝试重用我们附近的已有数据。这些数据可以是之前的结果,也可以是相邻流水线中的数据。因为如果你观察很多人工智能案例,就会发现你经常会通过一系列处理操作来对数据进行混洗和传输,并从相邻的流水线中获取数据。”
由此带来的帧 / 秒 / 瓦效率提升可以转化为更长的手机电池续航时间。“这可能会影响运营成本,但我们在移动领域可以做的另一件有趣的事情是,将额外的功耗节省转化为更高的时钟频率和性能,因为我们可以保持相同的功耗和热预算,”Beets 说道。
无论设计师如何实现更佳性能,功耗仍然是一个关键问题。“如今,每个人都对功耗很感兴趣,甚至连数据中心的人员也不例外,但移动设备的传统业务历史更为悠久,而且它们采用电池供电,因此它们在低功耗方面的需求更为突出,”Ansys 的 Swinnen 说道。
除了每日电池续航时间,手机制造商还必须考虑电池寿命。手机的每个方面都会产生影响,包括 SIM 卡。为此,英飞凌开发了一款微型 28 纳米 eSIM 卡,其功耗远低于传统 SIM 卡。eSIM 卡允许用户轻松切换不同的服务提供商,同时由于无需物理访问,制造商在设计方面也更加灵活。
结论
手机供应商根据他们所针对的价格层级以及他们现在或将来想要实现的 AI 功能和通信标准,采取不同的芯片设计方法。
Synopsys 的 Saar 指出,设计决策通常归结于商业原因。“这就像你问为什么一个特定的标准会流行起来,而不是一个技术上可能更优越的标准。原因有很多,现在这个或那个并不重要。如果一家供应商控制着整个垂直产业链,他们就不必使用标准的现成的虚拟制作 (VP) 摄像头接口或任何存储接口。他们可以创建自己的接口,即使质量较差。在他们看来,他们可以获得各种程度的利益,也许是更高水平的集成和卓越的运营。”
与此同时,许多新进入者正在这个竞争激烈的细分市场中开辟自己的道路。“他们过去只做手机,现在也做 SoC,”Saar 说道。“对他们来说,情况完全不同。他们可以进行不同的优化。他们不必涉足广泛领域,因为他们只关心自己的手机。他们只关心自己的用例。有些公司在整个市场,而不仅仅是移动市场,都拥有 AI 地位。我们正在制定超越硬件的企业战略或全球战略。也许混合战略对他们来说确实有意义,因为我希望手机能够连接到云端的 AI 引擎,因为现在我有了差异化。你买我的手机,你连接到我的云端,你连接到我的电子邮件。一般的 SoC 没有这些。他们卖的是硬件。”
*声明:本文系原作者创作。文章内容系其个人观点,我方转载仅为分享与讨论,不代表我方赞成或认同,如有异议,请联系后台。
想要获取半导体产业的前沿洞见、技术速递、趋势解析,关注我们!
- 上一篇:王皓已通过考编笔试
- 下一篇:奥地利校园枪击致至少死