December 11, 2024

晶圆制造中的系统工具概述

IEMS、Odyssey、RMS和SPC是四个常见的系统工具,它们在集成电路的制造过程中起着至关重要的作用,尤其是在刻蚀工艺和其他后端工艺的控制和优化方面。

1. IEMS (Integrated Engineering Management System)

IEMS 是一种集成工程管理系统,它主要用于半导体生产过程中的数据采集、监控和工程优化。它通过连接各个生产环节的数据源,集中展示所有工程和生产相关的信息。IEMS 的主要功能是实现生产过程的实时监控,工程变更的管理,以及设备的性能分析和优化。

主要功能:

实时数据采集与监控:IEMS 能够实时采集来自不同生产线、不同设备和不同工艺步骤的数据,包括温度、压力、流量、时间等参数。这样,工程师可以通过系统快速发现工艺或设备出现的异常,并做出及时调整。

工艺优化与维护:IEMS 可以结合生产数据,进行生产过程的分析,识别瓶颈和低效环节,帮助工程师改进工艺参数和设备调试。

工程变更管理:IEMS 允许在不同的生产阶段记录和跟踪工艺变更,确保生产过程的可追溯性和规范性。

类比:

可以把 IEMS 想象成一个高效的指挥中心,集成了所有生产线和设备的状态信息。就像是一个交通控制中心,实时监控城市中每一条道路的交通流量,及时疏导拥堵路段,确保交通顺畅。

2. Odyssey

Odyssey 是一种基于web的平台,用于优化半导体制造过程中的数据处理、分析和可视化。它主要应用于生产过程中的缺陷分析、质量控制以及流程优化。Odyssey 提供了丰富的数据分析工具,支持通过不同的维度进行数据查询、报表生成和趋势预测。

主要功能:

缺陷分析与跟踪:Odyssey 能够帮助工程师分析生产过程中出现的缺陷,进行缺陷的分类、统计与追踪。通过与生产数据的结合,Odyssey 可以帮助识别导致缺陷的根本原因,帮助进行流程改进。

质量控制与优化:Odyssey 提供了强大的数据分析功能,可以对生产过程中的质量数据进行实时分析,发现潜在的质量问题并进行预警。它支持多种统计分析方法,如SPC(统计过程控制)等。

可视化与报告:Odyssey 提供了灵活的数据可视化功能,工程师可以通过图表、仪表盘等形式展示生产数据,帮助决策者快速了解生产现状。

类比:

可以将 Odyssey 看作是一款高效的数据分析软件,它像一个探照灯,能在复杂的生产数据中迅速照亮潜在的问题区域。就像在一片黑暗的夜空中,通过望远镜分析星星的位置,Odyssey 让工程师能够直观地看到生产过程中潜在的质量风险和缺陷。

3. RMS (Recipe Management System)

RMS 是一种专门用于管理和优化生产过程中设备“recipe”的系统。设备的“recipe”是指设定的操作参数和步骤,这些参数控制着设备如何执行特定的工艺步骤。在刻蚀工艺中,recipe 的准确性直接影响到产品的质量和一致性。RMS 通过系统化地管理这些参数,确保生产过程的稳定性和可控性。

主要功能:

recipe 管理:RMS 允许工程师对每台设备的工艺步骤进行详细的管理。通过它,可以记录每台设备的所有参数设置,包括时间、压力、电流、温度等。这些参数会被用于每次生产的具体操作中。

参数优化与调整:RMS 提供了基于历史数据的分析功能,工程师可以查看不同 recipe 对产品质量的影响,进而调整参数,达到最佳的工艺效果。

版本控制与追溯:RMS 允许对每个 recipe 进行版本管理,确保每次生产过程中使用的 recipe 都可以追溯到具体的参数和版本,避免因为 recipe 设置不当导致的质量波动。

类比:RMS 就像是一位精密的“调度员”,它通过管理和调整生产中的每一个细节参数,确保工艺如同精准的乐曲演奏,每个音符(参数)都能够完美对接。

4. SPC (Statistical Process Control)

SPC 是一种统计过程控制方法,广泛应用于制造业中,用来监控和优化生产过程中的变异。它基于统计学原理,通过对生产过程的实时数据进行分析,帮助识别不符合标准的变异,并及时采取措施进行纠正。

主要功能:

过程监控:SPC 通过对生产过程中重要参数的持续监控,及时发现工艺变异。它使用控制图、直方图等工具,实时显示生产过程的波动情况,并标出超出控制限的点,帮助工程师识别潜在的生产问题。

数据分析与优化:SPC 的数据分析功能可以帮助工程师找到生产过程中变异的来源,无论是设备故障、操作不当,还是环境因素,都能通过 SPC 工具被识别出来。

质量改进与预测:通过对历史数据的回顾,SPC 可以帮助预测生产过程中可能出现的问题,并为未来的质量改进提供数据支持。

类比:SPC 就像是一个“守门员”,时刻监视着生产线的每一个环节。它通过不断地观察和分析,确保工艺过程不会偏离预定的标准。当出现异常时,它就像是一位警报器,发出信号,提醒工程师采取纠正措施。

我们小结一下:IEMS、Odyssey、RMS 和 SPC 是现代半导体生产中不可或缺的系统工具,它们各自有着独特的功能,但又密切协作,帮助工艺工程师保证生产过程的稳定性、提高生产效率,并降低缺陷率。

IEMS 是一个全面的工程管理平台,负责生产过程中的数据采集、监控和工程优化。

Odyssey 是一个强大的数据分析平台,专注于缺陷分析和质量控制。

RMS 是一个设备配方管理系统,确保生产过程中的参数设置稳定一致。

SPC 是一个过程控制系统,利用统计学方法帮助工程师实时监控和优化生产过程。

它们共同的目标是确保刻蚀工艺和整个制造流程的高效、精准和稳定,最终实现高质量的集成电路产品。

November 29, 2024

片上网络NoC 设计

每个多核芯片都有两个主要的片上组件:处理元件(核心)和其他非处理元件,如通信和内存架构(非核心)[27]。尽管高晶体管密度使计算机架构师能够在一个芯片中集成数十到数百个核心,但主要挑战是实现如此大量的片上组件之间的高效通信。片上通信架构负责所有内存事务和I/O 流量,并为处理器间数据共享提供可靠的介质。片上通信的性能在多核架构的整体性能中起着关键作用。性能不佳的片上通信介质很容易抵消多个高性能片上处理器的优势。因此,提供可扩展的高性能片上通信是多核架构设计人员的关键研究领域 [17]。互连设计人员面临的主要挑战是:

  • 数十个内核的可扩展通信:可以公平地说,多核芯片中处理单元的性能可能受到通信限制 [17]。由于处理能力的不断提高,数据通信速率和数据消耗速率之间很可能存在很大差距。由于片上组件数量众多,位于芯片远端的组件之间不可能存在单周期通信延迟。此外,由于片上组件数量众多,预计片上互连将支持多个并行通信流。
  • 有限的功率预算:1974 年,Dennard 预测,随着我们转向更小的节点尺寸,晶体管的功率密度将保持不变。这被称为 Dennard 缩放定律 [37]。然而,在过去十年左右的时间里,研究人员发现晶体管的功率不能以与面积相同的速率降低。因此,我们面临的情况是,我们拥有大量片上晶体管,但由于功率和热限制,没有足够的功率来同时切换所有这些晶体管。因此,提高所有片上组件的功率效率已成为继续实现摩尔定律的主要前提。片上通信架构可消耗现代多核芯片中大约 19% 的总芯片功率 [35]。因此,设计一种节能的片上互连,同时又能满足当前和未来应用的延迟和带宽要求是一项具有挑战性的任务。
  • 异构应用程序:现代多核芯片有望执行大量不同的应用程序。每个应用程序都可以以独特的方式与计算架构交互;因此,不同应用程序的通信延迟和带宽要求可能有所不同 [32]。例如,具有较大内存占用的应用程序预计会定期生成缓存未命中,因此可以归类为通信绑定应用程序。此类应用程序的性能与互连效率高度相关。另一方面,具有较小内存占用的应用程序预计受处理器限制,并且与片上互连属性无关。因此,片上互连通常是为最坏情况(在这种情况下是内存绑定应用程序)设计的,因此对于处理器绑定应用程序来说效率低下。当同时执行内存绑定和处理器绑定的应用程序时,情况会更加严重。
  • 选择互连性能指标:先前研究的主要缺点是将片上互连性能分类为与应用无关的指标,例如事务延迟和内存带宽,而不是应用级性能指标,例如执行时间和吞吐量 [31,70]。因此,一个主要的挑战是提取正确的指标来评估给定一组应用程序的不同可能的互连架构设计点。
  • 互连可靠性:随着节点尺寸的减小,人们对数字电路可靠性的担忧日益增加。任何意外的工作条件变化,例如电源电压波动、温度峰值或随机的阿尔法粒子碰撞,都可能导致电路输出不稳定。如果控制数据损坏,片上互连中的软错误可能会导致错误的应用程序输出或系统死锁。多核系统正在进入可靠性至关重要的应用,例如自动驾驶汽车和医疗设备。因此,设计人员需要在给定的功率和面积约束下,在片上互连中集成不同级别的可靠性功能。
  • 内存层次结构和片上互连的协同设计:在现代多核架构中,片上内存层次结构与片上互连架构紧密结合。事实上,对于共享内存架构,片上通信是决定内存层次结构(缓存、动态随机存取存储器 (DRAM) 控制器等)性能的主要因素。因此,互连设计人员经常面临探索内存层次结构和片上互连的组合设计空间的挑战。

1 基于总线的 SoC 架构

传统上,片上系统(SoC) 设计使用非常简单的片上互连,例如临时点对点连接或总线。基于总线的架构可能是计算机行业中最古老的片上互连标准,并且仍在许多片上系统 (SoC) 应用中使用 [87]。协议简单且因此门成本低可能是基于总线的架构主导所有其他可用片上互连选项的主要原因。对于少量片上组件,由于协议设计简单,总线互连更易于集成,并且在功耗和硅成本方面都很高效。在基于总线的架构中,多个组件使用单个数据和控制总线进行交互,从而提供简单的主从连接。当多个主设备尝试与单个从设备通信时,需要进行仲裁,从而导致资源争用。因此,在大型基于 SoC 的设计中,基于总线的架构在性能方面的可扩展性值得怀疑 [61]。 [34, 41] 中提出的一些基于总线的 SoC 的经典设计技术使用最坏情况总线流量来设计最佳架构。Kumar 等人 [57] 对共享总线型芯片多处理器 (CMP) 架构的可扩展性和性能进行了详细研究。他们得出结论,基于总线的互连网络可以显著影响缓存一致性 CMP 的性能。

已经提出了几种对传统总线互连架构的改进。ARM Ltd.、AMBA架构 [1]、IBM CoreConnect 架构 [3] 和 Tensilica PIF 接口 [5] 是广泛使用的先进总线通信介质的几个例子。所有这些架构都提供了多种高级功能,如突发数据传输、多主仲裁、多个未完成事务、总线锁定以及同时异步和同步通信。然而,Rashid 等人 [91] 通过分析表明,即使是像 AMBA 这样的先进总线架构,在性能方面也不如现代基于片上网络 (NoC) 的通信架构。然而,同一项研究表明,由于现代 NoC 设计的面积和能源开销,设计人员仍然倾向于基于 AMBA 的片上互连。SoC 设计人员对各种商用总线架构的公平比较非常感兴趣;然而,片上互连的性能在很大程度上取决于每个应用程序的流量模式、总线微架构和系统参数 [67]。

基于总线的架构设计简单、可预测的访问延迟和低面积开销是主要卖点。然而,除了少数核心外,总线互连的性能会显著下降[83]。

2 交叉开关式片上互连

单共享总线架构在多个主从数据事务的情况下显然速度较慢。主要瓶颈是单个共享介质和由于多个主接口之间的仲裁而导致的延迟(图 15.1)。因此,设计可扩展片上互连的第一种方法是采用交叉开关拓扑。交叉开关是一种矩阵交换结构,可将所有输入与所有输出连接起来,从而实现多个通信连接(图 15.1)。这个想法借鉴了电信行业,这种架构已在电话应用中成功使用了四十年 [82]。

相同的多通信通道概念在SoC 设计行业中也已实现,即通过组合多条共享总线形成全输入全输出连接矩阵。该概念也称为分层总线或多层总线。STBus [53] 可能是最著名的商用总线架构,它本身就支持交叉开关架构。Yoo [104] 提供了一种基于 AMBA 的级联总线架构的设计方法。Yoo 等人尝试在单个基于交叉开关的 SoC 设计中集成 90 个 IP 块。同样,[72] 中的作者提供了一种使用 STBus 协议设计特定于应用程序的交叉开关架构的完整设计方法。他们声称与标准单总线架构相比,其性能有显著提升。最有趣的交叉开关实现是 IBM Cyclops64 架构的互连系统。每个 Cyclops64 交叉开关连接 80 个定制处理器和大约 160 个内存条。 Cyclops64 互连的单次事务延迟为 7 个周期,带宽可与最先进的 NoC 架构相媲美,可能是 SoC 领域最先进的实用交叉开关设计。

由于端口数量与延迟和线路成本之间存在非线性关系,研究人员一直在争论基于交叉开关的互连架构的可扩展性[107]。然而,[82] 的最新实验表明,采用 90 nm 技术实现 128 端口交叉开关是可行的。他们将其交叉开关设计与最先进的基于网格的 NoC 设计进行了对比,并得出结论,交叉开关设计在延迟、带宽和功耗方面与 NoC 架构相匹配。然而,由于线路布局复杂,设计复杂度过高。

<3>3 片上网络互连

遵循摩尔定律,片上晶体管资源越来越丰富,我们的目标不再仅限于在单个芯片上安装数千个内核。据预测,这种千核多处理器片上系统(MPSoC) 的性能将取决于通信架构 [16]。传统的基于总线的架构无法扩展到几十个 IP 块以外,因此需要提供更具可扩展性和协议不变性的通信架构。

片上网络架构[29, 58] 是解决基于总线的架构可扩展性问题的解决方案。NoC 本身就支持高度集成的 SoC 设计的总体趋势,并提供了新的片上通信设计事实标准。NoC 的基本思想改编自成熟的计算机网络结构。特别是,计算机网络的分层服务架构已在 NoC 中得到很好的改编,可提供可扩展的解决方案。在 NoC 架构中,数据被转换成数据包,这些数据包根据预定义的路由技术穿越多个跳数(交换机或路由器)。使用 NoC 作为片上互连的主要优势包括:

  • NoC 本身通过物理分布的路由器和链路的组合支持多条通信路径,这大大增加了可用的片上数据带宽。这使得不同的内核能够并行交换数据,而无需任何中央仲裁。这使得 NoC 成为支持具有数十和数百个内核的多核芯片日益增长的通信需求的理想候选互连。给定源和目标内核之间的多条通信路径使 NoC 具有固有的容错能力。如果给定路径上的路由器或链路出现永久性错误,则可以通过源和目标内核之间的备用路径重新路由数据。
  • NoC 架构使用具有高度可预测电气特性的短电线。与总线互连相比,在路由器之间切换短线需要更小的驱动晶体管。这有助于提高互连的能量/位指标。此外,由于线路延迟更短,NoC 可以在比总线和交叉开关更高的频率下切换,而不会显着增加功率。深亚微米半导体制造引入了线路的完整性问题。使用较短的线路可以降低制造故障的概率,从而提高生产良率。短线的可预测电气特性也有助于降低设计验证成本。
  • NoC 遵循模块化设计范式,允许重用现有的硬件知识产权 (IP) 块。对于大多数设计,只需实例化现有设计和验证的路由器 IP 的多个副本,即可轻松将 NoC 扩展到不同数量的内核和应用程序。这降低了芯片设计过程的整体复杂性。
  • NoC 在计算和通信之间提供了明确的界限。片上组件(内存控制器、处理核心、硬件 IP 等)可以具有不同的通信协议(AXI、AHB 等),这些协议通过协议转换器转换为标准数据包格式。因此,片上组件之间的数据通信与不同组件使用的通信协议无关。这对于使用来自不同 IP 供应商的硬件组件设计异构 SoC 非常有用。

November 28, 2024

美国再出击,发布HBM禁令,明年1月2日生效

据路透社报道,美国商务部工业与安全局(BIS)已定于12月6日发布一项针对HBM(高宽带内存)的禁令,涵盖HBM2E、HBM3,HBM3E。该禁令于2025年1月2日生效。

要知道 AI 和深度学习算法需要处理庞大的数据集,而 HBM 的高带宽和大容量特性使其成为最理想的内存解决方案。

限制中国获取HBM,可以限制中国发展大规模高性能计算的硬件能力,从而限制中国AI产业的发展。

当前,HBM市场呈现高度垄断的局面,主要由SK海力士、三星和美光这三大巨头掌控。

2023年,市场中主要应用的是HBM2、HBM2E和HBM3,下半年在英伟达H100和 AMD MI300 的推动下,HBM3渗透率提升。2024年 HBM3E 则成为主打,占比逾46%。

HBM需求主要集中在英伟达、AMD、谷歌等芯片大厂,其中英伟达是 HBM 市场的最大买家,所需 HBM 在全球占比 50%。

国内厂商受成本、科技、海外贸易政策等因素影响,需求较小,占比约6%-7%。目前主流的国产AI加速大都处于 HBM2、HBM2E区间,比HBM3E版本落后两代,主要还是来源于三星和SK海力士。

HBM2是前几年的技术,带宽是最新代次HBM3E的1/4,单颗最大容量大概1/5。这还没有加上集群的“代差”。本来AI 芯片就存在较大落差,加上HBM的“代差”,那么相对差距也将层级放大。

有专家分析,如果禁令实施,短期内将对中国AI 及高性能计算行业造成直接冲击,将迫使国内关联企业加速发展自主替代方案,但研发和量产压力巨大。

HBM生产需同时具备DRAM生产和先进封装工艺(核心工艺包括TSV、micro bumping和堆叠键合技术)的产业化能力。

国内部分企业虽有一定的DRAM和先进封装技术基础,但掌握的DRAM工艺制程明显落后于国际水平,且在DRAM上应用TSV、micro-bumping和堆叠键合等先进封装工艺的经验有所不足。

长期来看,禁令可能刺激中国在先进存储器领域的研发投入,加快国产化步伐。

当然HBM三大厂商也会遭受到不同程度的冲击。

据2023年数据显示,HBM市场,SK海力士占比53%、三星占比38%,美光占比9%。

SK海力士将大部分HBM产能分配给了英伟达、AMD等巨头。美光身为美国企业,因出口管制无法向中国大陆供货。

三星抢占了大部分中国大陆的市场份额,如果禁令实施,三星受冲击最大。

November 25, 2024

AMD 基于 Zen5 新架构的线程撕裂者也要来了

尽管 AMD 已经为各个平台发布了新架构产品,例如主流桌面的 Granite Ridge Ryzen 9000 CPU、移动端的 AMD Strix Point CPU 和 EPYC 系列,但基于 Zen 5 架构的线程撕裂者 Threadripper 和 Threadripper Pro 系列 CPU 仍未正式亮相。

最近,根据爆料者 @Olrak29_ 分享的海关发货日志,出现了两款 Threadripper 9000 系列处理器:旗舰级的 96 核心 CPU 和入门级的 16 核心 CPU。虽然日志中未明确提到核心名称,但分析这些处理器很可能就是此前泄露的 Shimada Peak 芯片。 具体而言,Threadripper 9000 16 核处理器将采用 16 核/32 线程配置,配备两个 8 核心的 CCD。96 核心的芯片则采用 12 个 CCD,提供 96 核/192 线程的强大性能。每个 CCD 具有 32 MB 的三级缓存,因此 96 核处理器总共拥有 384 MB 的 L3 缓存。

这些规格与现有的 Threadripper PRO 7995WX 相同,预计也具备 350W 的 TDP、128 条 PCI-E 通道以及对相同芯片组的支持。两者之间的主要区别在于工艺节点和架构。值得一提的是,AMD 还计划在下一代 Threadripper 芯片中使用 3D V-Cache 技术,这将为性能带来新的提升。

预计之后还会有更多型号,包括 24 核/48 线程、32 核/64 线程和 64 核/128 线程的版本。Threadripper 9000 和 Pro 9000 系列芯片预计将于 2025 年在 TRX50 和 WRX90 芯片组上推出。但截至目前,具体的发布日期仍未确定。

原文地址: AMD 基于 Zen5 新架构的线程撕裂者也要来了

三星正在努力进入英伟达供应链

据彭博社报道,NVIDIA 首席执行官黄仁勋近日在香港科技大学的一次活动中表示,公司正与三星合作认证其“AI 内存”芯片。他强调,NVIDIA 正在“尽可能快地”推进与三星的 HBM 业务。这一声明意味着,三星有望为 NVIDIA 提供 8-Hi 和 12-Hi 的 HBM3E 内存。

对于三星来说,成功获得 NVIDIA 的订单将是其在人工智能市场取得的重要突破。这不仅使三星能与竞争对手 SK 海力士等站在同一水平,还将提升投资者对三星的信心。参与 NVIDIA 的供应链将为三星打开新的市场机遇,进一步巩固其在半导体行业的地位。

此前,三星透露尚未成功拿下 NVIDIA 订单,这对公司的财务表现造成了一定影响。一些业内人士甚至认为,三星试图进入 NVIDIA 供应链的计划可能会受挫。然而,最新的进展显示,双方正朝着积极的方向发展。

对于 NVIDIA 而言,面对巨大的市场需求,扩大供应链合作伙伴至关重要。与三星合作,不仅能满足其对 HBM 内存的需求,还可能受益于三星在半导体供应方面的优势。

目前,双方的合作细节尚未完全披露,但业界对三星能否最终赢得 NVIDIA 的信任保持关注。鉴于认证过程已经持续一段时间,期待双方尽快达成合作,共同推动 AI 芯片市场的发展。

November 23, 2024

从UALink近期发展再看GPU Scale Up的互连方向

GPU的Scale Up互连成为炙手可热的话题,在2024年涌现了众多相关的行业讨论。站在CSP的视角,什么样的技术以及生态才能满足云上智算集群的发展?为什么采用全新的Scale Up设计而不复用当前的以太网和RDMA技术呢?本文借着行业内的一些事件,对GPU超节点的Scale up互连的技术方向观点进行分享。

在GPU算力架构发展的历程和趋势中,行业逐渐意识到大模型的训练推理对显存容量以及带宽有不断增长的诉求,传统的GPU单机8卡方案已经不能满足业务发展的需要,更多卡组成超节点并具备大容量显存和低延的共享的解决方案才能满足大模型的需求。比如阿里云在今年9月份发布了Alink Sytem开放生态和AI Infra 2.0服务器系统,其中底层互连协议部分兼容国际开放标准UALink协议。

10月29日,UALink联盟正式发布,并开启新成员邀请,发起成员包括AMD、AWS、Astera Labs、Cisco、Google、HPE、Intel、Meta 和Microsoft。其中相对于5月份的首次披露的成员,博通消失了,取而代之的是AWS和Astera Labs。其中AWS的加入引人遐想,因为AWS一向低调,很少参与协议组织。这次AWS躬身入局UALink联盟也展示了其对于GPU Scale Up互连需求的思考,以及对于UALink原生支持GPU互连这个技术方向的认同。为什么AWS和阿里云这些CSP陆续拥抱原生Scale Up互连协议,下面我们就对Scale up互连的需求和场景做一些展开论述。

智算集群的互连架构

当前智算集群内,围绕着GPU存在三大互连,分别是业务网络互连、Scale Out网络互连、Scale Up网络互连,它们分别承载了不同的职责:跨业务、集群内、超级点GPU之间连通性。随着AI应用的爆发,推理的GPU规模最终会大大超过训练,由于推理服务同时追求业务请求的低延迟和高吞吐,Scale Up互连技术对于智算超节点意义重大,Scale Up主要是面向大模型推理服务以及兼顾训练。

November 17, 2024

为什么说GDS文件是芯片设计的图纸




GDS文件在集成电路设计和制造中扮演着至关重要的角色,它连接了设计与制造,将设计师的构想精确地转化为实际的芯片结构。

一、GDS文件的定义与功能

GDS是什么?GDS(Graphic Data System)是一种用于描述集成电路(IC)物理布局的二进制文件格式。其最新版本常被称为GDSII。可以将GDS文件比作“建筑蓝图”,它记录了芯片布局的每个细节,包括不同层次上的图形形状、电路元件的连接方式等,以便制造阶段将这些设计准确地复制到硅片上。

November 15, 2024

AMD中国大裁员

最新消息,曝AMD近期在中国进行大规模裁员,赔偿方案为N+1+2,在N+1的基础上额外获得两个月基本工资,社保缴纳至年底。

据快科技11月13日凌晨消息称,日前网传AMD中国区大幅裁员,对此,AMD 官方回应称:“网络传闻失实。”

“为了将我们的资源匹配在我们最大的增长机会上,我们将采取一系列有针对性的措施,其中包含全球员工人数减少约4%。中国区受影响的员工占比与全球一致。”

“我们仍将在关键岗位上继续招聘,以满足我们最大的战略增长机遇的需求。我们承诺尊重受影响的员工并帮助他们度过过渡期。”

有新加坡网友爆料,AMD新加坡近期也在小规模裁员,据说裁员和绩效考核有关,淘汰低绩效员工。

AMD成立于1969年,是一家美国半导体跨国公司,也是英特尔的竞争对手,全球第二大PC处理器制造商,主要生产CPU、GPU和APU等产品,也就是显卡和集成处理器。其产品不管是性能还是价格上都有很强的竞争优势。

AMD在上海的研发中心,成立于2006年,是AMD公司在美国本土以外最大的研发中心,员工总数约3000名。这个研发中心主要负责CPU、GPU和APU等产品的设计、开发和测试等工作,曾经为AMD贡献了不少创新的技术和产品。

据称,2023年10月AMD在中国进行了一波裁员,主要是SOC和RTG两个部门的部分优化。网传赔偿方案有两种:当场签约:N+1+2,社保缴纳12月份;非当场签约:N+1+1,社保缴纳至11月份。

10月底,AMD发布了2024年第三季度财报。公司三季度业绩符合市场预期,营收达68.2亿美元,同比去年增长18%,净利润达到7.71亿美元,同比大增158%,毛利率达50%。

业绩大增的AMD为何还要裁员?只能说是企业为了更好的发展,开始投资新的机遇,作出发展战略调整。一边裁员,一边招聘,就是职场现实和残酷。

不过从之前的裁员来看,AMD也算是负责任的企业,给予员工应有的裁员补偿,并且也承诺尊重受影响的员工并帮助他们度过过渡期。

September 14, 2024

这个Windows内置应用程序会影响电脑启动速度

相信很多小伙伴,在查看照片和视频时,都会选择默认的微软照片应用程序。这款应用随Windows系统预装,方便快捷。然而,近期有不少用户反映,这款应用导致电脑运行变慢,令人头疼。

经过PC World调查,发现主要有以下两个原因导致微软照片应用拖慢电脑速度:

1. 微软在六月份将照片应用从UWP(Universal Windows Platform,通用Windows平台)迁移到了Windows App SDK,这一改变可能影响了应用的性能。

2. 微软不断为照片应用添加新的AI功能,虽然功能更强大,但同时也使得应用变得更加庞大,启动速度变慢。

August 3, 2024

AMD Zen 5 EPYC 9755跑分数据流出

近日,AMD 基于Zen 5架构的EPYC 9755 “Turin” CPU在CPU-z基准测试中展示了其惊人的性能表现。这款128核旗舰级CPU在单核测试中获得了653.7分,而在多核测试中更是达到了惊人的108,093分,轻松突破了10万分。

AMD EPYC 9755 CPU是第五代EPYC系列的最新产品,代号为Turin,采用Zen 5核心架构,拥有128个内核和256个线程。其基本时钟频率为2.70 GHz,最高可提升至4.10 GHz的时钟速度。这款CPU的内核和线程数量相比前代产品增加了33%,时钟频率提高了11%。此外,它还配备了巨大的缓存池,总计650 MB,包括512 MB的L3缓存、128 MB的L2缓存和10 MB的L1缓存。相比之下,前一代基于Zen 4架构的EPYC 9654(Genoa)拥有496 MB的总缓存。

从技术规格来看,EPYC 9755配备了16个CCD,每个CCD包含8个核心,每个核心具有4 MB的L3缓存和1 MB的L2缓存。此外,每个核心还配备了80 KB的L1缓存。所以加在一起就是16 x 8 x (4+1+0.08) = 650MB。

如前所述,EPYC 9755在多核测试中获得了108,093分,超越了前代产品EPYC 9654的95,002分,提升幅度达14%。这一成绩表明,尽管测试样品可能是早期工程样品,但其性能已经相当出色,最终的零售版本性能有望进一步提升。

除了服务器市场外,通过EPYC 9755的性能表现也能预测基于Zen 5架构的下一代线程撕裂者Threadripper产品线的潜力。EPYC CPU能够在多核测试中突破10万分,那么具有更高时钟频率和额外优化的Threadripper CPU将有望轻松超越12~13万分,甚至在超频情况下达到15万。

AMD凭借其Zen 4产品在服务器和工作站市场已经占据了主导地位,随着Zen 5的推出,AMD有望进一步巩固其在这些领域的领先地位。EPYC 9755的强劲性能不仅展示了AMD在高性能计算领域的技术实力,也为未来的产品线奠定了坚实基础。

May 5, 2024

Intel“模拟大脑”已有11.5亿神经元

Intel正式发布了代号“Hala Point”的新一代大型神经拟态系统,用于类脑AI领域的前沿研究,提升AI的效率和可持续性。

该系统基于Intel Loihi 2神经拟态处理器,在上代大规模神经拟态研究系统“Pohoiki Springs”的基础上,进一步改进了架构,将神经元容量提高了10倍以上,达到史无前例的11.5亿个,大致相当于猫头鹰或卷尾猴的大脑皮层规模,性能也提高了多达12倍。

2018年1月,Intel发布了第一款能够进行自主学习的神经拟态芯片Loihi,可以像人类大脑一样,通过脉冲或尖峰传递信息,自动调节突触强度,通过环境中的各种反馈信息,进行自主学习、下达指令。

Loihi基于Intel 14nm工艺,核心面积60平方毫米,包含128个神经形态的核心(Neuromorphic Core)、三个低功耗x86核心,集成12.8万个神经元、1.28亿个触突,每个神经元有24个变量状态。

Loihi 2处理器发布于2021年10月,首发采用Intel 4工艺,集成230亿个晶体管、六个低功耗x86核心、128个神经形态核心,单颗就有100万个神经元、1.2亿个突触,是上代规模的8倍,性能也提升了10倍。

Loihi 2支持新型神经启发算法和应用,应用了众多类脑计算原理,如异步、基于事件的脉冲神经网络(SNN)、存算一体不断变化的稀疏连接,而且神经元之间能够直接通信,不需要绕过内存。

它还支持三因素学习规则、出色的突触(内部互连)压缩率,内部数据交换更快,并具备支持与内部突触相同类型压缩率的片外接口,可用于跨多个物理芯片扩展片上网状网络。

尤其是在新兴的小规模边缘工作负载上,它实现了效率、速度和适应性数量级的提升。

比如执行AI推理负载和处理优化问题时, Loihi 2的速度比常规CPU和GPU架构快多达50倍,能耗则只有百分之一。

Hala Point系统的形态是一个六机架的数据中心机箱,大小相当于一个微波炉,内置1152颗Loihi 2处理器,共有140544个神经形态处理内核、11.5亿个神经元、1280亿个突触,最大功耗仅为2600瓦。

系统内还有2300多颗嵌入式x86处理器,用于辅助计算。

内存带宽达16PB/s(16000TB/s),内核间通信带宽达3.5PB/s(3500TB/s),芯片间通信带宽达5TB/s,可以每秒处理超过380万亿次的8位突触运算、超过240万亿次的神经元运算。

Hala Point在主流AI工作负载上的计算效率非常出色,比如运行传统深度神经网络时,每秒可完成多达2万万亿次运算(20PFlops),8位运算的能效比达到了15TOPS/W(每瓦特15万亿次计算),相当于甚至超过了基于GPU、CPU的架构。

在用于仿生脉冲神经网络模型时,Hala Point能够以比人脑快20倍的实时速度,运行其全部11.5亿个神经元。

尤其是在运行神经元数量较低的情况下,它的速度甚至可比人脑快200倍!

早期研究结果表明,通过利用稀疏性高达10比1的稀疏连接和事件驱动的活动,Hala Point运行深度神经网络的能效比可高达15TOPS/W,同时无需对输入数据进行批处理。

Hala Point系统有望推动多领域AI应用的实时持续学习,比如科学研究、工程、物流、智能城市基础设施管理、大语言模型、AI助手等等。

另外,Intel已经在用AI辅助设计芯片了,效果还挺好。

Intel内部研发了一种新的AI增强工具,可以让系统级芯片设计师原本需要耗费6个星期才能完成的热敏传感器设计,缩短到区区几分钟。

在芯片电路设计中,工程师需要确定热感应器在CPU处理器中的安放位置,并判断热点容易出现的区域。

这是一个复杂的流程,需要进行各种测试,包括模拟工作负载、传感器位置优化等等,经常需要重新开始整个步骤,而且一次只能研究一两个工作负载。

Intel客户端计算事业部高级首席工程师、人工智能解决方案架构师Olena Zhu博士领衔增强智能团队开发的这款AI工具,可以帮助系统架构师将数千个变量纳入未来的芯片设计中,包括精确分析激活CPU核心、I/O和其他系统功能的复杂并发工作负载,从而精准地确定热点的位置,并放置对应的热敏传感器。

这款工具解决了这些需要靠推测进行的工作。工程师只需输入边界条件,它就可以处理数千个变量,几分钟内就返回理想的设计建议。

酷睿Ultra Meteor Lake处理器的设计工作就使用了该工具,未来的客户端处理器,比如将在今年晚些时候发布的Lunar Lake,以及后续产品,都会继续用它。

Intel客户端计算事业部高级首席工程师、人工智能解决方案架构师Olena Zhu博士

Intel客户端计算事业部增强智能团队的在AI方面的其他进展还有:

  • 一个能快速识别关键热工作负荷的配套工具,通过大模型训练,可以预测尚未进行模拟或测量的其他工作负载。
  • 对于高速I/O的快速准确信号完整性分析工具,设计时长从几个月缩短至1个小时。Intel是业界首个采用此技术的公司,已经为多代芯片的设计提供支持。
  • 基于AI的自动故障分析工具,用于高速I/O设计,2020年就已部署,设计效率已提升60%。
  • 增强型智能工具AI Assist,能够使用AI模型自动确定不同平台的定制超频值,将超频所需的准备时间从几天减少到1分钟。14代酷睿已提供该工具。
  • 基于AI的自动化硅片版图设计优化器,已纳入Intel SoC设计流程。
  • 一种智能采样工具,可以帮助动力和性能工程师处理智能设计实验,测试用例数量减少40%。
  • 一种用户交互工具构建的AI模型,可以预测架构方案的性能,并帮助解决CPU设计的平衡问题。
  • 一种自动放置微型电路板组件的新方式,将循环时间从几天缩短至几个小时。

Intel工程团队还利用内部开发的AI算法,成功将单个处理器的测试时间减少了50%。

Intel强调,尽管这些工具都非常有用,不会或者很少出现任何错误,但是增强智能在短期内并不会取代真正的工程师。

Intel增强智能团队成员Mark Gallina、Olena Zhu、Michael Frederick在俄勒冈州希尔斯伯勒的Intel客户端计算事业部实验室

为什么谷歌没有销售AI硬件TPU

由于GPU在AI硬件市场的主导地位,NVIDIA的股价飙升。然而与此同时,谷歌众所周知的AI硬件TPU却并不对外出售,用户只能在谷歌云上租用虚拟机来使用它们。为什么谷歌没有加入销售AI硬件的游戏呢?

May 4, 2024

AMD MI300A在测试中超出H100四倍

AMD Instinct MI300A 是AMD公司开发的一款高性能APU(Accelerated Processing Units),结合了CPU和GPU的功能,专为高性能计算(HPC)和人工智能应用而设计。这种处理器的设计目的是提供强大的计算能力,以支持大规模科学计算和数据密集型任务。

关于对AMD Instinct MI300A APU 的简要特性:

  • 首款集成 CPU 和 GPU 的组件
  • 面向大规模超级计算机市场
  • 包含 1530 亿个晶体管
  • 多达 24 个 Zen 4 核心
  • 基于 CDNA 3 GPU 架构
  • 最高 192 GB HBM3 内存
  • 包括多达 8 个芯片组和 8 个内存堆栈(采用 5 纳米和 6 纳米工艺)

与传统的独立 GPU 相比,AMD 的 Instinct MI300A APU 在高性能计算(HPC)工作负载中实现了巨大的性能提升。Instinct MI300A 实现了多年前提出的“Exascale APU”平台概念,该平台将高性能 GPU 和 CPU 集成在同一芯片封装中,并共享统一内存池。对于高性能计算而言,这种加速器/协处理器设计不仅提升了每瓦特性能,但同时也需要进行大量的代码移植、优化和维护工作,这可能涉及数百万行代码,是一项具有挑战性的工作。研究人员已经开始利用 OpenMP 和 OpenACC 这两种流行的编程模型,充分发挥 AMD 下一代 APU 的性能潜力。

在一篇题为《使用统一内存和 OpenMP 将 HPC 应用程序移植到 AMD Instinct MI300A》的研究论文中,科学家利用 OpenFOAM 框架(这是一个开源 C++ 库),提供了在 MI300A APU 上移植代码的灵活性和便捷性的蓝图,并详细阐述了使用 OpenFOAM 对原来系统进行加速的方法。得益于 AMD Instinct MI300A 加速器的统一 HBM 接口,数据无需复制,也无需区分主机与设备的内存编程。此外,AMD 的 ROCm 软件套件提供了额外的优化功能,有助于整合 APU 的各部分,形成一个连贯的异构系统。因此,性能得到了极大提升。

在采用 OpenFOAM 的 HPC 循环基准测试中,AMD Instinct MI300A APU 与 AMD Instinct MI210、NVIDIA A100 80 GB 和 NVIDIA H100 (80 GB) GPU 进行了比较。在这些测试中,AMD GPU 运行在 ROCm 6.0 协议栈上,而 NVIDIA GPU 则在 CUDA 12.2.2 上运行。此基准配置为运行 20 个时间步长,以每个时间步长的平均执行时间为性能指标。

测试结果显示,AMD Instinct MI300A APU 的性能是 NVIDIA H100 系统的四倍,是 Instinct MI210 加速器的五倍。在 APU 上,由于 CPU 核心与 GPU 计算单元共享统一物理内存,完全消除了页面迁移的开销,因此性能大幅提升。

研究还发现,采用单个 Zen 4 CPU 封装的 AMD Instinct MI300A 运行速度是采用独立 GPU 解决方案的单插槽 Zen 4 CPU 的两倍。当在 MI300A APU 上超载多个进程后,性能进一步提高了两倍,显示出超过传统 dGPU+dCPU 配置的可扩展性。

由此看来,AMD Instinct MI300A APU 在高性能计算领域的计算能力将无人能及。尽管 NVIDIA 在其下一代 Blackwell 阵容中已经转向强调人工智能性能,AMD 通过其 MI300X 加速器及未来的产品更新,将在 HPC 领域继续保持领先。

如何将ubuntu的Linux内核升级到最新版本

当我们的开发环境使用的是ubuntu ,但因其Linux内核版本太低已经满足不了新的开发和调试需求时,此时又不想大动干戈升级整个系统,就可以考虑在该版本上只升级Linux内核即可。

May 3, 2024

AMD 55岁生日快乐!市值已超Intel 1000亿美元

不知不觉,AMD已经成立55年了!

AMD成立于1969年5月1日,只比Intel晚了不到一年,相爱相杀已经超过半个世纪。

1982年2月,AMD与Intel签约成为8086/8088处理器的第二制造商、供应商,用于IBM PC,后延伸到80286。

之后,Intel拒绝继续提供技术授权,AMD将其告上法庭,最终在1994年获胜,赢得超过10亿美元的赔偿,再往后的AMD386、AMD486都凭借高性价比大获成功,而在Intel进入奔腾时代之后,两家“分道扬镳”。

AMD处理器发展史可以大致分为八个阶段,分别是80486-K6、K7、K8、K10、K10.5、12h APU、15h推土机、Zen锐龙。

2006年7月,AMD 54亿美元并购ATI,成为其发展史的转折点,虽然因此背上巨额债务,之后不得不切割晶圆厂,但同时拥有了强大的CPU、GPU,获得了更多发展机会。

2020年10月,AMD 350亿美元(股票)收购FPGA大厂赛灵思,迎来新机遇。

目前,AMD公司市值约2330亿美元,领先对手Intel多达1000亿美元。

再说个A卡的新消息,RDNA4架构的RX 8000系列虽然很遗憾不会有顶级旗舰,但也不是完全躺平,仍会有可取之处,比如光追。

根据最新曝料,RDNA4架构的光追部分将会是完全重新设计的,而现在的RDNA3光追只是在RDNA2基础之上做了一些改进,变化并不大。

很显然,RDNA4的光追性能、画质都会有一次质的飞跃,但具体能达到什么程度还不得而知。

值得一提的是,PS5 Pro GPU部分将会是一个定制的特别版,基础架构来自RDNA3,而光追部分来自RDNA4。

这也从一个侧面证实,RDNA4的光追会很有一套,预计吞吐能力可翻一番。

如果RDNA4架构显卡能在主流乃至低端上提供更好的光追,无疑是更大的福音,可以让更多普通玩家享受光追的魅力。

May 1, 2024

英伟达上线了ChatRTX新版本

NVIDIA今日发布了ChatRTX应用程序0.3版本的更新,该更新在NVIDIA的官网上线。这款类似ChatGPT的应用程序新增了多项功能,这些功能曾经在3月份的NVIDIA GTC会议上做过展示,包括图片搜索能力、AI语音识别技术,以及对更多大型语言模型(LLM)的支持。

Linux服务器挂载硬盘

使用外接硬盘拷贝或者保存数据很常见,在windows系统下硬盘可以即插即用,但是在Linux系统,需要将硬盘挂载后才能使用。挂载方法也会因为硬盘文件系统的不同而不同。

mount用于Linux服务器上的硬盘挂载,挂载时给定硬盘盘符及目录挂载路径即可,以下是详细介绍。

华盛顿大学发明新PCB材料

华盛顿大学的最新研究提出了一种新型的环保印刷电路板(PCB)技术,名为“vPCB”(玻璃化PCB)。这种材料可多次回收利用,几乎不产生废物。vPCB通过使用一种高度工程化的聚合物——玻璃化体替换大部分传统PCB材料。这种聚合物在固化时可形成PCB,在需要时则可膨胀,以便回收或重新利用其中的组件。

在回收过程中,研究人员能够回收98%的玻璃化体和100%的玻璃纤维。测试表明,vPCB在强度和电性能上与目前广泛使用的FR-4材料相当。与传统PCB相比,vPCB有望减少81%的致癌物排放,这使其成为一种潜在的替代产品,特别是在当前科技高速发展的背景下,对环境友好的解决方案显得尤为重要。

此外,此前也有尝试制造更可持续的PCB,例如开发可溶于水的PCB。这种PCB在与水接触后可以溶解,其组件仍可被回收。这与vPCB的主要优点相似,不过有一点需要注意:无论PCB的制造方式如何,工作中的电子设备都应避免与水接触。

这些努力表明,技术界仍在关注减少行业对地球的影响。希望未来我们能看到更多像vPCB这样的环保制造方法成为常态。

IBM在加拿大建设封装厂

据彭博社报道,IBM公司计划在接下来的五年内,投资超过7.3亿美元用于扩建位于魁北克省布罗蒙特的半导体封装与测试工厂。

布罗蒙特工厂占地约800英亩,位于蒙特利尔东约50英里处,是北美半导体生产的重要基地,其应用领域广泛。该工厂还拥有加拿大首个通用量子计算机。IBM的扩展计划可以减少目前对台湾等地封装服务的依赖。

扩建将和IBM的合作伙伴MiQro创新合作中心共同实施。这一阶段由加拿大和魁北克政府共同出资1亿加元,重点是扩大现有工厂并建立一个新的研发实验室。这些改进对于适应半导体产业不断变化的需求至关重要。

IBM认为,东亚地区占全球半导体制造业的75%(包括存储器)。这种集中度在疫情期间已显示出对供应连续性的风险。布罗蒙特的计划发展目标是通过建立更有韧性的北美供应框架来减轻这些风险。

同时,加拿大的策略是通过专注于如航空和医疗等专业领域来补充美国。即支持特定的高技术领域,而非大规模生产通用组件。

Arm史上最快!阿里128核心处理器

电气电子工程师学会(IEEE)最新的《Transactions on Cloud Computing》期刊上的一篇论文指出,阿里巴巴2021年发布的倚天710,是当今性能、能效最好的Arm架构云服务处理器。

阿里倚天710采用5nm工艺制造,纯64位Armv9指令集架构,128核心,每核心1MB二级缓存,共享64MB三级缓存,最高主频3.2GHz,支持八通道DDR5内存、96条PCIe 5.0通道。

阿里称它是业界性能最强的ARM服务器芯片,领先超过业界标杆20%,能效比也提升50%以上,主要用于阿里云数据中心。

本次测试对比了多款竞品,包括Intel至强铂金8848C(32C/3.2GHz/105MB)、鲲鹏920(60C/2.4GHz/32MB)、Ampere Altra(80C/3GHz/32MB)、亚马逊Graviton 2/3(64C/2.5/2.6GHz/32MB)。

其中,Intel的自然是x86指令集,其他几款都是Armv8指令集。

在八项测试中,对比同样Arm架构的竞品,阿里倚天710几乎全程一路“遥遥领先”,唯一表现平平的就是Excel。

即便对比x86架构的至强铂金8848C,它也不遑多让,Dhrystone、Whetstone两个项目中都与之处于相当的水平。

论文还指出,阿里倚天710除了性能出色,还有领先的指令集、DDR5内存、PCIe 5.0通道,以及更大的三级缓存,而且是在2021年就做到了。

顺便看看我们更熟悉的客户端产品。

Intel将在今年晚些时候推出的Arrow Lake、Lunar Lake会划归到第二代酷睿Ultra,其中前者重回桌面高性能市场,最多还是8P+16E 24核心,不过失去超线程,也就是最多24核心24线程。

之前已经知道三款K系列型号,分别是酷睿Ultra 9 290K、酷睿Ultra 7 270K、酷睿Ultra 5 260K,预计分别8+16 24核心、8+12 20核心、6+8 14核心。

现在确认了一款“酷睿Ultra 5 240F”,定位中低端市场,特殊之处在于将同时使用8+16、6+8两种配置的芯片,实际规格预计是6+4 10核心。

换言之,如果使用原生8+16的芯片,它需要屏蔽2个大核心、12个小核心。

至于入门级有没有酷睿Ultra 3系列,暂时不详,至少目前的一代酷睿Ultra没有。

当然,这种做法不是第一次第二次了,并不罕见,但诡异的是,传闻称,6+8版本制造工艺是Intel 20A,8+16版本则是Intel 20A、台积电3nm两种!

按照以往的节奏,Arrow Lake K系列将在今年秋天发布,酷睿Ultra 5 240F这样的主流版本得到明年初了。

三星挑战台积电和英特尔,加入2纳米技术竞争

三星晶圆厂将于2024年6月在VLSI研讨会上详细介绍其第三代制程技术,这种技术采用了全环绕栅极(GAA)晶体管。这一技术被命名为SF2,它将是公司首个2纳米级的制造工艺。该节点预计将在性能和效率方面带来显著提升。

根据公司的描述,即将推出的节点将进一步完善三星的多桥通道场效应晶体管(MBCFET)架构,并采用独特的外延和集成过程。这将使其晶体管性能提高11-46%,与未具体说明的FinFET基础工艺技术相比,减少变异性26%,同时降低泄漏约50%。

三星公司在描述中指出:“通过引入独特的外延和集成工艺,第三代多桥通道场效应晶体管(MBCFET,即SF2)的产品性能得到了全面提升,极大地增强了栅极的总体效益,并成功解决了缩放与全环绕栅极(GAA)结构之间的冲突,实现了显著的产品增益。” 公司进一步说明,“在这一新技术的加持下,主要的窄NS晶体管通过N/PFET提高了29%/46%,而宽NS晶体管的性能也提升了11%/23%。此外,通过将基于FinFET的晶体管全局变异性降低26%,产品的泄漏分布得以显著压缩,减少了约50%。”

据《Business Korea》报道,三星不仅在推动技术创新,还在加强其2纳米级制造工艺的生态系统。公司正在与超过50家知识产权(IP)合作伙伴合作,拥有超过4000项IP标题,尽管只有少数是针对GAA节点和SF2的。今年早些时候,三星与Arm签订了协议,共同优化Cortex-X和Cortex-A核心,以适应三星基于全环绕栅极晶体管的制造技术。

三星的SF2工艺技术的设计基础设施预计将在2024年第二季度完成,届时公司的芯片开发合作伙伴将能够开始为该生产节点设计产品。

另外,三星计划今年开始使用其第二代3纳米级制造工艺,称为SF3,制造芯片。三星的第一代3纳米级节点SF3E并未取得特别成功,因为该公司主要在此技术上生产矿机芯片。但三星希望其SF3节点将得到更广泛的使用,包括数据中心等更复杂的设计。

2纳米级工艺技术的竞赛已经开始。随着三星在今年夏天详细公布设计规格,我们预计将在2025年见到首批基于三星SF2工艺的产品。这些产品将与台积电的2纳米系列节点(包括N2P)进行竞争。同时,英特尔代工厂(Intel Foundry)也在积极开发其2纳米级的Intel 18A节点,预计最早的产品设计将于2024年底推出。此外,英特尔的20A解决方案也正在开发中,并计划在今年内推出。如何有效叠加这些不同的工艺技术,仍然是个有趣的悬念。

April 27, 2024

英特尔透露18A节点细节,确认明年年中出货

在英特尔2024年第一季度的财报电话会议上,首席执行官Pat Gelsinger确认,公司的18A工艺节点以及相关产品的进展符合预期。该工艺节点将首先应用于数据中心的下一代E核心Clearwater Forest Xeon 7系列和消费级PC(台式机和笔记本)的Cougar Cove P核心Panther Lake系列。预计这些产品将在2025年上半年开始生产,于2025年中期正式发布。

英特尔的20A工艺节点将于今年下半年开始生产,可以视作为18A工艺节点的试水。此外,Arrow Lake和Lunar Lake两款产品将于今年晚些时候推出。Gelsinger强调,18A工艺节点不仅将增强英特尔产品的竞争力,也标志着先进制程技术重新回归到美国本土。

除此之外,英特尔还计划在今年发布第一款基于Intel 3工艺节点的服务器CPU家族,代号为Sierra Forest,该家族使用Sierra Glen E核心(Crestmont E核心的优化版本),提供多达288个核心。随后将推出使用Granite Rapids P核心(Redwood Cove)的产品,这将支持LGA 4710和LGA 7592插槽,属于Birch Stream平台。

对于不熟悉英特尔技术路线的人来说,现在的制程命名规则有点乱,而且打破了原先以栅级长度命名的习惯。简单来说,Intel 20A可以粗糙地相当于5nm工艺制程,而18A在20A基础上进一步提升了密度。之后的14A将使用HighNA EUV进行制造。

Intel 4年5节点路线图

此外,英特尔还宣布了其在晶圆封装和Core Ultra Meteor Lake供应方面的进展,预计这些产品的产能将在2024年下半年得到改善。该公司计划在2024年底前将三个Core Ultra家族的出货量提升至4000万以上。

在代工业务方面,英特尔透露已经与六家航空航天和国防工业客户签约,将使用18A工艺节点,同时已经获得了美国国防部阶段三RAMP C计划的授予。

英特尔还提到将在2025年晚些时候推出其Falcon Shores AI GPU加速器,该产品将结合Gaudi 3的优势和完全可编程的架构,进一步加强公司在人工智能领域的市场地位。

有人分析,Intel顺利量产18A后,将重新回到技术领头羊地位,在先进半导体领域或许可以和台积电扳一扳手腕。你同意这个观点吗?

兆芯KX-7000跑分数据曝光

兆芯推出了其最新的x86芯片——KX-7000 CPU,这是一款专为国内市场设计的高性能处理器。兆芯KX-7000 CPU采用了最新的7纳米工艺技术,有up主在标准及超频设置下进行了性能测试,KX-7000表现出与前一代产品相比的显著性能提升。

该处理器基于x86世纪大道架构,具有8个CPU核心和8个线程,每个核心配备512 KB的二级缓存,总共4 MB,以及32 MB的共享三级缓存。其核心频率高达3.6 GHz,基础频率为3.2 GHz。此外,兆芯KX-7000 CPU还集成了C1190图形处理单元,支持DX12, OpenCL 1.2, OpenGL 4.6和H.265视频编码,提供DP, HDMI和VGA视频输出接口。

华硕为兆芯KX-7000 CPU专门开发了LGA 1700插槽的主板。这款主板采用了6+2相电压调节模块设计,没有配备散热片,提供一个M.2插槽,两个SATA III接口,两个全长的PCIe x16 4.0插槽和一个PCIe x1 4.0插槽。主板还配备了调试LED,标准的I/O接口,并且所有的连接功能都由CPU上的I/O芯片组处理。

在性能测试中,KX-7000在未超频状态下的性能是其前代产品KX-6780的两倍以上,在单核和多核测试中均有优异表现。此外,该CPU还通过超频能够达到更高性能,其多核性能提升了21%,单核性能提升了10%。

尽管在应用程序性能上表现良好,兆芯KX-7000在游戏性能方面仍需优化。例如,在配备NVIDIA GeForce RTX 4070 GPU的环境下,运行《赛博朋克2077》4K分辨率时的帧率仅为46 FPS,而在《反恐精英2》中的表现也仅为30 FPS。

整体而言,兆芯KX-7000 CPU为市场提供了一个新选择,标志着中国x86 CPU开发的新里程,虽然游戏性能尚有不足,但是应付普通商务/公务应用来说绰绰有余。未来,公司还计划推出更多采用芯片组设计的处理器,核心数将达到16个或更多,进一步扩大其产品系列。同时,华硕表示将在其主板上为极限超频提供支持,超频上限可达5 GHz,这样侧面展现了兆芯KX-7000的强大潜力和扩展能力。

VxWorks