February 29, 2024

匿名客户要求台积电新建10家工厂

近日,在日本的一个会议中,台积电的创始人张忠谋透露,有客户向他提出了一个请求:请他建立十座新的晶圆厂,以应对对人工智能处理器日益增长的需求。张忠谋没有透露具体客户的名字,但是我们可以看出市场对AI处理器需求的极度渴望。目前,市场领军企业英伟达已经无法独自满足这一需求,AMD也在加大马力填补空缺。同时,对于OpenAI等公司而言,目前可获得的AI计算性能显然不足,这也是众多公司纷纷要求现有供应商增加处理器供应,甚至自己规划建造硅片的原因。

Windows 更新将不需要重启了

我们安装Windows系统安全更新时,一般都需要重新启动电脑。这是因为Windows系统会人为锁定正在运行的文件,使得这些文件不能被更新,只能在关机或者重启时才可以。

英特尔计划2027年启动1纳米节点生产

在近日举办的Intel Foundry Direct Connect活动上,英特尔披露,其首个1纳米级别的芯片制造工艺——10A节点,预计将于2027年底投入生产/研发。此外,英特尔还计划在2026年启动14A(1.4纳米)节点的生产。

高通骁龙X Elite跑分数据泄露,超过7940HS

近日,一项Geekbench 6的泄露测试结果显示,高通即将推出的Snapdragon X Elite CPU在单核和多核测试中均超过了AMD旗舰级笔记本APU——Ryzen 9 7940HS的性能。这一成绩若为真实,意味着高通这块基于Arm架构的新CPU将有能力与传统的x86处理器在笔记本乃至台式机领域展开竞争。

此次测试是在一款名为“Qualcomm ZH-WXX”的PC上进行的,推测这是一台用于Snapdragon X Elite的参考设计PC。尽管目前难以确定这款参考PC是否能够反映最终产品的实际性能,但这一发现无疑激起了业界的广泛关注。

备受瞩目的Snapdragon X Elite是高通迄今为止最快的Arm芯片,内置了由Nuvia设计的12个Oryon核心,Nuvia是高通在2021年1月收购的公司。这款CPU采用台积电 4nm工艺制造,两个主核心的最高频率可达4.3 GHz,其余核心频率上限为3.8 GHz。从规格参数来看,Snapdragon X Elite并不占据明显优势,尤其是考虑到AMD和Intel旗舰移动产品的核心频率均可超过5 GHz,且在核心数和线程数上也更胜一筹。

尽管规格上似乎处于下风,Snapdragon X Elite在Geekbench 6测试中却展现出了超越AMD Ryzen 9 7940HS APU——AMD顶尖移动端APU的性能。虽然AMD的7045系列APU(即台式机芯片技术移植至笔记本)的旗舰产品Ryzen 9 7945HX的性能确实超越了Snapdragon X Elite,但差距并不算大。

Snapdragon X Elite还有成为一款强大台式机CPU的潜力,其多核性能与Ryzen 5 7600相当,单核性能也仅略逊一筹。虽然Snapdragon X Elite目前尚无法同如Ryzen 9 7950X或Intel Core i9-14900K等高端CPU竞争,但它有望成为全球少数能与中端x86芯片抗衡的ARM 架构CPU之一(另一款为苹果的M3)。

不过这项基准测试结果的真实性还有待进一步验证。Geekbench 6的测试结果中存在一些异常之处,如报告的基础CPU时钟速度为4.01 GHz,而非3.8 GHz,以及CPU的奇异配置,即分为8核和4核两个集群。尽管这些数据异常,但还是有充足的理由相信这一测试结果是真实的。在Geekbench 6中搜索“Qualcomm Oryon”可以找到大量看似针对Snapdragon X Elite的测试结果,其中包括六项在“Qualcomm ZH-WXX”PC上进行的Windows测试,得分相对一致,这增加了结果的真实性。最早的Windows测试结果是在10月31日得出的,紧随高通在10月下旬举行的一次新闻发布会之后,该发布会预览了Snapdragon X Elite的性能。

当前尚未有明确信息表明高通是否计划推出多个版本的Snapdragon X Elite,如同苹果公司推出的不同版本的处理器那样(例如Pro和Max版本)。如果高通采取类似策略,推出性能更强的Pro或Max版本,那将极具吸引力。结合专为Arm架构优化的Windows操作系统,Snapdragon X Elite有潜力挑战苹果的生态系统,为用户提供更多选择。

此外,Arm架构的Windows操作系统的持续改进和优化将是成功的关键因素之一。微软和高通合作,确保Windows操作系统能够充分利用Arm架构的优势,不仅可以提高性能,还可以延长电池寿命,为用户提供更好的体验。如果这些努力取得成功,那么基于Arm的PC市场将迎来新的增长动力,可能改变当前由Intel和AMD主导的市场格局。

消除SSD网络文件系统性能瓶颈

在数据计算和数据存储领域,追求速度早已不是新鲜事。随着数据量的指数级增长,对性能的需求不仅在增加,还在不断加速。确保企业内部数据更易访问和可用,已成为支撑现代应用程序和工作流程的重要业务需求。

英伟达AI服务器NVLink版与PCIe版的差异与选择

在人工智能领域,英伟达作为行业领军者,推出了两种主要的GPU版本供AI服务器选择——NVLink版(实为SXM版)与PCIe版。这两者有何本质区别?又该如何根据应用场景做出最佳选择呢?让我们深入探讨一下。

NVLink版的服务器

SXM架构,全称Socketed Multi-Chip Module,是英伟达专为实现GPU间超高速互连而研发的一种高带宽插座式解决方案。这一独特的设计使得GPU能够无缝对接于英伟达自家的DGX和HGX系统。这些系统针对每一代英伟达GPU(包括最新款的H800、H100、A800、A100以及之前的P100、V100等型号)配备了特定的SXM插座,确保GPU与系统之间实现最高效率的连接。举例来说,一张展示8块A100 SXM卡在浪潮NF5488A5 HGX系统上并行工作的图片,直观展示了这种强大的整合能力。

在HGX系统主板上,8个GPU通过NVLink技术进行了紧密耦合,构建出前所未有的高带宽互联网络。具体来说,每一个H100 GPU会连接至4个NVLink交换芯片,从而实现GPU之间的惊人传输速度——高达900 GB/s的NVLink带宽。此外,每个H100 SXM GPU还通过PCIe接口与CPU相连,确保任意GPU产生的数据都能快速传送到CPU进行处理。

进一步强化这种高性能互联的是NVSwitch芯片,它把DGX和HGX系统板上的所有SXM版GPU串联在一起,形成了一个高效的GPU数据交换网络。未削减功能的A100 GPU可达到600GB/s的NVLink带宽,而H100更是提升至900GB/s,即便是针对特定市场优化过的A800、H800也能保持400GB/s的高速互连性能。

谈及DGX和HGX的不同之处,NVIDIA DGX可视为出厂预装且高度可扩展的完整服务器解决方案,其在同等体积内的性能表现堪称业界翘楚。多台NVIDIA DGX H800可通过NVSwitch系统轻松组合,形成包含32个乃至64个节点的超级集群SuperPod,足以应对超大规模模型训练的严苛需求。而HGX则属于原始设备制造商(OEM)定制整机方案。

PCIe版的服务器

相比于SXM版GPU的全域互联,PCIe版GPU的互联方式更为传统和受限。在这种架构下,GPU仅仅通过NVLink Bridge与相邻的GPU实现直接连接,如图所示,GPU 1仅能直接连接至GPU 2,而非直接相连的GPU(如GPU 1与GPU 8)间的通信则必须通过较慢的PCIe通道来实现,这过程中还需要借助CPU的协助。目前最先进的PCIe标准提供的最大带宽仅为128GB/s,远不及NVLink的超高带宽。

然而,尽管在GPU间互联带宽上PCIe版稍逊一筹,但单就GPU卡本身的计算性能而言,PCIe版与SXM版并无显著差异。对于那些并不极端依赖于GPU间高速互连的应用场景,如中小型模型训练、推理应用部署等,GPU间互联带宽的高低并不会显著影响整体性能。

对比A100 PCIe与A100 SXM各项参数的图表显示两者的计算核心性能并无太大差别。

该如何选择

PCIe版GPU的优势主要体现在其出色的灵活性和适应性。对于工作负载较小、追求GPU数量配置灵活性的用户,PCIe版GPU无疑是个绝佳选择。例如,某些GPU服务器仅需配备4张或者更少的GPU卡,此时采用PCIe版即可方便地实现服务器的小型化,可轻松嵌入1U或2U服务器机箱,同时降低了对数据中心机架空间的要求。

此外,在推理应用部署环境中,我们经常通过虚拟化技术将资源拆分和细粒度分配,实现CPU与GPU的一对一匹配。在这个场景下,PCIe版GPU因其较低的能耗(约300W/GPU)和普遍兼容性而受到青睐。而相比之下,SXM版GPU在HGX架构中的功率消耗可能达到500W/GPU,虽然牺牲了一些能效比,却换取了顶级的互联性能优势。

综上所述,NVLink版(SXM版)GPU与PCIe版GPU各自服务于不同的市场需求。对于对GPU间互连带宽有着极高需求的大规模AI模型训练任务,SXM版GPU凭借其无可匹敌的NVLink带宽和极致性能,成为了理想的计算平台。而对于那些重视灵活性、节约成本、注重适度性能和广泛兼容性的用户,则可以选择PCIe版GPU,它尤其适合轻量级工作负载、有限GPU资源分配以及各类推理应用部署场景。

企业在选购英伟达AI服务器时,务必充分考虑当前业务需求、未来发展规划以及成本效益,合理评估两种GPU 服务器版本的优劣,以便找到最适合自身需求的解决方案。最终的目标是在保证计算效能的同时,最大化投资回报率,并为未来的拓展留足空间。

谷歌GeminiPro一举超越GPT-4

在人工智能的宏大舞台上,每一次技术的跃进都不仅仅是一小步,而是整个行业的一大步。近日,谷歌以其一贯的创新精神和技术实力,推出了引领时代的人工智能模型——GeminiPro,这不仅仅是技术的一次飞跃,更是智能领域的一次革命,它的问世彻底超越了现有的GPT-4,让我们一起来揭秘这一划时代的技术巨作。

一、GeminiPro:智能的双子星,技术的新巅峰

谷歌GeminiPro,顾名思义,它如同天空中最亮的双子星,照亮了人工智能的未来。GeminiPro不仅继承了GPT-4所有的优点,更在此基础上进行了突破性的创新,使其在理解能力、逻辑推理、情感交互等多个方面都实现了质的飞跃。

二、超越GPT-4:多维度的技术革新

  • 理解能力的革命性提升:GeminiPro通过引入全新的自我进化算法,使其在理解复杂文本和语境方面远超GPT-4,甚至能够准确解读抽象概念和隐喻,为用户提供更加深入、精准的信息处理能力。
  • 逻辑推理能力的巨大飞跃:在逻辑推理方面,GeminiPro采用了独创的“逻辑链动态构建技术”,能够在对话中不断构建和优化逻辑链,实现更加连贯和高效的推理过程。
  • 情感交互的突破性进展:GeminiPro引入了先进的情感识别与模拟技术,使其不仅能理解用户的情感,还能在交互中表达出相应的情感反应,大大增强了人机交互的自然度和亲密感。
  • 学习能力的极限挑战:借助于谷歌庞大的数据资源和先进的自我学习机制,GeminiPro能够实时更新其知识库,迅速学习新的信息和技能,其学习速度和范围都远远超过了GPT-4。

三、定义智能新纪元:GeminiPro的应用前景

GeminiPro的问世,不仅是技术层面的一次革命,更开启了智能应用的新纪元。在教育、医疗、金融、娱乐等多个领域,GeminiPro都将发挥其巨大的潜力,为人类社会带来前所未有的便利和进步。

  • 教育:GeminiPro能够根据每个学生的学习情况和需求,提供个性化的教学方案和辅导,极大提升教育的效率和质量。
  • 医疗:在医疗领域,GeminiPro能够协助医生进行病例分析和诊断,甚至能够在复杂的手术中提供实时指导,大大提高医疗服务的水平和安全性。
  • 金融:GeminiPro的强大计算和分析能力,能够帮助金融机构进行风险评估、市场预测等,为金融市场的稳定和发展提供有力支持。
  • 娱乐:在娱乐领域,GeminiPro能够根据用户的喜好和情感状态,推荐个性化的内容,甚至参与内容的创作,为用户提供更加丰富多彩的娱乐体验。

谷歌GeminiPro的问世,不仅标志着谷歌在人工智能领域的又一次技术突破,更为整个人类社会开启了智能化的新篇章。在GeminiPro的引领下,未来的世界将更加智能、高效和温馨。让我们拭目以待,一起迎接智能新纪元的到来。

February 28, 2024

是时候深入了解CXL了

这是一个有点老的故事了,但去年(2023年)11月14日,CXL联盟发布了“CXL 3.1规范”。

首先,CXL 1.0 于 2019 年 3 月发布,此后大约每年都会发布新版本,从 1.1 → 2.0 → 3.0 → 3.1,但 CXL 2.0 → 3.0 的方向,我感觉这在 3.1 中加速了(图 1)。

图1

在我看来,我们正在朝着一个可以称为“CXL Gen-Z”的方向前进。

CXL推出回顾

CXL(Computer Express Link)是英特尔内部开发的专有链接标准,最初名为 IAL(Intel Accelerator Link),但后来更名为并向公众发布。发布时,英特尔成立了 CXL 联盟,将所有 IAL 协议捐赠给 CXL 联盟,并宣布 CXL 将是开放运营。

其实这段时间CXL联盟发生了很多事情。首先,2022 年 2 月,Gen-Z 联盟实际上并入了 CXL 联盟。然后,2022 年 8 月,OpenCAPI 并入 CXL 联盟。OpenCAPI 合并宣布的第二天,CXL 3.0 的规范就公布了。在这一系列事件中,CXL的目的似乎已经明显发生了变化。

我认为如果您想象在节点之间构建内存/存储池网络并将计算集群连接到此,则更容易理解 Gen-Z。

这已经是一个老故事了,但在 2013 年左右,英特尔提出了一种称为“机架规模架构”的概念(图 2)。Gen-Z的目标是通过根据需求动态分配或指派,将“未来”中出现的计算/内存/存储/IO的使用付诸实践。

图2

Gen-Z 并入 CXL 后发生了什么?图 3 是第一个 CLX 1.0/1.1 的图像。加速器和存储/内存设备连接到一个计算节点,并且可以使用缓存一致性进行连接。嗯,这正是Intel在制定IAL时所设想的用法。CXL 2.0 中定义的下一个产品是 CXL 2.0 交换机(图 4)。该 CXL 2.0 交换机是:

图3

    • 连接多个计算节点和多个加速器/内存/存储 1:1
    • 在多个计算节点之间共享连接到 CXL 2.0 交换机的加速器/内存/存储资源

    现在两者皆有可能。

    图4

    但CXL 2.0交换机之间并不相互配合;计算节点侧是主机,CXL 2.0交换机接收来自多个主机的请求并分配连接的CXL设备(从而将请求分配给特定主机)。交换机分配资源还是共享资源首先取决于CXL设备是否配置为共享资源,因此不能由CXL 2.0交换机单独决定。

    那么 CXL 3.0/3.1 又如何呢?它已经有了进一步的发展(图 5)。现在可以将 CXL 交换机相互链接,从而可以跨多个交换机使用它。

    图5

    这使得可以在交换机之外使用未直接连接到主机的 CXL 设备。CXL 1.1支持按节点连接,CXL 2.0支持按机架连接,但CXL 3.0/3.1支持Inter-Rack或Leaf交换机范围内的互连。

    CXL 3.1 中发生了哪些变化

    现在,借助 CXL 3.0,机架间连接成为可能,但本文的主题是 CXL 3.1 中的这种变化。在 CXL 3.1 中:

    • 除了 HBR(基于层次结构的路由)之外,CXL 交换机之间的连接还支持 PBR(基于端口的路由)。
    • 添加了对 GIM(全局互连内存)的支持。
    • TEE(基于信任的路由) ).增加与执行环境兼容的安全协议
    • 内存扩展增强

    这四项被列为附加项目。

    首先,对于(1),除了2.0之前只有树形结构(USB是一个典型例子)的结构外,现在还支持交换机之间的点对点连接(图6)。这在构建大规模CXL交换网络时尤其有效。

    图6

    顺便说一句,可以混合 HBR 交换机和 PBR 交换机,并且它还支持链路聚合,通过在交换机之间创建多个链路来增加带宽,因此可以使用胖树而不是简单的树。(有没有意义是另一回事)。

    接下来,关于(2),这可以被视为等同于通过CXL结构和FAM(结构附加存储器)附加到主机侧的存储器。在 CXL 3.0 之前,在连接到单个 CXL 交换机的两个主机之间共享内存的唯一方法是在两个主机之间共享 CXL 内存池(此处为 FAM)。不过,这一次,两台主机的本地内存(这里是GIM)可以直接共享,不需要FAM

    顺便说一句,为了加速这种内存共享,添加了一个名为 FAST(Fabric Address Segment Table)的新功能,它可以更轻松地访问。

    与此相关,例如,当通过CXL从一台主机访问另一台主机的GIM时,“理论上”可以添加事务控制或保护功能,但事实并非如此。功能超出了本文的范围规格。” 我想第一步是使其易于访问。

    图7

    关于(3),CXL 2.0最初包含一种称为IDE(完整性和数据加密)的机制,作为主机和设备之间的安全功能(图8)。CXL 3.1 通过允许将受信任的虚拟机与其他虚拟机流量分开处理来扩展此功能。在正常进行所谓的机密计算时,通常需要对物理资源进行划分,这就是与之相对应的一种形式。

    图8

    最后(4)有几项。其中之一是直接 P2P(图 10)。首先,由于 CXL 是非对称配置的 I/F,因此 CXL 设备无法自行访问外部存储器(尽管可以从主机访问它们)。然而,在 CXL 3.1 中,通过使用 Direct P2P,现在可以访问连接到同一 CXL 交换机的 DSP(下游端口)的 CXL 内存。

    图9
    图10

    我想你可以称之为 RDNA 的本地版本。以前在 CXL 中,加速器只能处理它们本地拥有的内存,但将来它们将能够使用外部内存池。

    其他功能包括Memory Expander的扩展(例如,在CXL 3.0之前,元数据为2位,但在3.1中添加了对EMD的支持:扩展元数据,使得可以使用最多32位)和RAS功能的扩展。在CXL 3.1中被列为内存扩展增强项。

    CXL 开关也不断发展

    顺便说一下,如果要扩展这么多,当然CXL交换机端需要做很多工作。Fabric Manager 对此进行管理,并且添加了一个新的 API 来使用该 Fabric Manager(图 11)。

    图11

    图12总结了CXL各个版本的规格差异,可以看出数量大幅增加,或者说系统互连自3.0左右以来已经发生了演变。

    顺便说一下,CXL 3.0 或 3.1 兼容设备将在 PCI Express 6.0 推出的同时出现。就时序而言,还有很长的路要走,对于Intel来说,它将是在Granite Rapids等使用的LGA7529之后,对于AMD来说也是如此,它将是继Socket SP5(SP6?)。

    预览最早可能会在 2025 年出现,但实际发货要到 2026 年才会发生。届时,PCI Express 7.0的标准化将指日可待,并且很可能会有更多有关支持它的CXL 4.0的活动。那么接下来会增加哪些功能呢?

    图12

    人工智能怎样让新型太阳能电池产业化

    据报道,德国科学家展示了人工智能(AI)如何实现大规模制造过氧化物太阳能电池(Adv. Mater.,doi: 10.1002/adma.202307160)。通过深度学习和可解释人工智能的结合,他们发现可以识别半导体薄膜形成过程中的微妙变化,而这些变化是纯粹的人工分析无法实现的,这有可能使这种前景广阔的光伏技术实现工业化生产。

    关注结晶

    Perovskite 半导体是一种含有三种或三种以上元素和有机成分的材料,以特定的晶体结构排列。由极薄、均匀的包晶层和传统光伏材料(如硅)组成的串联太阳能电池的效率可高达 33%。然而,这种电池目前还存在一些缺陷--受潮和受光照后会迅速降解,而且到目前为止,这种设备还不能无缺陷地大规模制造。

    新研究正是要解决后一个问题。这项工作由卡尔斯鲁厄理工学院的乌尔里希-佩措尔德(Ulrich Paetzold)、德国癌症研究中心互动机器学习小组的保罗-耶格尔(Paul Jäger)和他们的团队共同完成,利用人工智能分析制造过氧化物太阳能电池最关键的步骤--过氧化物薄膜的结晶。

    正如研究人员所解释的那样,这一过程的成功取决于与材料、实验室设置和制造技术相关的众多参数的优化。由于这些参数的最佳设置是因地制宜的,因此目前只能通过反复试验来确定。即便如此,由于条件变化太小,人类操作员无法察觉,也会导致表面上相同的参数集产生不同的结果。

    Paetzold 及其同事并不是第一个使用人工智能来改进这一过程的人。其他科学家已经利用机器学习来优化诸如包晶石的具体类型、晶体结构或带隙等。不过,这些早期工作所涉及的参数都仅限于薄膜本身。

    全面的人工智能方法

    与此相反,新的研究着眼于制作薄膜的整个过程。它将深度学习与几种不同类型的可解释人工智能相结合--前者用于寻找将流程输入参数与流程结果联系起来的模式,后者用于呈现人类可以理解的模式。

    具体来说,实验涉及分析1000多片由金属卤化物包晶制成的薄膜的干燥和结晶过程。这项工作借鉴了该研究小组已经录制的视频,这些视频捕捉了在多个时间点上每层薄膜产生的光致发光(用蓝色发光二极管照射时)。

    这项研究的想法是利用这些视频的一部分来训练神经网络。换句话说,将每段视频中记录的光致发光强度作为网络的输入,同时提供两个输出--已完成太阳能电池的效率和已制造薄膜的平均厚度。训练完成后,研究人员给该网络提供其余视频中的光致发光数据,看它能多准确地预测相关效率和薄膜厚度。

    研究人员发现,与人类对特定时间点的光致发光数据进行分析相比,这种人工智能视频分析所提供的有关控制薄膜质量因素的信息要多得多。特别是,他们能够根据所生产薄膜的质量,确定薄膜制造过程的哪个阶段应该表现出最强烈的光致发光--这反过来又揭示了在薄膜生产过程中,用于使包晶石结晶的真空度需要如何升高和降低。

    "离工业化 "更近一步

    Paetzold及其同事认为,他们的技术让社会离包晶石太阳能电池的工业化 "更近了一步",他们说:"我们只需分析视频数据集,就能推断出可行的建议,而无需进行大量昂贵的试错实验。

    不过,他们也承认,他们的方法有其局限性。首先,该网络无法像预测薄膜厚度那样准确地预测太阳能电池的效率,因为在电池生产的后续步骤中会产生瑕疵。他们还指出,与任何基于人工智能的分析一样,他们的方法依赖于大量的训练数据。

    另一个因素是数据质量。具体来说,他们指出,提高该技术的空间分辨率--例如,通过扫描电子显微镜--可以更好地突出任何特定的晶体缺陷。研究人员表示,这无法在现场完成,但他们相信这不会成为阻碍。撇开连续太阳能电池生产步骤的影响不谈,他们认为 "重要的未观测参数和混杂因素的可能性相当低"。

    英特尔进军Arm芯片领域

    2月27日消息,近日在接受 Tom's Hardware 采访时,英特尔代工负责人斯图尔特・潘(Stu Pann)表示将会进军 Arm 芯片,并不断追赶台积电的代工市场份额。

    英特尔希望在 2030 年成为全球第二代代工厂,并希望能成为一家有弹性的代工厂,能够缓解地缘政治、战争冲突等各种问题导致的供应链中断问题。

    英特尔会重新平衡其半导体业务,计划产业链的 50% 布局放在美洲 / 欧洲、50% 放在亚洲。

    Arm 首席执行官雷内・哈斯(Rene Hass)通过远程连接的方式出席 IFS 活动,表示世界似乎正在摆脱独占硬件的想法,转而希望为微软或 Faraday 这样的大公司打造最高效的芯片,为人工智能数据中心提供动力。

    此前报道,Neoverse V 系列处理器定位性能优化平台,最新的 V3 是本系列中首个支持 Neoverse CSS 方案的处理器设计。

    Neoverse V3 单芯片最大 64 核,双计算芯片设计下共可提供 128 个内核,其支持 HBM3 和 CXL 3.0 以及 2 组 Die-to-Die 互连,常规性能相较之前 V2 提升 9-16%。

    Arm 宣称,相较常规性能提升,Neoverse V3 / N3 在 AI 数据分析方面的性能提升更为明显,分别达到了 84% 和 196%。

    Rene Hass 表示:“当你考虑到这些人工智能数据中心需要数百兆瓦甚至更多的电力时,效率就显得尤为重要”。

    英特尔的 18A 工艺节点令人印象深刻,看来英特尔和 Arm 都希望确保两家公司都能从对方的进步中获益。

    Dell推出世界最快单线程性能工作站

    近日,戴尔在其2024年的商业产品发布活动中,推出了新款Precision 3680 Tower工作站。这款工作站以其宣称的极致性能吸引了众人的目光,特别是它搭载的Intel Core i9-14900K CPU,这款处理器支持超过250瓦的无限睿频功率,使得Precision 3680 Tower成为了“世界上最快单线程性能”的工作站。

    在配置方面,Precision 3680 Tower不仅支持高达128 GB的DDR5-4400内存,还提供了3个M.2 NVMe和3个2.5英寸SATA HDD的存储选项。用户可以根据需要选择配备NVIDIA RTX 6000 Ada或AMD Pro W7900图形卡,这高性能配件都被整齐地安装在戴尔标志性的黑色机箱内。为了确保这些高功耗部件的冷却,戴尔提供了高级和标准两种空气散热解决方案。

    戴尔通过将14900K CPU的功耗持续运行在其最大PL2限制253W,实现了其在单线程性能上的领先,同时也遵守了英特尔的保修准则,没有进行超频。这种设计考虑到了性能和可靠性的平衡。

    散热是这款工作站的一大看点。Intel Core i9-14900K CPU在高功耗和高温下容易出现稳定性问题,因此戴尔采用了一款带有10根铜热管的标准塔式散热器,能够在不超过其温度限制的情况下稳定运行。

    除了这款高端工作站,戴尔还推出了Precision 3280 Compact Form Factor工作站,这是一款搭载英特尔第14代65W CPU的超小型工作站,支持Tensor Core GPU。它支持的最高配置包括NVIDIA RTX 4000 Ada图形处理器、64 GB DDR5内存和8 TB的存储容量。通过提高CPU的基准TDP到80W,这款工作站在保持体积小巧的同时,也能提供良好的性能。

    Precision 3680 Tower预计下月上市,其价格将根据具体配置而定。

    虽然有人戏称戴尔为“人傻钱多戴”,暗指其产品价格偏高,但有一说一戴尔在售后服务、外观设计和用户体验等方面的表现一直是业内领先的。特别是其XPS系列,以其卓越的性能和设计,被认为是少数能与联想的ThinkPad X系列竞争的产品之一。

    然而,自去年以来,戴尔在中国市场的销量和市占率开始出现下滑。根据Canalys的最新报告,戴尔的市场份额已从之前的第二位下滑至第四位,被惠普和华为超越。这一变化反映出市场竞争的加剧以及消费者偏好的变化。

    对于消费者而言,市场竞争的加剧意味着更多的选择和可能的价格优惠,但也要求消费者在购买时更加审慎,以选择最符合自己需求的产品。对于厂商而言,只有不断创新并真正满足消费者需求的公司,才能在竞争中脱颖而出,赢得市场。

    史上速度最快的 Windows 来了

    据WC报道,Windows 11 24H2将首次引入对WI-Fi 7硬件的支持,该版本预计将在今年晚些时候作为微软的下一个重大操作系统更新推出。

    此前,支持Wi-Fi 7的硬件已经开始发货,但目前版本的Windows上不支持。

    Wi-Fi 7(IEEE 802.11be标准),拥有极高的吞吐速率,速度比Wi-Fi 6E快近4倍(Wi-Fi 7理论峰值46Gbps,Wi-Fi 6E理论峰值9.6Gbps),拥有更低的延迟以及更好的可靠性,更小的功耗。

    由于延迟较低,游戏和视频会议的速度也会更快,性能和响应能力也会更好。

    目前,支持Wi-Fi 7的首批Windows电脑包括戴尔XPS 14等,今年下半年24H2版本更新之前,用户还无法充分利用其更快的速度。

    据悉,Windows 11 24H2还是首个支持USB4 v2.0标准(即80Gbps速率)的Windows正式版本。

    新的USB4 2.0标准将能够提供高达80Gbps的传输速度,相比此前的USB4和雷电4在速度上足足翻了一倍。

    在USB4 2.0的性能加持下,未来的笔记本电脑将能够直接输出8K/120Hz的显示信号,对于高速硬盘、显卡扩展坞等依赖于数据通道的设备,或许将可以近乎无性能损耗的接入电脑。

    2022年,USB-IF协会推出了USB4 v2.0规范,并正式命名为USB 80Gbps,由于PAM3信号编码机制的全新物理层架构,其最高数据传输速率从40Gbps提升到了80Gbps(10GB/s)。

    同时还可完全兼容最新的DisplayPort 2.1,在不需要压缩的情况下,支持240Hz刷新率的4K显示器,并为其供电。

    此外USB4 v2.0还可配置为非对称编码异步传输模式,即利用3Tx+1Rx的非对称模式,主机可以输出120Gbps,从设备返回主机为40Gbps。

    商用AI PC来啦,英特尔酷睿Ultra正式加入vPro平台

    就在正在进行的MWC 2024上,商用领域大名鼎鼎的英特尔vPro平台正式纳入了酷睿Ultra系列和14代酷睿处理器系列产品,这意味着所有大型企业、中小型企业以及包括教育部门在内的公共部门和边缘领域都将正式加入到AI PC阵营中来。换而言之,就是最严谨的商用领域电脑,也将全面融入AI PC怀抱。

    在今年内,宏碁、华硕、戴尔科技、Dynabook、富士通、惠普、联想、LG、Microsoft Surface、NEC、松下、三星和VAIO等合作伙伴将推出包括100多款笔记本电脑、二合一、台式机和入门级工作站在内的商用产品都将加入基于酷睿Ultra和14代酷睿的vPro平台阵营中,在获得持续的高生产力、安全性、可管理性和稳定性的标准同时,英特尔还与与100多家软件供应商、Windows 11和Copilot配合,让所有的商用新品切换至AI赛道。

    Ultra性能拉满

    英特尔将酷睿Ultra称为40年来最重磅的架构更新,以酷睿Ultra为基础的vPro平台在生产力、安全性、可管理性和稳定性上都将有更好的表现。不仅如此,vPro平台更新还包括台式机的14代酷睿版本,从而一步到位实现完整的AI PC生态体系。

    让我们先看酷睿Ultra vPro。与酷睿Ultra相同,包含H系列和U系列,最顶配为酷睿Ultra 9 185H,拥有6个P-Core,8个E-Core,2个LP E-Core,24MB LLC缓存,最高频率5.1GHz。

    与此同时,全新的锐炫GPU也包含在酷睿Ultra中,最高8个Xe内核。另外还包含2个Gen 3 NPU实现AI加速,内存最高支持LPDDR5X-7467和DDR5-5600,容量最高支持到DDR5 96GB。基础功耗45W,最大睿频功耗115W。

    相比之下酷睿Ultra 7 165H,酷睿Ultra 5 135H等产品维持在更主流的28W基础功耗,和64W到115W的睿频功耗释放。

    另外酷睿Ultra U系列最高配置为酷睿Ultra 7 165U,包含2个P-Core,8个E-Core,2个LP E-Core,12MB LLC缓存,但采用的是Iris Xe GPU而非锐炫。不过NPU部分仍然保持满配的Gen 3 NPU和AI加速引擎。基础功耗15W,最大睿频功耗57W。

    同样的,新的vPro平台也进行了针对大型企业客户的vPro Enterprise以及适合中小企业的vPro Essentials细分选择。

    在桌面vPro产品中,英特尔最高提供了Core i9-14900K系列,同时也有不带K以及T系列低功耗产品,全员除了支持vPro平台之外,还支持ECC、英特尔稳定映像平台计划SIPP等。具体规格参考下图:

    产品更新自然少不了性能展示,英特尔表示采用酷睿Ultra的vPro平台相对三年前的PC办公性能提升47%,与上一代相比视频会议功耗下降36%,视频编辑的AI性能则相对上一代提升2.2倍。

    并且也搬出竞争对手,用酷睿Ultra 7 165H对比Ryzen 7 7840U对比,生产力提升在1.08到1.27倍之间。

    如果是视频会议能耗对比,酷睿Ultra 7 165U更具备优势。

    让AI与管理更轻松

    新一代vPro平台真正的大杀器是GPU、NPU、CPU结合之下的AI性能,从而获得更好的商务使用体验。细心的同学会发现今年开始,部分采用酷睿Ultra的AI PC已经配备了Copilot按键,用于唤醒Windows 11中的Copilot功能。比较可惜的是,目前Copilot在国内还不能使用。

    AI的介入则允许vPro平台可以在离线的状态下完成更多本地是AI加速,比如视频录制时的眼球追踪、会议记录、设备上的安全性机器学习,当然还包括内容创作等常见的用法。

    CPU、GPU、NPU的三重组合调用,可以让AI的代际性能提升2.2倍,比对手AMD获得3.4倍的性能提升。

    除此之外,全新的锐炫和锐炫Pro GPU也可以更好的与酷睿配合,实现光线追踪、AV1编码和解码上的优势。

    另外一个更重要的意义在于,新一代vPro可以带来更好的安全性,增强的英特尔威胁检测技术(Intel Threat Detection Technology)充分利用了新型NPU,以提高异常检测效率并降低功耗。全新Intel Silicon Security Engine用于认证系统固件,以帮助抵御操作系统级以下的网络威胁。这是在Windows PC中唯一基于AI的安全功能,目前已经在Windows 11 Pro启用。

    另外一个则是vPro天生具备的很强的管理性,对于企业IT部门而言可以用更少的资源管理和部署更多的PC。Intel Device Discovery让云端工具能够接收在特定PC上进行相关操作所需的信息。带有VMware和Eclypsium固件防护平台的全新Intel Device Health可帮助IT部门了解设备补丁要求,并提供端到端的设备管理。英特尔继续向基于硬件的远程管理进行投入,包括利用端点设备管理技术的内部解决方案,以及VMware Workspace ONE等云原生解决方案。

    英特尔vPro平台的另一个好处是PC产品生命周期中的可持续性。目前,94%的英特尔vPro设备通过EPEAT银牌或以上级别的认证。与通过卡车派遣技术人员到现场支持相比,单次使用英特尔vPro的远程维修功能所减少的碳排放量,相当于一台PC使用2年的碳排放量。

    第一季度就来

    目前为止,英特尔已经在商业协作、生产力、内容创作和可访问性定制等方面针对性的提出了300多项AI加速功能。

    而在专业工作站市场领域,新一代内置英特尔锐炫Pro显卡提供的功能和独立软件供应商认证,能够为现代生产力带来更上一层楼的响应速度以及可靠的图形功能。光线追踪功能有助于实现产品设计的可视化,AI将视频分辨率提升到8K,AV1提供免版税且卓越的图像压缩和流媒体体验,ISV认证的驱动程序则能够确保架构和产品设计的可靠性。

    重点是Windows 11、Microsoft Teams和Copilot也会配合AI PC同步优化和更新,Wintel联盟在AI PC元年就开始积极布局完整的生态市场,在软件和硬件上提供扎实的基础,为将来普及的AI应用做好充足的准备。

    显然下一次公司采购或者自用PC升级,购买的产品很大概率已经做好了AI加速的准备。在未来会议沟通、办公软件效率都将发生质的变化。工作内容从繁琐重复的劳动内容摆脱出来,专注于创新和创造,想想还是相当让人高兴的。

    VxWorks

    Blog Archive