May 5, 2024

Intel“模拟大脑”已有11.5亿神经元

Intel正式发布了代号“Hala Point”的新一代大型神经拟态系统,用于类脑AI领域的前沿研究,提升AI的效率和可持续性。

该系统基于Intel Loihi 2神经拟态处理器,在上代大规模神经拟态研究系统“Pohoiki Springs”的基础上,进一步改进了架构,将神经元容量提高了10倍以上,达到史无前例的11.5亿个,大致相当于猫头鹰或卷尾猴的大脑皮层规模,性能也提高了多达12倍。

2018年1月,Intel发布了第一款能够进行自主学习的神经拟态芯片Loihi,可以像人类大脑一样,通过脉冲或尖峰传递信息,自动调节突触强度,通过环境中的各种反馈信息,进行自主学习、下达指令。

Loihi基于Intel 14nm工艺,核心面积60平方毫米,包含128个神经形态的核心(Neuromorphic Core)、三个低功耗x86核心,集成12.8万个神经元、1.28亿个触突,每个神经元有24个变量状态。

Loihi 2处理器发布于2021年10月,首发采用Intel 4工艺,集成230亿个晶体管、六个低功耗x86核心、128个神经形态核心,单颗就有100万个神经元、1.2亿个突触,是上代规模的8倍,性能也提升了10倍。

Loihi 2支持新型神经启发算法和应用,应用了众多类脑计算原理,如异步、基于事件的脉冲神经网络(SNN)、存算一体不断变化的稀疏连接,而且神经元之间能够直接通信,不需要绕过内存。

它还支持三因素学习规则、出色的突触(内部互连)压缩率,内部数据交换更快,并具备支持与内部突触相同类型压缩率的片外接口,可用于跨多个物理芯片扩展片上网状网络。

尤其是在新兴的小规模边缘工作负载上,它实现了效率、速度和适应性数量级的提升。

比如执行AI推理负载和处理优化问题时, Loihi 2的速度比常规CPU和GPU架构快多达50倍,能耗则只有百分之一。

Hala Point系统的形态是一个六机架的数据中心机箱,大小相当于一个微波炉,内置1152颗Loihi 2处理器,共有140544个神经形态处理内核、11.5亿个神经元、1280亿个突触,最大功耗仅为2600瓦。

系统内还有2300多颗嵌入式x86处理器,用于辅助计算。

内存带宽达16PB/s(16000TB/s),内核间通信带宽达3.5PB/s(3500TB/s),芯片间通信带宽达5TB/s,可以每秒处理超过380万亿次的8位突触运算、超过240万亿次的神经元运算。

Hala Point在主流AI工作负载上的计算效率非常出色,比如运行传统深度神经网络时,每秒可完成多达2万万亿次运算(20PFlops),8位运算的能效比达到了15TOPS/W(每瓦特15万亿次计算),相当于甚至超过了基于GPU、CPU的架构。

在用于仿生脉冲神经网络模型时,Hala Point能够以比人脑快20倍的实时速度,运行其全部11.5亿个神经元。

尤其是在运行神经元数量较低的情况下,它的速度甚至可比人脑快200倍!

早期研究结果表明,通过利用稀疏性高达10比1的稀疏连接和事件驱动的活动,Hala Point运行深度神经网络的能效比可高达15TOPS/W,同时无需对输入数据进行批处理。

Hala Point系统有望推动多领域AI应用的实时持续学习,比如科学研究、工程、物流、智能城市基础设施管理、大语言模型、AI助手等等。

另外,Intel已经在用AI辅助设计芯片了,效果还挺好。

Intel内部研发了一种新的AI增强工具,可以让系统级芯片设计师原本需要耗费6个星期才能完成的热敏传感器设计,缩短到区区几分钟。

在芯片电路设计中,工程师需要确定热感应器在CPU处理器中的安放位置,并判断热点容易出现的区域。

这是一个复杂的流程,需要进行各种测试,包括模拟工作负载、传感器位置优化等等,经常需要重新开始整个步骤,而且一次只能研究一两个工作负载。

Intel客户端计算事业部高级首席工程师、人工智能解决方案架构师Olena Zhu博士领衔增强智能团队开发的这款AI工具,可以帮助系统架构师将数千个变量纳入未来的芯片设计中,包括精确分析激活CPU核心、I/O和其他系统功能的复杂并发工作负载,从而精准地确定热点的位置,并放置对应的热敏传感器。

这款工具解决了这些需要靠推测进行的工作。工程师只需输入边界条件,它就可以处理数千个变量,几分钟内就返回理想的设计建议。

酷睿Ultra Meteor Lake处理器的设计工作就使用了该工具,未来的客户端处理器,比如将在今年晚些时候发布的Lunar Lake,以及后续产品,都会继续用它。

Intel客户端计算事业部高级首席工程师、人工智能解决方案架构师Olena Zhu博士

Intel客户端计算事业部增强智能团队的在AI方面的其他进展还有:

  • 一个能快速识别关键热工作负荷的配套工具,通过大模型训练,可以预测尚未进行模拟或测量的其他工作负载。
  • 对于高速I/O的快速准确信号完整性分析工具,设计时长从几个月缩短至1个小时。Intel是业界首个采用此技术的公司,已经为多代芯片的设计提供支持。
  • 基于AI的自动故障分析工具,用于高速I/O设计,2020年就已部署,设计效率已提升60%。
  • 增强型智能工具AI Assist,能够使用AI模型自动确定不同平台的定制超频值,将超频所需的准备时间从几天减少到1分钟。14代酷睿已提供该工具。
  • 基于AI的自动化硅片版图设计优化器,已纳入Intel SoC设计流程。
  • 一种智能采样工具,可以帮助动力和性能工程师处理智能设计实验,测试用例数量减少40%。
  • 一种用户交互工具构建的AI模型,可以预测架构方案的性能,并帮助解决CPU设计的平衡问题。
  • 一种自动放置微型电路板组件的新方式,将循环时间从几天缩短至几个小时。

Intel工程团队还利用内部开发的AI算法,成功将单个处理器的测试时间减少了50%。

Intel强调,尽管这些工具都非常有用,不会或者很少出现任何错误,但是增强智能在短期内并不会取代真正的工程师。

Intel增强智能团队成员Mark Gallina、Olena Zhu、Michael Frederick在俄勒冈州希尔斯伯勒的Intel客户端计算事业部实验室

为什么谷歌没有销售AI硬件TPU

由于GPU在AI硬件市场的主导地位,NVIDIA的股价飙升。然而与此同时,谷歌众所周知的AI硬件TPU却并不对外出售,用户只能在谷歌云上租用虚拟机来使用它们。为什么谷歌没有加入销售AI硬件的游戏呢?

May 4, 2024

AMD MI300A在测试中超出H100四倍

AMD Instinct MI300A 是AMD公司开发的一款高性能APU(Accelerated Processing Units),结合了CPU和GPU的功能,专为高性能计算(HPC)和人工智能应用而设计。这种处理器的设计目的是提供强大的计算能力,以支持大规模科学计算和数据密集型任务。

关于对AMD Instinct MI300A APU 的简要特性:

  • 首款集成 CPU 和 GPU 的组件
  • 面向大规模超级计算机市场
  • 包含 1530 亿个晶体管
  • 多达 24 个 Zen 4 核心
  • 基于 CDNA 3 GPU 架构
  • 最高 192 GB HBM3 内存
  • 包括多达 8 个芯片组和 8 个内存堆栈(采用 5 纳米和 6 纳米工艺)

与传统的独立 GPU 相比,AMD 的 Instinct MI300A APU 在高性能计算(HPC)工作负载中实现了巨大的性能提升。Instinct MI300A 实现了多年前提出的“Exascale APU”平台概念,该平台将高性能 GPU 和 CPU 集成在同一芯片封装中,并共享统一内存池。对于高性能计算而言,这种加速器/协处理器设计不仅提升了每瓦特性能,但同时也需要进行大量的代码移植、优化和维护工作,这可能涉及数百万行代码,是一项具有挑战性的工作。研究人员已经开始利用 OpenMP 和 OpenACC 这两种流行的编程模型,充分发挥 AMD 下一代 APU 的性能潜力。

在一篇题为《使用统一内存和 OpenMP 将 HPC 应用程序移植到 AMD Instinct MI300A》的研究论文中,科学家利用 OpenFOAM 框架(这是一个开源 C++ 库),提供了在 MI300A APU 上移植代码的灵活性和便捷性的蓝图,并详细阐述了使用 OpenFOAM 对原来系统进行加速的方法。得益于 AMD Instinct MI300A 加速器的统一 HBM 接口,数据无需复制,也无需区分主机与设备的内存编程。此外,AMD 的 ROCm 软件套件提供了额外的优化功能,有助于整合 APU 的各部分,形成一个连贯的异构系统。因此,性能得到了极大提升。

在采用 OpenFOAM 的 HPC 循环基准测试中,AMD Instinct MI300A APU 与 AMD Instinct MI210、NVIDIA A100 80 GB 和 NVIDIA H100 (80 GB) GPU 进行了比较。在这些测试中,AMD GPU 运行在 ROCm 6.0 协议栈上,而 NVIDIA GPU 则在 CUDA 12.2.2 上运行。此基准配置为运行 20 个时间步长,以每个时间步长的平均执行时间为性能指标。

测试结果显示,AMD Instinct MI300A APU 的性能是 NVIDIA H100 系统的四倍,是 Instinct MI210 加速器的五倍。在 APU 上,由于 CPU 核心与 GPU 计算单元共享统一物理内存,完全消除了页面迁移的开销,因此性能大幅提升。

研究还发现,采用单个 Zen 4 CPU 封装的 AMD Instinct MI300A 运行速度是采用独立 GPU 解决方案的单插槽 Zen 4 CPU 的两倍。当在 MI300A APU 上超载多个进程后,性能进一步提高了两倍,显示出超过传统 dGPU+dCPU 配置的可扩展性。

由此看来,AMD Instinct MI300A APU 在高性能计算领域的计算能力将无人能及。尽管 NVIDIA 在其下一代 Blackwell 阵容中已经转向强调人工智能性能,AMD 通过其 MI300X 加速器及未来的产品更新,将在 HPC 领域继续保持领先。

如何将ubuntu的Linux内核升级到最新版本

当我们的开发环境使用的是ubuntu ,但因其Linux内核版本太低已经满足不了新的开发和调试需求时,此时又不想大动干戈升级整个系统,就可以考虑在该版本上只升级Linux内核即可。

May 3, 2024

AMD 55岁生日快乐!市值已超Intel 1000亿美元

不知不觉,AMD已经成立55年了!

AMD成立于1969年5月1日,只比Intel晚了不到一年,相爱相杀已经超过半个世纪。

1982年2月,AMD与Intel签约成为8086/8088处理器的第二制造商、供应商,用于IBM PC,后延伸到80286。

之后,Intel拒绝继续提供技术授权,AMD将其告上法庭,最终在1994年获胜,赢得超过10亿美元的赔偿,再往后的AMD386、AMD486都凭借高性价比大获成功,而在Intel进入奔腾时代之后,两家“分道扬镳”。

AMD处理器发展史可以大致分为八个阶段,分别是80486-K6、K7、K8、K10、K10.5、12h APU、15h推土机、Zen锐龙。

2006年7月,AMD 54亿美元并购ATI,成为其发展史的转折点,虽然因此背上巨额债务,之后不得不切割晶圆厂,但同时拥有了强大的CPU、GPU,获得了更多发展机会。

2020年10月,AMD 350亿美元(股票)收购FPGA大厂赛灵思,迎来新机遇。

目前,AMD公司市值约2330亿美元,领先对手Intel多达1000亿美元。

再说个A卡的新消息,RDNA4架构的RX 8000系列虽然很遗憾不会有顶级旗舰,但也不是完全躺平,仍会有可取之处,比如光追。

根据最新曝料,RDNA4架构的光追部分将会是完全重新设计的,而现在的RDNA3光追只是在RDNA2基础之上做了一些改进,变化并不大。

很显然,RDNA4的光追性能、画质都会有一次质的飞跃,但具体能达到什么程度还不得而知。

值得一提的是,PS5 Pro GPU部分将会是一个定制的特别版,基础架构来自RDNA3,而光追部分来自RDNA4。

这也从一个侧面证实,RDNA4的光追会很有一套,预计吞吐能力可翻一番。

如果RDNA4架构显卡能在主流乃至低端上提供更好的光追,无疑是更大的福音,可以让更多普通玩家享受光追的魅力。

May 1, 2024

英伟达上线了ChatRTX新版本

NVIDIA今日发布了ChatRTX应用程序0.3版本的更新,该更新在NVIDIA的官网上线。这款类似ChatGPT的应用程序新增了多项功能,这些功能曾经在3月份的NVIDIA GTC会议上做过展示,包括图片搜索能力、AI语音识别技术,以及对更多大型语言模型(LLM)的支持。

Linux服务器挂载硬盘

使用外接硬盘拷贝或者保存数据很常见,在windows系统下硬盘可以即插即用,但是在Linux系统,需要将硬盘挂载后才能使用。挂载方法也会因为硬盘文件系统的不同而不同。

mount用于Linux服务器上的硬盘挂载,挂载时给定硬盘盘符及目录挂载路径即可,以下是详细介绍。

华盛顿大学发明新PCB材料

华盛顿大学的最新研究提出了一种新型的环保印刷电路板(PCB)技术,名为“vPCB”(玻璃化PCB)。这种材料可多次回收利用,几乎不产生废物。vPCB通过使用一种高度工程化的聚合物——玻璃化体替换大部分传统PCB材料。这种聚合物在固化时可形成PCB,在需要时则可膨胀,以便回收或重新利用其中的组件。

在回收过程中,研究人员能够回收98%的玻璃化体和100%的玻璃纤维。测试表明,vPCB在强度和电性能上与目前广泛使用的FR-4材料相当。与传统PCB相比,vPCB有望减少81%的致癌物排放,这使其成为一种潜在的替代产品,特别是在当前科技高速发展的背景下,对环境友好的解决方案显得尤为重要。

此外,此前也有尝试制造更可持续的PCB,例如开发可溶于水的PCB。这种PCB在与水接触后可以溶解,其组件仍可被回收。这与vPCB的主要优点相似,不过有一点需要注意:无论PCB的制造方式如何,工作中的电子设备都应避免与水接触。

这些努力表明,技术界仍在关注减少行业对地球的影响。希望未来我们能看到更多像vPCB这样的环保制造方法成为常态。

IBM在加拿大建设封装厂

据彭博社报道,IBM公司计划在接下来的五年内,投资超过7.3亿美元用于扩建位于魁北克省布罗蒙特的半导体封装与测试工厂。

布罗蒙特工厂占地约800英亩,位于蒙特利尔东约50英里处,是北美半导体生产的重要基地,其应用领域广泛。该工厂还拥有加拿大首个通用量子计算机。IBM的扩展计划可以减少目前对台湾等地封装服务的依赖。

扩建将和IBM的合作伙伴MiQro创新合作中心共同实施。这一阶段由加拿大和魁北克政府共同出资1亿加元,重点是扩大现有工厂并建立一个新的研发实验室。这些改进对于适应半导体产业不断变化的需求至关重要。

IBM认为,东亚地区占全球半导体制造业的75%(包括存储器)。这种集中度在疫情期间已显示出对供应连续性的风险。布罗蒙特的计划发展目标是通过建立更有韧性的北美供应框架来减轻这些风险。

同时,加拿大的策略是通过专注于如航空和医疗等专业领域来补充美国。即支持特定的高技术领域,而非大规模生产通用组件。

Arm史上最快!阿里128核心处理器

电气电子工程师学会(IEEE)最新的《Transactions on Cloud Computing》期刊上的一篇论文指出,阿里巴巴2021年发布的倚天710,是当今性能、能效最好的Arm架构云服务处理器。

阿里倚天710采用5nm工艺制造,纯64位Armv9指令集架构,128核心,每核心1MB二级缓存,共享64MB三级缓存,最高主频3.2GHz,支持八通道DDR5内存、96条PCIe 5.0通道。

阿里称它是业界性能最强的ARM服务器芯片,领先超过业界标杆20%,能效比也提升50%以上,主要用于阿里云数据中心。

本次测试对比了多款竞品,包括Intel至强铂金8848C(32C/3.2GHz/105MB)、鲲鹏920(60C/2.4GHz/32MB)、Ampere Altra(80C/3GHz/32MB)、亚马逊Graviton 2/3(64C/2.5/2.6GHz/32MB)。

其中,Intel的自然是x86指令集,其他几款都是Armv8指令集。

在八项测试中,对比同样Arm架构的竞品,阿里倚天710几乎全程一路“遥遥领先”,唯一表现平平的就是Excel。

即便对比x86架构的至强铂金8848C,它也不遑多让,Dhrystone、Whetstone两个项目中都与之处于相当的水平。

论文还指出,阿里倚天710除了性能出色,还有领先的指令集、DDR5内存、PCIe 5.0通道,以及更大的三级缓存,而且是在2021年就做到了。

顺便看看我们更熟悉的客户端产品。

Intel将在今年晚些时候推出的Arrow Lake、Lunar Lake会划归到第二代酷睿Ultra,其中前者重回桌面高性能市场,最多还是8P+16E 24核心,不过失去超线程,也就是最多24核心24线程。

之前已经知道三款K系列型号,分别是酷睿Ultra 9 290K、酷睿Ultra 7 270K、酷睿Ultra 5 260K,预计分别8+16 24核心、8+12 20核心、6+8 14核心。

现在确认了一款“酷睿Ultra 5 240F”,定位中低端市场,特殊之处在于将同时使用8+16、6+8两种配置的芯片,实际规格预计是6+4 10核心。

换言之,如果使用原生8+16的芯片,它需要屏蔽2个大核心、12个小核心。

至于入门级有没有酷睿Ultra 3系列,暂时不详,至少目前的一代酷睿Ultra没有。

当然,这种做法不是第一次第二次了,并不罕见,但诡异的是,传闻称,6+8版本制造工艺是Intel 20A,8+16版本则是Intel 20A、台积电3nm两种!

按照以往的节奏,Arrow Lake K系列将在今年秋天发布,酷睿Ultra 5 240F这样的主流版本得到明年初了。

三星挑战台积电和英特尔,加入2纳米技术竞争

三星晶圆厂将于2024年6月在VLSI研讨会上详细介绍其第三代制程技术,这种技术采用了全环绕栅极(GAA)晶体管。这一技术被命名为SF2,它将是公司首个2纳米级的制造工艺。该节点预计将在性能和效率方面带来显著提升。

根据公司的描述,即将推出的节点将进一步完善三星的多桥通道场效应晶体管(MBCFET)架构,并采用独特的外延和集成过程。这将使其晶体管性能提高11-46%,与未具体说明的FinFET基础工艺技术相比,减少变异性26%,同时降低泄漏约50%。

三星公司在描述中指出:“通过引入独特的外延和集成工艺,第三代多桥通道场效应晶体管(MBCFET,即SF2)的产品性能得到了全面提升,极大地增强了栅极的总体效益,并成功解决了缩放与全环绕栅极(GAA)结构之间的冲突,实现了显著的产品增益。” 公司进一步说明,“在这一新技术的加持下,主要的窄NS晶体管通过N/PFET提高了29%/46%,而宽NS晶体管的性能也提升了11%/23%。此外,通过将基于FinFET的晶体管全局变异性降低26%,产品的泄漏分布得以显著压缩,减少了约50%。”

据《Business Korea》报道,三星不仅在推动技术创新,还在加强其2纳米级制造工艺的生态系统。公司正在与超过50家知识产权(IP)合作伙伴合作,拥有超过4000项IP标题,尽管只有少数是针对GAA节点和SF2的。今年早些时候,三星与Arm签订了协议,共同优化Cortex-X和Cortex-A核心,以适应三星基于全环绕栅极晶体管的制造技术。

三星的SF2工艺技术的设计基础设施预计将在2024年第二季度完成,届时公司的芯片开发合作伙伴将能够开始为该生产节点设计产品。

另外,三星计划今年开始使用其第二代3纳米级制造工艺,称为SF3,制造芯片。三星的第一代3纳米级节点SF3E并未取得特别成功,因为该公司主要在此技术上生产矿机芯片。但三星希望其SF3节点将得到更广泛的使用,包括数据中心等更复杂的设计。

2纳米级工艺技术的竞赛已经开始。随着三星在今年夏天详细公布设计规格,我们预计将在2025年见到首批基于三星SF2工艺的产品。这些产品将与台积电的2纳米系列节点(包括N2P)进行竞争。同时,英特尔代工厂(Intel Foundry)也在积极开发其2纳米级的Intel 18A节点,预计最早的产品设计将于2024年底推出。此外,英特尔的20A解决方案也正在开发中,并计划在今年内推出。如何有效叠加这些不同的工艺技术,仍然是个有趣的悬念。

VxWorks