September 14, 2024

这个Windows内置应用程序会影响电脑启动速度

相信很多小伙伴,在查看照片和视频时,都会选择默认的微软照片应用程序。这款应用随Windows系统预装,方便快捷。然而,近期有不少用户反映,这款应用导致电脑运行变慢,令人头疼。

经过PC World调查,发现主要有以下两个原因导致微软照片应用拖慢电脑速度:

1. 微软在六月份将照片应用从UWP(Universal Windows Platform,通用Windows平台)迁移到了Windows App SDK,这一改变可能影响了应用的性能。

2. 微软不断为照片应用添加新的AI功能,虽然功能更强大,但同时也使得应用变得更加庞大,启动速度变慢。

August 3, 2024

AMD Zen 5 EPYC 9755跑分数据流出

近日,AMD 基于Zen 5架构的EPYC 9755 “Turin” CPU在CPU-z基准测试中展示了其惊人的性能表现。这款128核旗舰级CPU在单核测试中获得了653.7分,而在多核测试中更是达到了惊人的108,093分,轻松突破了10万分。

AMD EPYC 9755 CPU是第五代EPYC系列的最新产品,代号为Turin,采用Zen 5核心架构,拥有128个内核和256个线程。其基本时钟频率为2.70 GHz,最高可提升至4.10 GHz的时钟速度。这款CPU的内核和线程数量相比前代产品增加了33%,时钟频率提高了11%。此外,它还配备了巨大的缓存池,总计650 MB,包括512 MB的L3缓存、128 MB的L2缓存和10 MB的L1缓存。相比之下,前一代基于Zen 4架构的EPYC 9654(Genoa)拥有496 MB的总缓存。

从技术规格来看,EPYC 9755配备了16个CCD,每个CCD包含8个核心,每个核心具有4 MB的L3缓存和1 MB的L2缓存。此外,每个核心还配备了80 KB的L1缓存。所以加在一起就是16 x 8 x (4+1+0.08) = 650MB。

如前所述,EPYC 9755在多核测试中获得了108,093分,超越了前代产品EPYC 9654的95,002分,提升幅度达14%。这一成绩表明,尽管测试样品可能是早期工程样品,但其性能已经相当出色,最终的零售版本性能有望进一步提升。

除了服务器市场外,通过EPYC 9755的性能表现也能预测基于Zen 5架构的下一代线程撕裂者Threadripper产品线的潜力。EPYC CPU能够在多核测试中突破10万分,那么具有更高时钟频率和额外优化的Threadripper CPU将有望轻松超越12~13万分,甚至在超频情况下达到15万。

AMD凭借其Zen 4产品在服务器和工作站市场已经占据了主导地位,随着Zen 5的推出,AMD有望进一步巩固其在这些领域的领先地位。EPYC 9755的强劲性能不仅展示了AMD在高性能计算领域的技术实力,也为未来的产品线奠定了坚实基础。

May 5, 2024

Intel“模拟大脑”已有11.5亿神经元

Intel正式发布了代号“Hala Point”的新一代大型神经拟态系统,用于类脑AI领域的前沿研究,提升AI的效率和可持续性。

该系统基于Intel Loihi 2神经拟态处理器,在上代大规模神经拟态研究系统“Pohoiki Springs”的基础上,进一步改进了架构,将神经元容量提高了10倍以上,达到史无前例的11.5亿个,大致相当于猫头鹰或卷尾猴的大脑皮层规模,性能也提高了多达12倍。

2018年1月,Intel发布了第一款能够进行自主学习的神经拟态芯片Loihi,可以像人类大脑一样,通过脉冲或尖峰传递信息,自动调节突触强度,通过环境中的各种反馈信息,进行自主学习、下达指令。

Loihi基于Intel 14nm工艺,核心面积60平方毫米,包含128个神经形态的核心(Neuromorphic Core)、三个低功耗x86核心,集成12.8万个神经元、1.28亿个触突,每个神经元有24个变量状态。

Loihi 2处理器发布于2021年10月,首发采用Intel 4工艺,集成230亿个晶体管、六个低功耗x86核心、128个神经形态核心,单颗就有100万个神经元、1.2亿个突触,是上代规模的8倍,性能也提升了10倍。

Loihi 2支持新型神经启发算法和应用,应用了众多类脑计算原理,如异步、基于事件的脉冲神经网络(SNN)、存算一体不断变化的稀疏连接,而且神经元之间能够直接通信,不需要绕过内存。

它还支持三因素学习规则、出色的突触(内部互连)压缩率,内部数据交换更快,并具备支持与内部突触相同类型压缩率的片外接口,可用于跨多个物理芯片扩展片上网状网络。

尤其是在新兴的小规模边缘工作负载上,它实现了效率、速度和适应性数量级的提升。

比如执行AI推理负载和处理优化问题时, Loihi 2的速度比常规CPU和GPU架构快多达50倍,能耗则只有百分之一。

Hala Point系统的形态是一个六机架的数据中心机箱,大小相当于一个微波炉,内置1152颗Loihi 2处理器,共有140544个神经形态处理内核、11.5亿个神经元、1280亿个突触,最大功耗仅为2600瓦。

系统内还有2300多颗嵌入式x86处理器,用于辅助计算。

内存带宽达16PB/s(16000TB/s),内核间通信带宽达3.5PB/s(3500TB/s),芯片间通信带宽达5TB/s,可以每秒处理超过380万亿次的8位突触运算、超过240万亿次的神经元运算。

Hala Point在主流AI工作负载上的计算效率非常出色,比如运行传统深度神经网络时,每秒可完成多达2万万亿次运算(20PFlops),8位运算的能效比达到了15TOPS/W(每瓦特15万亿次计算),相当于甚至超过了基于GPU、CPU的架构。

在用于仿生脉冲神经网络模型时,Hala Point能够以比人脑快20倍的实时速度,运行其全部11.5亿个神经元。

尤其是在运行神经元数量较低的情况下,它的速度甚至可比人脑快200倍!

早期研究结果表明,通过利用稀疏性高达10比1的稀疏连接和事件驱动的活动,Hala Point运行深度神经网络的能效比可高达15TOPS/W,同时无需对输入数据进行批处理。

Hala Point系统有望推动多领域AI应用的实时持续学习,比如科学研究、工程、物流、智能城市基础设施管理、大语言模型、AI助手等等。

另外,Intel已经在用AI辅助设计芯片了,效果还挺好。

Intel内部研发了一种新的AI增强工具,可以让系统级芯片设计师原本需要耗费6个星期才能完成的热敏传感器设计,缩短到区区几分钟。

在芯片电路设计中,工程师需要确定热感应器在CPU处理器中的安放位置,并判断热点容易出现的区域。

这是一个复杂的流程,需要进行各种测试,包括模拟工作负载、传感器位置优化等等,经常需要重新开始整个步骤,而且一次只能研究一两个工作负载。

Intel客户端计算事业部高级首席工程师、人工智能解决方案架构师Olena Zhu博士领衔增强智能团队开发的这款AI工具,可以帮助系统架构师将数千个变量纳入未来的芯片设计中,包括精确分析激活CPU核心、I/O和其他系统功能的复杂并发工作负载,从而精准地确定热点的位置,并放置对应的热敏传感器。

这款工具解决了这些需要靠推测进行的工作。工程师只需输入边界条件,它就可以处理数千个变量,几分钟内就返回理想的设计建议。

酷睿Ultra Meteor Lake处理器的设计工作就使用了该工具,未来的客户端处理器,比如将在今年晚些时候发布的Lunar Lake,以及后续产品,都会继续用它。

Intel客户端计算事业部高级首席工程师、人工智能解决方案架构师Olena Zhu博士

Intel客户端计算事业部增强智能团队的在AI方面的其他进展还有:

  • 一个能快速识别关键热工作负荷的配套工具,通过大模型训练,可以预测尚未进行模拟或测量的其他工作负载。
  • 对于高速I/O的快速准确信号完整性分析工具,设计时长从几个月缩短至1个小时。Intel是业界首个采用此技术的公司,已经为多代芯片的设计提供支持。
  • 基于AI的自动故障分析工具,用于高速I/O设计,2020年就已部署,设计效率已提升60%。
  • 增强型智能工具AI Assist,能够使用AI模型自动确定不同平台的定制超频值,将超频所需的准备时间从几天减少到1分钟。14代酷睿已提供该工具。
  • 基于AI的自动化硅片版图设计优化器,已纳入Intel SoC设计流程。
  • 一种智能采样工具,可以帮助动力和性能工程师处理智能设计实验,测试用例数量减少40%。
  • 一种用户交互工具构建的AI模型,可以预测架构方案的性能,并帮助解决CPU设计的平衡问题。
  • 一种自动放置微型电路板组件的新方式,将循环时间从几天缩短至几个小时。

Intel工程团队还利用内部开发的AI算法,成功将单个处理器的测试时间减少了50%。

Intel强调,尽管这些工具都非常有用,不会或者很少出现任何错误,但是增强智能在短期内并不会取代真正的工程师。

Intel增强智能团队成员Mark Gallina、Olena Zhu、Michael Frederick在俄勒冈州希尔斯伯勒的Intel客户端计算事业部实验室

为什么谷歌没有销售AI硬件TPU

由于GPU在AI硬件市场的主导地位,NVIDIA的股价飙升。然而与此同时,谷歌众所周知的AI硬件TPU却并不对外出售,用户只能在谷歌云上租用虚拟机来使用它们。为什么谷歌没有加入销售AI硬件的游戏呢?

May 4, 2024

AMD MI300A在测试中超出H100四倍

AMD Instinct MI300A 是AMD公司开发的一款高性能APU(Accelerated Processing Units),结合了CPU和GPU的功能,专为高性能计算(HPC)和人工智能应用而设计。这种处理器的设计目的是提供强大的计算能力,以支持大规模科学计算和数据密集型任务。

关于对AMD Instinct MI300A APU 的简要特性:

  • 首款集成 CPU 和 GPU 的组件
  • 面向大规模超级计算机市场
  • 包含 1530 亿个晶体管
  • 多达 24 个 Zen 4 核心
  • 基于 CDNA 3 GPU 架构
  • 最高 192 GB HBM3 内存
  • 包括多达 8 个芯片组和 8 个内存堆栈(采用 5 纳米和 6 纳米工艺)

与传统的独立 GPU 相比,AMD 的 Instinct MI300A APU 在高性能计算(HPC)工作负载中实现了巨大的性能提升。Instinct MI300A 实现了多年前提出的“Exascale APU”平台概念,该平台将高性能 GPU 和 CPU 集成在同一芯片封装中,并共享统一内存池。对于高性能计算而言,这种加速器/协处理器设计不仅提升了每瓦特性能,但同时也需要进行大量的代码移植、优化和维护工作,这可能涉及数百万行代码,是一项具有挑战性的工作。研究人员已经开始利用 OpenMP 和 OpenACC 这两种流行的编程模型,充分发挥 AMD 下一代 APU 的性能潜力。

在一篇题为《使用统一内存和 OpenMP 将 HPC 应用程序移植到 AMD Instinct MI300A》的研究论文中,科学家利用 OpenFOAM 框架(这是一个开源 C++ 库),提供了在 MI300A APU 上移植代码的灵活性和便捷性的蓝图,并详细阐述了使用 OpenFOAM 对原来系统进行加速的方法。得益于 AMD Instinct MI300A 加速器的统一 HBM 接口,数据无需复制,也无需区分主机与设备的内存编程。此外,AMD 的 ROCm 软件套件提供了额外的优化功能,有助于整合 APU 的各部分,形成一个连贯的异构系统。因此,性能得到了极大提升。

在采用 OpenFOAM 的 HPC 循环基准测试中,AMD Instinct MI300A APU 与 AMD Instinct MI210、NVIDIA A100 80 GB 和 NVIDIA H100 (80 GB) GPU 进行了比较。在这些测试中,AMD GPU 运行在 ROCm 6.0 协议栈上,而 NVIDIA GPU 则在 CUDA 12.2.2 上运行。此基准配置为运行 20 个时间步长,以每个时间步长的平均执行时间为性能指标。

测试结果显示,AMD Instinct MI300A APU 的性能是 NVIDIA H100 系统的四倍,是 Instinct MI210 加速器的五倍。在 APU 上,由于 CPU 核心与 GPU 计算单元共享统一物理内存,完全消除了页面迁移的开销,因此性能大幅提升。

研究还发现,采用单个 Zen 4 CPU 封装的 AMD Instinct MI300A 运行速度是采用独立 GPU 解决方案的单插槽 Zen 4 CPU 的两倍。当在 MI300A APU 上超载多个进程后,性能进一步提高了两倍,显示出超过传统 dGPU+dCPU 配置的可扩展性。

由此看来,AMD Instinct MI300A APU 在高性能计算领域的计算能力将无人能及。尽管 NVIDIA 在其下一代 Blackwell 阵容中已经转向强调人工智能性能,AMD 通过其 MI300X 加速器及未来的产品更新,将在 HPC 领域继续保持领先。

如何将ubuntu的Linux内核升级到最新版本

当我们的开发环境使用的是ubuntu ,但因其Linux内核版本太低已经满足不了新的开发和调试需求时,此时又不想大动干戈升级整个系统,就可以考虑在该版本上只升级Linux内核即可。

May 3, 2024

AMD 55岁生日快乐!市值已超Intel 1000亿美元

不知不觉,AMD已经成立55年了!

AMD成立于1969年5月1日,只比Intel晚了不到一年,相爱相杀已经超过半个世纪。

1982年2月,AMD与Intel签约成为8086/8088处理器的第二制造商、供应商,用于IBM PC,后延伸到80286。

之后,Intel拒绝继续提供技术授权,AMD将其告上法庭,最终在1994年获胜,赢得超过10亿美元的赔偿,再往后的AMD386、AMD486都凭借高性价比大获成功,而在Intel进入奔腾时代之后,两家“分道扬镳”。

AMD处理器发展史可以大致分为八个阶段,分别是80486-K6、K7、K8、K10、K10.5、12h APU、15h推土机、Zen锐龙。

2006年7月,AMD 54亿美元并购ATI,成为其发展史的转折点,虽然因此背上巨额债务,之后不得不切割晶圆厂,但同时拥有了强大的CPU、GPU,获得了更多发展机会。

2020年10月,AMD 350亿美元(股票)收购FPGA大厂赛灵思,迎来新机遇。

目前,AMD公司市值约2330亿美元,领先对手Intel多达1000亿美元。

再说个A卡的新消息,RDNA4架构的RX 8000系列虽然很遗憾不会有顶级旗舰,但也不是完全躺平,仍会有可取之处,比如光追。

根据最新曝料,RDNA4架构的光追部分将会是完全重新设计的,而现在的RDNA3光追只是在RDNA2基础之上做了一些改进,变化并不大。

很显然,RDNA4的光追性能、画质都会有一次质的飞跃,但具体能达到什么程度还不得而知。

值得一提的是,PS5 Pro GPU部分将会是一个定制的特别版,基础架构来自RDNA3,而光追部分来自RDNA4。

这也从一个侧面证实,RDNA4的光追会很有一套,预计吞吐能力可翻一番。

如果RDNA4架构显卡能在主流乃至低端上提供更好的光追,无疑是更大的福音,可以让更多普通玩家享受光追的魅力。

May 1, 2024

英伟达上线了ChatRTX新版本

NVIDIA今日发布了ChatRTX应用程序0.3版本的更新,该更新在NVIDIA的官网上线。这款类似ChatGPT的应用程序新增了多项功能,这些功能曾经在3月份的NVIDIA GTC会议上做过展示,包括图片搜索能力、AI语音识别技术,以及对更多大型语言模型(LLM)的支持。

Linux服务器挂载硬盘

使用外接硬盘拷贝或者保存数据很常见,在windows系统下硬盘可以即插即用,但是在Linux系统,需要将硬盘挂载后才能使用。挂载方法也会因为硬盘文件系统的不同而不同。

mount用于Linux服务器上的硬盘挂载,挂载时给定硬盘盘符及目录挂载路径即可,以下是详细介绍。

华盛顿大学发明新PCB材料

华盛顿大学的最新研究提出了一种新型的环保印刷电路板(PCB)技术,名为“vPCB”(玻璃化PCB)。这种材料可多次回收利用,几乎不产生废物。vPCB通过使用一种高度工程化的聚合物——玻璃化体替换大部分传统PCB材料。这种聚合物在固化时可形成PCB,在需要时则可膨胀,以便回收或重新利用其中的组件。

在回收过程中,研究人员能够回收98%的玻璃化体和100%的玻璃纤维。测试表明,vPCB在强度和电性能上与目前广泛使用的FR-4材料相当。与传统PCB相比,vPCB有望减少81%的致癌物排放,这使其成为一种潜在的替代产品,特别是在当前科技高速发展的背景下,对环境友好的解决方案显得尤为重要。

此外,此前也有尝试制造更可持续的PCB,例如开发可溶于水的PCB。这种PCB在与水接触后可以溶解,其组件仍可被回收。这与vPCB的主要优点相似,不过有一点需要注意:无论PCB的制造方式如何,工作中的电子设备都应避免与水接触。

这些努力表明,技术界仍在关注减少行业对地球的影响。希望未来我们能看到更多像vPCB这样的环保制造方法成为常态。

VxWorks