March 31, 2024

Windows常用虚拟机对比

在Windows操作系统中,虚拟机软件扮演着至关重要的角色,它允许用户在同一台物理机上运行多个操作系统或软件环境,极大地提高了工作效率和灵活性。市面上有许多Windows虚拟机软件可供选择,每款软件都有其独特的特点和适用场景。本文将对几款常用的Windows虚拟机软件进行对比,帮助大家根据自己的需求选择合适的虚拟机。

Linux性能分析:perf工具的安装、使用与技巧分享

在Linux操作系统中,性能优化与监控是一项至关重要的任务。为了更好地满足这一需求,Linux kernel自带了一款强大的系统性能优化工具——perf。perf工具不仅具有强大的性能分析能力,而且与Linux Kernel的紧密结合,使得它能够迅速适应并应用新特性。本文将详细介绍perf的用法和功能,帮助读者更好地理解和使用这一工具。

商用AI PC,可不只加入硬件那么简单

随着2024全新英特尔商用客户端AI PC产品发布会落幕,商用AI PC已然走向全面推广之路。人工智能的进展速度已经远超与我们的想象,从最初简单的语音助手,到如今邮件、文档、编程样样精通的AI,颠覆我们工作和生活方式的时间点几乎近在咫尺。

就在发布会结束之后,我们马不停蹄参加了英特尔的会后采访环节,与业内各位大佬共同讨论AI PC应该具备什么样的品质,未来又应该是什么样的形态,软件层面的应用生态距离我们还有多远?在数论对话和思想碰撞中,兴许可以给我们找到一些答案。

March 30, 2024

Linux Shell高效生成大量数字序列

在Linux系统中,seq命令是一个功能强大的工具,用于生成一系列有序的数字。今天,我们就来详细解析一下seq命令的使用方法,并将其与常见的{n..m}序列生成方式进行对比。

运行Windows Copilot至少需要40 TOPS算力

随着人工智能技术的飞速发展,AI PC时代正式来临,消费者也开始接受并采纳这一新技术。这种新兴的电脑类型不仅提高了计算效率,还在用户体验上带来了显著的提升,使得个人电脑能够执行更为复杂的任务,如自然语言处理和图像识别,为用户提供更加智能化的服务。

风河在NVIDIA GTC上展现AI驱动边缘应用新高度

全球领先的关键任务智能系统软件提供商风河公司, 近日在美国加州圣何塞会展中心举行的全球性AI盛会NVIDIA GTC上, 演示了Wind River Linux与NVIDIA Jetson™集成建构的新一代生成式AI边缘应用。

此项演示基于Yocto Project的Wind River Linux和NVIDIA Jetson Orin™ 集成为一体,为行车记录仪视频(Dashcam Videos)中的实时目标识别提供了突破性的CUDA优化解决方案,使AI驱动的路面目标识别提升到了更高的精度,从而能够显著提升城市交通的安全性和效率。

这种基于Yocto Project且具备商业级支持的Linux解决方案可以用于任何AI应用,其数据模型运行在NVIDIA Jetson上,覆盖多个关键任务应用系统,例如机器人、工厂安全、智能机器或无人机系统中的语音识别和姿态识别。

生成式AI正在改变整个行业,同时提升人们的日常生活品质,蕴藏着巨大潜力。把NVIDIA的技术与Yocto Project开源Linux相结合,将为新一代人工智能应用开辟广阔的前景。风河和英伟达的技术相结合,可以帮助开发人员实现人工智能和机器学习领域的快速创新,并为开发更智能、更安全的应用系统提供支持,从而催化革命性的转型。这项突破性的技术在NVIDIA GTC大会上成为闪亮明星,我们对此倍感兴奋。

风河首席技术官 | Paul Miller

把先进的视频处理算法和深度学习专业知识融为一体,并提供很好的鲁棒性和可扩展性,从而使这套解决方案在目标识别方面的准确性和速度都显著提升。这套解决方案基于Yocto Project的Linux环境,因而可以提供无与伦比的定制化和可控性,满足了行车记录仪应用场景中对于AI的独特需求。此项演示表明,与之前测试的其他Linux配置相比,在基于Yocto Project的环境中,CUDA优化能使计算效率和软件性能提升25%。

在对这套AI目标检测系统进行评估的过程中,使用了由用户提供的行车记录仪实景视频作为输入。这种测试方法可以评估系统在现实场景中的表现,确保解决方案能够适应复杂多变且难以预测的现实应用环境。

这个AI模型可以实时识别交通状况中的各种目标,例如多种汽车和行人(提供多种不同的置信度)。这套系统中的图像分析系统具备以下重要特色:

  • 在复杂环境中实现高精度识别:尽管行驶在繁忙的城市街道充满挑战,但这套系统表现出了很高的准确度,能够以极高的置信度检测出车辆和行人。
  • 实时性能:系统中的AI模型可以有效地处理视频流,保持高帧率(188.8 FPS),这对实时应用至关重要。如此之高的性能使这套模型具备了集成进入先进驾驶辅助系统的潜力。
  • 实用性:由于这项演示采用了用户行车记录仪中的实景视频,因此足以表明在真实环境中的有效性,从而确保这项技术能够可靠地运行在日常场景中。

此外,日本安川电气公司在NVIDIA GTC上还推出了基于Wind River Linux和Jetson集成解决方案的现场演示,利用 AI 技术实现了工业机器人在非结构化环境中的自主决策与自动行走。

作为边缘人工智能、嵌入式和机器人应用平台,NVIDIA Jetson提供了可扩展的软件、现代化的人工智能技术堆栈、生产就绪的ROS软件包和特定应用的人工智能工作流。它可以共享人工智能软件和云原生工作流程,同时达到了构建软件定义自主机器和突破性边缘人工智能解决方案所需的低功耗性能。

作为嵌入式市场最领先的Linux平台,Wind River Linux帮助企业在专门构建的Linux操作系统上开发、部署和运行功能强大、安全可靠的嵌入式解决方案,达到了关键任务应用必不可少的高性能要求。

March 29, 2024

生产环境中使用的Ubuntu哪个版本比较稳定

服务器操作系统的稳定性直接关系到企业业务的连续性和数据的安全性。Ubuntu作为一款开源且广泛应用的Linux发行版,其不同版本在性能、安全性和稳定性方面均有所差异。那么,在生产环境中,究竟哪个版本的Ubuntu表现最为稳定呢?本文将结合实际应用和社区反馈,为您深入分析并得出结论。

各个Linux发行版的特点和优势

在信息化快速发展的今天,服务器操作系统的选择对于企业的业务运行至关重要。在众多操作系统中,CentOS、Ubuntu、Debian和Fedora因其独特的优势和特点而备受关注。本文将对这四个系统进行详细解析,帮助读者了解其特点和优势,以便在选择时能够做出明智的决策。

Linux系统常出现的网络问题及解决方法

隔三差五就有研发部门的兄弟来找我们部门的网工,需要协助处理服务器的网络问题。分享这类问题的排查思路及解决方法。

1、检查网络连通性:使用ping命令测试目标地址是否可达,例如ping www.baidu.com。

如果无法ping通,可能是由于DNS解析失败或网络配置问题导致的

Fedora 41引入了全新 DNF5 软件包管理

Fedora是一个各方面都经过精心打磨的发行版,在众多Linux发行版中名列前茅。然而,它的软件包管理器是其软肋,与当今标准相比显得过时。

March 28, 2024

盘点一下史上最全大语言模型训练中的网络技术

编者按:大语言模型的爆发式增长对网络提出了更高要求,产学研各界纷纷开始探索,围绕网络架构、网络协议等取得了丰富的实践进展。本文由中兴团队操刀,不同于其他只是局限于网络协议类详解的文章,本文从多维角度立体分析了大语言模型训练中的网络技术应用,以飨读者。

March 27, 2024

快速了解HTTP协议

HTTP(超文本传输协议)是一种用于从服务器传输超媒体文档到本地浏览器的应用层协议。它基于请求/响应模型,客户端发出请求,服务器返回响应。HTTP是无状态的,意味着服务器不会在两个请求之间保留任何数据(状态)。

March 26, 2024

Micron发布适用于大型服务器的大型内存

美光本周宣布,它已经开始对其 256 GB multiplexer combined (MCR) DIMM 进行采样,这是该公司迄今为止容量最大的内存模块。这些全新的基于 DDR5 的 MCRDIMM 面向下一代服务器,特别是那些由英特尔至强可扩展“Granite Rapids”处理器提供支持的服务器,该处理器将支持12或24 memory slots per socket。使用这些DIMM 可以使数据中心计算机具有3TB或6TB的内存,达到 DDR5-8800 的数据速率。

除了宣布这些DIMM的样品外,美光还在 NVIDIA 的 GTC 会议上展示了它们,服务器供应商和客户都在为下一代 AI 加速器构建新服务器。

显然,美光的 256 GB DDR5-8800 MCRDIMM 有两种变体:一个是两侧分布有 80 个 DRAM 芯片的更高模块,另一个是使用 2Hi 堆叠封装的标准高度模块。两者都基于单片 32 Gb DDR5 IC,旨在满足不同的服务器配置。较高的版本消耗约 20W 的功率,这符合预期,因为 128 GB DDR5-8000 RDIMM 在 DDR5-4800 模式下消耗约 10W。不知道使用 2Hi 封装版本的功耗,尽管预计它会更热一点,更难冷却。

MCRDIMM 是dual-rank内存模块,具有专用buffer,允许两个rank同时运行。该buffer使两个物理rank能够像并行工作的独立模块一样运行,从而允许每个时钟周期同时从两个rank检索 128 字节的数据(而常规内存模块则为每个周期 64 字节),从而有效地将单个模块的性能提高一倍。

当然,由于模块保留了标准 DDR5 模块(即 72 位)的物理接口,因此buffer以非常高的数据传输速率与host一起工作,以将获取的数据传输到host CPU。这些速度超过了标准 DDR5 规格,在这种情况下达到 8800 MT/s。

虽然 MCRDIMM 使内存DIMM 比常规 RDIMM 稍微复杂一些,但它们在不增加所涉及的内存模块数量的情况下提高了内存子系统的性能和容量,这使得构建服务器主板变得更加容易。这些模块有望在使下一代服务器能够处理要求越来越高的应用程序方面发挥关键作用,特别是在人工智能领域。

IPv6地址之间的转换技术:NAT66

NAT66,全称为Network Address Translation for IPv6 to IPv6,是一种用于IPv6网络的地址转换技术。在IPv6网络中,每个设备都被分配一个全局唯一的IPv6地址,这样的地址长度为128位。NAT66的作用是通过将内部设备的IPv6地址映射到另一组IPv6地址来实现地址转换,使得内部设备可以访问外部网络,同时保护内部网络的真实IPv6地址不被外部直接暴露。

Linux 开机自动重启脚本的方法

经常碰到机器断电之后需要重启一大堆服务,为了防止这种事情发生,设置开机自启的脚本十分的重要,我们习惯性的做法就是编写一个重启脚本,然后在 /etc/rc.local 中去完成开机执行。例如下面这样:


$ cat /etc/rc.local
bash /root/script/restart.sh

这样的方法虽然可行,但并不优雅。今天我们就给大家介绍两种更好的实现方式:

通过 Crontab 实现

Crontab 可以使用 @reboot 来执行主机启动之后的命令。首先在命令行输入:


$ crontab -e

然后添加以下内容:


@reboot /root/script/restart.sh

完成后,这个脚本就可以在重启的时候自动执行了。其它的一些进阶玩法:

在启动完成后的指定时间内运行脚本


# 在启动 5 分钟后运行指定脚本
@reboot sleep 300 && /home/wwwjobs/clean-static-cache.sh

通过 Systemd 实现

首先编写一个名为 restart 的 Systemd 服务:


$ vim /lib/systemd/system/restart.service

[Unit]
Description=restart
After=default.target

[Service]
ExecStart=/root/script/restart.sh

[Install]
WantedBy=default.target

然后启用这个 Systemd 服务:


$ systemctl daemon-reload
$ systemctl enable restart.service

完成后,这个服务对应的脚本就可以自动开机自启了。

March 25, 2024

Linux下xargs命令的使用与技巧

在Linux系统中,命令行工具是用户与系统进行交互的重要桥梁。其中,xargs命令是一个非常实用的工具,它能够将标准输入的数据转换为命令行参数,从而方便用户对数据进行批量处理。今天,我们就来详细了解一下xargs命令的使用方法和一些技巧。

Windows 11快捷键升级:新增文件管理器列宽调整功能

在数字化时代,键盘快捷键已经成为了提高计算机操作效率的重要工具。尽管Windows操作系统已经发展得相当成熟,但微软仍然在不断推出新的快捷键,以满足用户日益增长的需求。最近,Windows 11就新增了几个实用的键盘快捷键,这些快捷键的引入旨在帮助用户更加高效地管理文件资源管理器中的文件和文件夹。

Cache在AI处理器设计中的作用

如今,人工智能 (AI) 无处不在,从互联网核心的数据中心到互联网边缘的传感器和手持设备(如智能手机)以及介于两者之间的每个点,例如自主机器人和车辆。

如何使用脚本快速查看Linux系统信息

Linux系统很多使用都是使用在服务器上,登录以及使用常常都是通过SSH远程方式,所以查看Linux系统信息并不是象一些拥有GUI界面系统一样那么直观集中。

计算机程序员应掌握的 10 项关键技能

计算机程序员应掌握的 10 项关键技能 计算机程序员是具有固定硬技能的技术专业人员。此外,他们需要软技能才能在工作、团队和组织设置中茁壮成长。

March 24, 2024

FIFO队列数据结构

在编程中,数据结构是至关重要的,而FIFO(先进先出)队列则是其中一个常用且实用的数据结构之一。

C++中递归函数的经典应用

编程的世界里,递归函数是一种神奇的存在,它能够以简洁而优雅的方式解决许多复杂的问题。从阶乘到斐波那契数列,再到二叉树的遍历,递归函数在各种场景下都展现出了强大的能力。

韩国建设世界最大晶圆厂复合体

近日,韩国知名半导体公司海力士宣布,将于2025年3月开始在京畿道省建设名为“永宁半导体集群”的巨型晶圆厂复合体,预计整个项目将在2046年完成。该复合体将包含四个独立的生产设施,建设成本预计将达到120万亿韩元(接近900亿美元)。一旦完工,这将可能成为世界上最大的晶圆厂复合体,而且该地区还有更多空间可供三星等公司建造其他设施。

谷歌宣布其AI能够提前7天预测自然灾害

近日,Google宣布其人工智能系统现已能够预测最常见的自然灾害——而且可以在七天前就可以预警即将发生的灾害。这项重大进展发表在《自然》科学期刊上,研究团队利用了历史事件数据、河流水位读数、地势高度及地形数据等多种相关信息,开发出了一种新的机器学习模型。通过对数十万次洪水事件模拟的训练,这一模型目前能够预测河流泛滥高达七天之久。

Linux系统中的bash和sh的详细比较

在Linux系统中,Shell是用户与操作系统内核交互的接口,它允许用户输入命令并接收操作系统的反馈。Bash和Sh是两种常见的Shell,它们在功能、特性以及使用场景上存在一些区别。本文将对Bash和Sh进行详细比较,以便读者更好地理解和选择适合自己的Shell。

宽带远程接入服务器:BRAS

在当今数字化时代,互联网已经渗透到了我们生活的各个方面。而要实现互联网的接入,一项关键的技术是宽带接入,而BRAS(Broadband Remote Access Server)宽带远程接入服务器则是宽带接入技术中不可或缺的一环。本文将详细介绍BRAS的概念、作用、原理以及应用场景。

Windows系统中的环境变量及其应用

环境变量是计算机操作系统中用于存储特定配置信息的一种机制,它们允许程序和系统服务在运行时动态地获取这些配置信息。在Windows操作系统中,环境变量扮演着至关重要的角色,它们不仅影响着操作系统的行为,还影响着运行在系统上的应用程序。本文将深入探讨Windows操作系统中环境变量的概念、如何配置以及它们在实际应用中的重要作用。

英伟达和联发科达成合作,Blackwell进入汽车领域

近日,NVIDIA与MediaTek宣布了一项重大合作,准备将NVIDIA的下一代GPU技术应用于汽车领域。这一合作将通过MediaTek即将推出的Dimensity汽车SOC系列,整合NVIDIA的RTX和AI GPU IP,以推动汽车中AI和加速计算的新一代技术发展。这一消息首次在2023年的Computex大会上公布,并在2024年的GTC会议上得到了进一步的确认。

MediaTek特别指出,其四款汽车SOC——Auto Cockpit CX-1、CY-1、CM-1和CV-1——将采用这种新的GPU IP,并支持NVIDIA Drive OS。这些芯片将基于NVIDIA的下一代RTX GPU架构,专门用于AI聚焦和图形密集型应用,如大型语言模型(LLMs)、聊天机器人、内容丰富的多显示屏交互、驾驶员警觉性检测等前沿AI安全和娱乐应用。

Dimensity汽车驾驶舱平台不仅采用了最先进的ARM v9-A系统,还整合了NVIDIA的GPU加速AI计算能力和RTX图形技术,以本地方式运行应用,提供改进的安全性、速度和延迟优势。此外,为了进一步保护用户数据,Dimensity汽车驾驶舱还包括了基于硬件的安全功能,并支持最新的汽车安全标准。

从技术细节上看,这些SOC采用了旗舰级的3nm制程技术、最先进的Armv9-A CPU,具备出色的性能、安全性和深度学习能力。NVIDIA RTX图形技术为游戏中的真实视觉效果和光照效果提供了光线追踪支持,同时通过AI上采样和帧生成技术,实现了快速流畅的动作。这些芯片还整合了多种音频DSP,用于语音和音频处理,以及先进的HDR ISP,支持下一代摄像头传感器。

MediaTek确认,这种GPU技术将被用来提供包括光线追踪图像在内的“真实”场景显示,以确保逼真的视觉效果。这标志着NVIDIA首次确认将Blackwell变体用于支持RTX的GPU,预计相关的游戏显卡将在2024年下半年上市。

这一合作体现了NVIDIA在定制芯片领域的战略转变。早前,黄仁勋曾表示,公司看到了在此领域的机遇,并特别成立了一个新的业务部门,专注于定制芯片的研发。虽然这次与MediaTek的合作并不意味着NVIDIA已经与其达成了定制芯片的协议,但这确实显示了NVIDIA对此领域的试探,并可能预示着未来将有更多类似的合作伙伴关系出现。

March 23, 2024

Windows文件资源管理器中的“详细信息”视图

在Windows操作系统中,文件资源管理器是我们日常管理和操作文件、文件夹的重要工具。其中,“详细信息”视图为我们提供了一个更为丰富和直观的文件和文件夹展示方式。下面,我们就来详细了解一下“详细信息”视图及其使用技巧。

一、如何切换到“详细信息”视图

打开文件资源管理器后,你可以通过以下几种方式切换到“详细信息”视图:

在文件资源管理器的工具栏上,点击“查看”选项卡,然后在下拉菜单中选择“详细信息”。

使用快捷键。按下Alt + V,然后按下D,即可快速切换到“详细信息”视图。

二、“详细信息”视图的特点

切换到“详细信息”视图后,你会看到文件和文件夹以列表的形式展示,每一列都包含特定的信息,如名称、大小、修改日期等。这种视图方式有助于你更快速地找到和识别文件,尤其是在处理大量文件时。

三、自定义列显示

Windows的文件资源管理器允许你自定义“详细信息”视图中显示的列。这样,你可以根据自己的需要,添加或删除特定的列。

操作步骤如下:

  • 在“详细信息”视图中,右键点击列标题栏的任意位置。
  • 在弹出的菜单中,选择“更多”选项。
  • 在“选择详细信息”对话框中,勾选你想要显示的列,取消勾选不想显示的列。
  • 点击“确定”按钮,保存你的选择。

四、示例说明

假设你是一名设计师,经常需要在文件资源管理器中查找和整理各种设计文件。在“详细信息”视图中,你可以看到每个文件的名称、大小、类型、修改日期等信息。通过自定义列显示,你还可以添加“维度”或“分辨率”等列,这样你就能更直观地了解每个设计文件的详细属性。

我们可以按照文件大小进行排序,快速找到占用空间较大的文件;或者按照修改日期排序,轻松找到最近修改过的文件。这些操作都能大大提高你的工作效率。

有时候,我们的电脑硬盘空间可能会被一些大型文件占用,导致存储空间不足。通过“详细信息”视图,你可以轻松找到这些大型文件并进行清理。

在文件资源管理器中,你可以通过点击工具栏上的“大小”列标题,将文件按照大小进行降序排序。这样,最大的文件就会排在最前面。然后,你可以浏览这些大型文件,判断它们是否是你需要保留的。如果有些文件是临时文件或不再需要的文件,你可以选择删除它们,以释放硬盘空间。

除了按照大小排序外,你还可以利用筛选功能来快速定位到大型文件。在“详细信息”视图中,你可以点击工具栏上的“筛选”按钮,然后设置文件大小的筛选条件。例如,你可以设置筛选条件为“大于1GB”,这样文件资源管理器就只会显示大于1GB的文件。

五、小贴士

除了基本的排序功能外,“详细信息”视图还支持分组和筛选功能。你可以根据文件的类型、大小或修改日期等信息对文件进行分组,或者通过筛选功能快速定位到符合特定条件的文件。这些高级功能可以帮助你更高效地管理和查找文件。

“详细信息”视图是Windows文件资源管理器中一个非常实用的功能,通过合理使用和自定义,它可以大大提高我们管理和操作文件的效率。希望这个小知识能帮助你更好地利用Windows操作系统,提升工作效率。

海力士推出PCIe 5.0固态硬盘

海力士近日在GTC大会宣布,正式进入PCIe第五代(Gen5)固态硬盘领域,推出了旗下全新Platinum P51系列。Platinum P51系列是海力士首批采用PCIe Gen5技术的产品,之前,海力士最快的消费级SSD为基于PCIe Gen4技术、搭载176层3D NAND闪存的Platinum P41系列,速度达到了7000 MB/s。Platinum P51系列的问世,意味着速度上限将得到大幅提升。

Platinum P51系列采用了标准的M.2 2280 (PCIe Gen5 x4)尺寸设计,内部装载了多颗238层TLC NAND Flash芯片,提供500 GB、1 TB至2 TB不同的存储容量选项。该系列使用了海力士自主研发的PCB01控制器。目前市场上的Gen5 SSD多数采用Phison的E26控制器,而Silicon Motion和InnoGrit的新型控制器预计也将很快面市,Gen5 SSD市场的竞争将变得更加激烈。

在性能方面,Platinum P51 Gen5 SSDs的连续读速度高达13500 MB/s(13.5 GB/s),写速度则达到11500 MB/s(11.5 GB/s),远超过第一代Gen5 SSD的性能水平。不过该系列产品的随机读写性能数据还没有发布。

海力士在展示的硬盘上贴有标签,无法看出具体颗粒型号,未来可能会推出配备散热片的版本。这么快的速度,发热量料想也会很大。目前还不知道零售价格和上市时间。我们预计,更多细节将在2024年Computex展会期间揭晓。

随着海力士在HBM3e内存的批量生产,以及其产品在NVIDIA AI GPU中的应用,公司在高性能存储和内存解决方案领域的地位得到了进一步的巩固。Platinum P51系列的推出,不仅展示了海力士作为一线存储大厂的实力,也意味着消费者将逐渐从PCIe4进入到5的时代。

AMD官宣下一代Zen5架构,性能三倍提升

近日,在北京举办的AI PC峰会上,AMD正式宣布,将在2024年发布采用RDNA 3+ Radeon GPU架构的新一代Strix Point APU。AMD的CEO苏姿丰博士此行访问中国,目的也是与AI和PC行业的合作伙伴会面,加速推进公司下一代平台的上市。AMD今年早些时候已经推出了Hawk Point“Ryzen 8040”APU系列,但即将推出的Strix Point APU无疑是一次重大升级,将搭载全新的CPU、GPU和NPU架构。

AMD在今年年初的的美国消费电子展(CES)上首次披露Strix Point APU系列时,只提到了其生成式AI功能和2024年的预估出货时间。此前我们已经得知这些芯片将采用Zen 5 CPU核心架构,现在AMD也正式确认了GPU架构——即RDNA 3+。

RDNA 3+ GPU架构已经是公开的秘密了,此前已在AMD发布的多个补丁中出现,内部编号称RDNA 3.5为“GFX115X”系列。AMD官方表示,该架构将正式命名为RDNA 3+,实际上是对现有RDNA 3 IP的一次优化,该技术已在Radeon RX 7000 GPU和Ryzen 7040/8040 APU上得到应用。AMD未提供更多详情,但目前确认,这一新架构将被应用于今年晚些时候推出的Strix Point APU中。

除了配备最新的Zen 5 CPU和RDNA 3.5 GPU核心架构外,AMD Ryzen 8050 “Strix Point” APU还将在生成式AI功能上实现三倍性能提升。为实现此目标,Strix Point APU将集成最新的XDNA 2 NPU和更加强大的Ryzen AI软件套件。

考虑到AMD Ryzen 8040 “Hawk Point” APU提供的最高性能达到16 TOPs,Ryzen 8050 “Strix Point” APU的三倍性能提升意味着其AI性能可达48 TOPs,几乎达到了50 TOPs的标志性成就,这将是AMD在AI和NPU领域的一个重大突破。Strix Point将会有两个版本,分别是单die设计的Strix Point Mono和使用chiplet封装的Strix Point Halo,前者对应普通主流笔记本市场,后者则是可以媲美苹果M芯片的高性能产品。

Strix Point Mono亮点包括:

Zen 5(4nm)单片设计,支持最高12核心的混合配置(Zen 5 + Zen 5C),32MB共享L3缓存,与Phoenix相比在50W功耗下CPU速度提升35%,配备16个RDNA 3+计算单元,性能可媲美RTX 3050 Max-Q,配有128位LPDDR5X内存控制器,集成XDNA 2引擎,约25 TOPS的AI引擎,预计将于2024年下半年推出。

Strix Point Halo亮点包括:

采用Zen 5芯片组设计,支持最高16核心,64MB共享L3缓存,与90W功耗下的16核心Dragon Range相比,CPU速度提升25%,配备40个RDNA 3+计算单元,性能可媲美90W RTX 4070 Max-Q,配有256位LPDDR5X内存控制器,集成XDNA 2引擎,约50 TOPS的AI引擎,预计将于2024年下半年推出。

AMD的Strix Point APU预计将在2024年下半年正式推出,首批产品将于明年开始向OEM厂商出货。届时,AMD将与英特尔即将推出的Arrow Lake和Lunar Lake CPU展开竞争,这两款CPU是Meteor Lake的后续产品。

March 21, 2024

以 Linux和容器技术铺设软件定义汽车未来坦途

拥抱“未来汽车大脑”之神奇而又诱人的前景,风河系统公司提供了久经考验的软件技术,满足了整车制造商的需求,为迈向软件定义、云原生和全面电气化的未来铺设出了一条清晰的道路。

March 20, 2024

tput命令:终端控制神器

在Linux系统中,终端是我们与系统进行交互的主要工具。而tput命令,作为终端控制的神器,可以帮助我们更好地管理和控制终端的输出,优化Shell脚本的用户体验。本文将详细介绍tput命令的用法和日常使用示例。

Nvidia RTX 50系列显卡将放弃3nm制程

NVIDIA近日在GTC大会发布了专为AI设计的Blackwell系列GPU,引发了业界对其即将推出的游戏GPU(RTX 50系列)的诸多猜测。传闻称,这批新的游戏显卡将采用与Blackwell AI Tensor Core GPU相同的台积电 4NP工艺节点。而不是原先预计的台积电3nm工艺节点,但按照目前推测,NVIDIA会采用一种与Blackwell AI Tensor Core GPU极为相近的工艺节点。

台积电4NP工艺,从本质上讲是5nm的变体,是英伟达定制优化后的版本,集成密度大概有30%的提升。台积电官网虽然没有4NP工艺节点的详细资料,但提到的N4P工艺被视为N5平台的延伸,相较于N5和N4,分别能提供11%和6%的性能提升。NVIDIA表示,为确保新一代Blackwell AI Tensor与Gaming GPU的生产和制造能顺利进行,已与台积电和Synopsys合作采用CuLitho技术。

在性能方面,新一代的Blackwell Gaming GPU,即代号为GB202的RTX 50产品,将会增加L1缓存容量,与之前的AD102和GA102相比,其单一SM的吞吐量将有大幅度提升。据悉,GB202将配备12个GPC,每个GPC包括8个TPC,总计达到96个TPC。如果参照Ada结构,可以估算出最多会有192个SM或24,567个CUDA核心,假定每个SM配备128个FP32核心。这样的配置将使CUDA核心数比全配AD102 GPU多出33%。

此外,NVIDIA计划推出的GB203 GPU,作为Blackwell Gaming GPU系列的后续产品,其性能将是GB202的一半,与AD102与AD103 GPU的关系类似。这种设计可能会在NVIDIA下一代的5090系列卡与5080系列卡之间造成巨大的性能差异。目前最大的悬念是NVIDIA是否会对其Blackwell Gaming GPU采用MCM(多芯片模块)封装技术,还是依旧维持单芯片的设计。考虑到GPU/芯片开发的成本上升和产量问题,芯片组封装技术显然是未来的发展方向,AMD的Radeon部门已经开始往这个方向转型。

如前所述,NVIDIA的Blackwell Gaming GPU预计将作为GeForce RTX 50系列推出,并且会支持GDDR7内存、DisplayPort 2.1等下一代技术。预计将在今年下半年发布,不出意外届时又将是民用游戏显卡的天花板。

AMD在GDC大会发布新图形渲染技术

在2024年游戏开发者大会(GDC)上,AMD带来了其图形渲染技术的更新计划,公布了将绘图调用和网格节点功能从CPU迁移到GPU的方案,主要目的是为了提高游戏性能。AMD展示的基准测试显示,在RX 7900 XTX上应用了网格着色器的新型Work Graphs,与未使用网格着色器的传统Work Graphs相比,性能提升高达64%。

Work Graphs是Direct3D 12 API内置的一项创新GPU驱动渲染设计,使得GPU能够自主处理工作负荷。在支持Work Graphs的应用中,意味着3D渲染流程的特定部分能独立于CPU,完全在GPU上进行控制与渲染,有效减少潜在瓶颈,提升效率与性能。尽管目前Work Graphs还未能实现在GPU上完全运行所有任务,但它已支持执行调度调用、着色器和节点执行等任务,这些过去都是由CPU控制的。

根据AMD的GPU官方博客透露,网格节点是Work Graphs的一项新扩展,它引入了一种能够驱动网格着色器的新型节点,并允许Work Graphs引用常规图形PSO。网格节点使Work Graphs直接衔接网格着色器,实际上将Work Graphs转变为了一种强化版的放大着色器。

AMD的架构师Matthäus Chajdas表示:“‘网格节点’的引入完美闭合了一个循环,不仅为Execute Indirect提供了一种端到端的替代方案,而且还推进了GPU编程模型的发展。所有操作都能在一个统一的图形中完成,并且可以通过单一调度执行,大大简化了从小型组件到大型应用程序的组合。此外,问题如PSO切换、无操作调度和缓冲区内存管理等也随之解决,为更多的应用程序和使用场景提供了完全由GPU驱动的渲染管线。”

AMD还引入了绘图调用功能,通过Work Graphs可以进行异步处理,从而提升渲染效率。

除了提供基准测试之外,AMD还演示了一个实时运行的3D引擎示例,该引擎整合了AMD宣布的网格着色和绘图调用新功能。这些新功能进一步扩展了Work Graphs的能力,使GPU能够独立完成更多的渲染任务。展望未来,我们有望见证整个视频游戏(除了游戏逻辑之外)完全由GPU渲染的情景。

VxWorks

Blog Archive