February 21, 2024

谷歌Gemma为英伟达GPU优化,并可支持Chat with RTX

近日,NVIDIA联合谷歌,共同推出了面向所有NVIDIA AI平台的Gemma模型优化方案。Gemma是谷歌最新研发的轻量级开放语言模型,拥有20亿和70亿的参数规模,能够在任何环境下运行。这个方案能够快速降低运行成本,对特定领域应用的创新有积极意义。

这项成果得益于两家公司团队的紧密合作,他们共同提高了Gemma模型的性能。Gemma基于与Gemini模型相同的研究与技术,通过NVIDIA的TensorRT-LLM——一种专为大型语言模型推理优化的开源库——实现加速,无论是在数据中心、云端还是配备NVIDIA RTX GPU的个人电脑上均能体现优势。开发者可以直接把成果面向全球超过一亿台安装有RTX GPU的个人电脑。

开发者还可以利用云端的NVIDIA GPU来运行Gemma,包括谷歌云上基于H100 Tensor Core GPU的A3实例以及即将推出的H200 Tensor Core GPU,后者配备有141 GB的HBM3e内存和每秒4.8TB的传输速度。谷歌计划在今年内部署这款GPU。

企业开发者还可以利用NVIDIA提供的丰富工具生态系统,包括NVIDIA AI Enterprise、NeMo框架和TensorRT-LLM,对Gemma模型进行微调,并将优化后的模型部署在他们的生产应用中。

目前关于利用TensorRT-LLM提升Gemma推理性能以及为开发者准备的其他信息均已公开。包括多个Gemma模型的检查点以及通过TensorRT-LLM优化的FP8量化模型版本。用户现还可通过NVIDIA AI Playground在浏览器中直接体验Gemma 2B与Gemma 7B模型。

据悉,NVIDIA的Chat with RTX也将支持Gemma,这一技术利用检索增强生成和TensorRT-LLM软件,在本地搭载RTX的Windows PC上为用户提供生成式AI功能。

Chat with RTX允许用户通过简易地连接PC上的本地文件至大型语言模型,来个性化聊天机器人。由于模型在本地运行,可以快速获得结果,且用户数据将保留在设备上。这意味着用户在处理敏感数据时,无需依赖云服务或与第三方共享数据,也无需联网,从而确保了数据的私密性和安全性。

0 comments:

VxWorks

Blog Archive