Sign in

Member Benefits

Get Demands

View Business Cards

Exclusive Service

Noble Identity

AS LOW AS 1.5U /DAY

Google云计算更新HPC工具包,加速AI和机器学习计算资源配置

Share

2023-11-16

Google云计算更新去年所推出的HPC工具包,不仅能够支持HPC使用案例,现在也可更好地支持人工智能和机器学习的工作负载,供用户简单部署人工智能运算环境。


Google云计算更新去年所推出的HPC工具包,不仅能够支持HPC使用案例,现在也可更好地支持人工智能和机器学习的工作负载,供用户简单部署人工智能运算环境。HPC工具包是一组开源工具和资源,简化重复创建HPC运算环境的任务,用户可以通过现有HPC蓝图,或是在YAML文件新建蓝图,在数分钟内迅速启动并执行HPC集群。


Google发现客户会在传统的HPC集群上,使用像是Nvidia NeMo人工智能和机器学习框架,大规模定制化和部署模型。因此Google现在改进HPC工具包,应对HPC系统与人工智能/机器学习工作负载融合带来的部署挑战,让用户只要使用HPC工具包,就可以通过鼠标点击迅速设置HPC环境,开始在Nvidia GPU上训练大型语言模型。


HPC工具包拥有几个关键组件,包括HPC蓝图(Blueprint)、HPC模块、ghpc引擎和HPC部署文件夹。HPC蓝图是一种用YAML文件格式定义的配置文件,其详细指定了所要使用的HPC模块,以及定制化这些模块的方法。而HPC模块则由Terraform和Packer配置文件组成,是构建部署文件夹的基本组成。ghpc引擎则是Google的开源工具,会使用HPC蓝图以及不同的HPC模块,产生HPC部署文件夹,该文件夹为自包含,具有部署完整HPC集群需要的所有元素。


在本次更新中,Google强化HPC工具包对人工智能工作负载的支持,官方指出,他们与Nvidia一起开发了人工智能和机器学习蓝图,蓝图提供预配置分割区,支持包括G2、A2和A3三种不同的Nvidia GPU虚拟机类型。


此外,该系统以Google的Ubuntu深度学习虚拟机镜像文件为基础,并且包含了NCCL(Nvidia Collective Communications Library)Fast Socket优化,可以提升分布式运算环境中的网络通信效率。而且Google通过在蓝图中捆绑enroot容器工具,和适用于Slurm工作负载调度程序的Pyxis扩展组件,让用户能够无缝集成非特权容器,并在Slurm任务中指定使用该容器。


通过运用Google云计算的HPC工具包,开发者可以快速创建和部署遵循最佳实践的云计算环境,并集成Cloud Monitoring,进行监控与获得性能可见性。而且HPC工具包也与Google的合作伙伴解决方案与技术集成,因此能够结合DAOS、DDN EXAscaler等存储系统,以及Slurm工作负载调度程序一起使用,高效处理大量数据和复杂计算任务。


Disclaimer:
Details

Please Play Responsibly:

Casino Games Disclosure: Select casinos are licensed by the Malta Gaming Authority. 18+