米糯云科技 | 互联网项目就找米糯云

2024天天彩资料大全免费,AI大数据更新版-1.2226,AI“暴力美学”持续奏效,科技巨头竞相部署“十万卡集群”

财经 2024-10-01 浏览(36) 评论(0)
- N +
【澳彩资料免费的资料大全wwe】
【澳门内部最精准免费资料】
【2024澳门天天六开彩免费】
【新澳精选资料免费提供】
【澳门管家婆一肖一码一中一】
【2024新澳门天天开好彩大全】
【澳门天天六开彩正版澳门】
【管家婆一肖一码必中一肖】
【2024澳门天天六开彩免费资料】
【新澳门天天彩2024年全年资料】
【新澳2024年精准资料期期】
【新澳门内部一码精准公开】
【494949澳门今晚开什么】
【香港二四六开奖免费资料】
【澳门平特一肖100%免费】
【7777888888管家婆中特】
【澳门一码一肖一特一中管家婆】

文章目录[+]

  “万卡集群”已成为大模型军备竞赛的最低标配,科技巨头不满足于此,纷纷开启“十万卡集群”的AI大基建步伐。

  9月25日的百度云智能大会上,百度宣布升级作为算力基础设施的百舸AI异构计算平台。百度集团执行副总裁、百度智能云事业群总裁沈抖说,新升级的百舸4.0已经具备了成熟的十万卡集群部署和管理能力。

  约一周前,阿里云在云栖大会宣布其单网络集群已扩展至十万卡级别。此前9月初,马斯克在社交平台披露,短短122天时间,旗下AI初创公司xAI部署完成10万张英伟达H100 GPU芯片组成的Colossus超算集群,而且未来几个月将翻倍至20万张卡。

  沈抖预测称,大模型的Scaling Law(尺度定律)将在一段时间内持续有效,“很快就会有更多的十万卡集群出现”。

  所谓Scaling Law,即AI的“暴力美学”,当数据量和参数规模增加,模型的性能随之提升。但指数级增长的训练数据量,又对底层算力基础设施提出考验。为了快速迭代训练大模型,“万卡集群”乃至“十万卡集群”就成了大模型军备竞赛的先决条件。

  然而,超大规模的GPU算力集群面临成本高、难运维的挑战。据沈抖介绍,建一个“万卡集群”,单是GPU的采购成本就高达几十亿。一旦一张GPU出现故障,就会导致集群整体停摆,大量时间、成本浪费在故障恢复和数据回滚上。在模型训练阶段,稳定和高效是衡量GPU集群水平的“金指标”和“硬通货”。

  沈抖介绍说,百舸4.0 会通过AI算法筛查集群状态,预测故障最有可能在什么地方发生,尽量避免把工作负载分配到可能发生故障的芯片上;同时借助故障秒级感知定位、Flash Checkpoint模型任务状态回滚等技术,大幅减少集群故障处置时间。

  当智算集群规模来到十万卡级别,管理的难度会进一步加大,沈抖描述称,管理十万卡的难度与管理万卡有着天壤之别。他说,在物理空间方面,十万卡集群需要占据大概10万平方米空间,相当于14个标准足球场的面积;在能耗方面,每天则要消耗大约300万千瓦时的电力,相当于北京市东城区一天的居民用电量。

  “这种对于空间和能源的巨大需求,远远超过了传统机房部署方式的承载能力,跨地域机房部署又会给网络通信带来巨大挑战。”沈抖表示,“十万卡集群”中的GPU故障将会非常频繁。Meta用1.6万张卡训练Llama 3时,每3小时就会出一次故障,推演到10万卡,意味着每30分钟训练就要中断一次,导致有效训练时长占比非常低。

  为了应对这些运维问题,百度方面介绍说,百舸4.0已经构建了十万卡级别的超大规模无拥塞HPN(High Performance Networking)高性能网络、10ms(毫秒)级别超高精度网络监控,以及面向“十万卡集群”的分钟级故障恢复能力。

标签:

米糯云科技 | 互联网项目就找米糯云推荐阅读: