稳定安全的算力底座,极快至简的模型训练 稳定安全的算力底座,极快至简的模型训练 支持万节点计算集群管理 大规模分布式训练能力,加速大模型研发 多应用场景全覆盖,AI智能平台助力业务成功 多应用场景全覆盖,AI智能平台助力业务成功 大模型 实现智能回答、聊天机器人、自动摘要、机器翻译、文本分类等任务
支持三方开源大模型,加速客户大模型业务上线 构建大模型应用开发工具链,使能大模型开箱即用 构建大模型应用开发工具链,完善云上数据清洗|模型微调|部署|Prompt|评测|Agent,大模型应用开发效率提升; 原生昇腾云组件Agent,构建“大模型+云组件”组合竞争力,如搜索Agent,大数据Agent等,使能云上存量用户零迁移构建大模型应用;
文档与学习成长 盘古大模型 盘古大模型 什么是盘古大模型 盘古预测大模型能力与规格 盘古大模型快速入门 如何调用盘古大模型API 查看全部 AI Gallery百模千态社区 AI Gallery百模千态社区 优质昇腾云AI模型专区 几行代码自由部署AI应用 丰富多样的AI训练数据集 场景化AI案例,助力AI赋能千行百业
什么是盘古大模型 盘古CV大模型能力与规格 盘古大模型用户指南 如何调用盘古CV大模型API 查看全部 AI Gallery百模千态社区 AI Gallery百模千态社区 优质昇腾云AI模型专区 几行代码自由部署AI应用 丰富多样的AI训练数据集 场景化AI案例,助力AI赋能千行百业 查看全部
多语种内容审核,平台全面保护 一站式大模型开发平台 一站式大模型开发平台 ModelArts Studio大模型开发平台是集数据管理、模型训练、模型部署于一体的综合平台,专为开发和应用大模型而设计,旨在为开发者提供简单、高效的大模型开发和部署方式 为什么选择大模型开发平台ModelArts
盘古大模型 PanguLargeModels 盘古大模型 PanguLargeModels 盘古大模型是面向B端行业的大模型,包含L0中5类基础大模型、L1行业大模型及L2场景模型三层架构 盘古大模型是面向B端行业的大模型,包含L0中5类基础大模型、L1行业大模型及L2场景模型三层架构
化应用 大模型混合云十大创新技术 大模型混合云十大创新技术 了解详情 十大创新技术 加速构建企业专属大模型 十大创新技术 加速构建企业专属大模型 围绕企业大模型构建关键过程,聚焦根技术,为AI原生系统性创新 围绕企业大模型构建关键过程,聚焦根技术,为AI原生系统性创新 多样性算力调度
体验 政企知识检索 智能创意营销 行业API助手 行业研发助手 政企会议助手 文档与学习成长 盘古大模型 盘古大模型 什么是盘古大模型 盘古NLP大模型能力与规格 盘古大模型快速入门 如何调用盘古大模型API 查看全部 AI Gallery百模千态社区 AI Gallery百模千态社区
端到端生产工具链,一致性开发体验 线上线下协同开发,开发训练一体化架构,支持大模型分布式部署及推理 AI工程化能力,支持AI全流程生命周期管理 AI工程化能力,支持AI全流程生命周期管理 支持MLOps能力,提供数据诊断、模型监测等分析能力,训练智能日志分析与诊断 容错能力强,故障恢复快 容错能力强,故障恢复快
《互联网信息服务算法推荐管理规定》明确,具有舆论属性或者社会动员能力的算法推荐服务提供者应当在提供服务之日起十个工作日内通过互联网信息服务算法备案系统填报服务提供者的名称、服务形式、应用领域、算法类型、算法自评估报告、拟公示内容等信息 方便
湘江鲲鹏目前在人工智能大模型领域拥有算力、数据、算法三大关键要素的经验积累,构建了大模型三个方面的差异化竞争力,盘古大模型AI专业服务覆盖从前期咨询、规划设计,到数据工程、模型训练,再到应用工程及模型运维的完整流程。基于华为盘古提供的AI专业服务包,致力于为企业提供一站式人工智能解决方案
angChain等流行的大模型开发框架,构建企业级AI应用;团队拥有成熟的软件工程技术和管理能力。6. 大模型使用的技术支持,用户使用大模型平台,解答用户使用过程遇到的问题;大模型与应用对接集成,以及进行日常巡检、故障处理、模型升级等服务。4. 工业数据模型(CAD模型、CAE模
太杉天尊大模型AIGC场景解决方案是以AI场景解决方案为核心的全栈Maas综合方案,助力政企客户灵活部署(可公有可私有部署)。具备自研的行业模型能力,主要用于政府/公安/教育等行业的数据处理、文本处理以及多模态处理等多场景。太杉天尊大模型AIGC场景解决方案,是一款专为满足政府企
公司集成了世界领先的底层大模型,具备打通跨模型和工具链的平台,提供从需求分析、数据收集、模型设计、训练优化、评估、系统集成、用户界面设计、部署维护、合规性检查、技术支持、性能监控、扩展性设计、定制服务到持续研发一站式AI大模型定制研发服务。光启慧语是一家围绕大模型全栈开展技术研发和产
&撰写根据大模型微调数据标注规范,通过配套工具进行数据标注。 八、数据转换与导入 完成数据格式的转换,可进行跨网络环境的数据导入。 九、调优方案设计 根据大模型训练及调优工具和平台,输出大模型调优方案。 十、模型训练实施1. 基于大模型训练所需的云服务,完成大模型训练及微调。2.
数据质量。4. 模型训练:设计调优方案,实施模型训练,并进行模型评测。熟悉盘古大模型工作流和云服务操作,确保模型效果优化。5. 应用工程:提供基于大模型能力的Agent开发和应用对接服务。具备良好的软件开发和沟通能力,实现大模型与应用的无缝对接。6. 模型运维: 提供技
天尊大模型AIGC场景解决方案配套服务是太杉AIGC解决方案的人工服务,是以AI应用解决方案为核心的全栈Maas综合方案,助力政企客户灵活部署(可公有可私有部署)。主要用于政府/公安/教育等行业的数据处理、文本处理以及多模态处理等多场景。天尊大模型AIGC场景解决方案配套服务是太
,只需人工提供极少量的标注数据,通过平台的自动标注功能,能够提升50%的标注效率,节省人力及时间成本;3、解决模型训练门槛高问题,可视化的模型训练界面,自动推荐训练参数,5分钟快速上手,模型训练成本降低70%;4、克服算法只能解决单一业务场景问题,通过拖拽的方式将多个模型串联起来
主要介绍基于Pytorch引擎的单机多卡数据并行训练、多机多卡数据并行训练。同时,也提供了分布式训练的适配教程和分布式调测的代码示例,可在PyCharm/VSCode/JupyterLab等开发工具中调试分布式训练。 了解更多 收起 展开 模型训练加速 收起 展开 针对AI训练场景中大模型Checkpoint
ModelArts训练管理 ModelArts训练管理 ModelArts训练管理模块用于创建训练作业、查看训练情况以及管理训练版本。在训练模块的统一管理下,方便用户试验算法、数据和超参数的各种组合,便于追踪最佳的模型与输入配置,您可以通过不同版本间的评估指标比较,确定最佳训练作业。 Mo
华为云盘古大模型 华为云盘古大模型 AI for Industries 大模型重塑千行百业 AI for Industries 大模型重塑千行百业 盘古大模型致力于深耕行业,打造金融、政务、制造、矿山、气象、铁路等领域行业大模型和能力集,将行业知识know-how与大模型能力相结合
ModelArts分布式训练 ModelArts分布式训练 ModelArts提供了丰富的教程,帮助用户快速适配分布式训练,使用分布式训练极大减少训练时间。也提供了分布式训练调测的能力,可在PyCharm/VSCode/JupyterLab等开发工具中调试分布式训练。 ModelA
ModelArts训练之超参搜索 ModelArts训练之超参搜索 ModelArts训练中新增了超参搜索功能,自动实现模型超参搜索,为您的模型匹配最优的超参。ModelArts支持的超参搜索功能,在无需算法工程师介入的情况下,即可自动进行超参的调优,在速度和精度上超过人工调优。 Mo
源,包括高性能算力,高速存储和网络带宽等基础设施,即“大算力、大存力、大运力”的AI基础大设施底座,让算力发展不要偏斜。 从过去的经典AI,到今天人人谈论的大模型,自动驾驶,我们看到AI模型的参数及AI算力规模呈现出指数级的爆发增长,对存储基础设施也带来全新的挑战。 1、高吞吐的数据访问挑战:随着企业使用
ModelArts支持本地准备模型包,编写模型配置文件和模型推理代码,将准备好的模型包上传至对象存储服务OBS,从OBS导入模型创建为AI应用。 制作模型包,则需要符合一定的模型包规范。模型包里面必需包含“model”文件夹,“model”文件夹下面放置模型文件,模型配置文件,模型推理代码文件。
块,允许使用者导入部门、角色、人员等信息,从而生成并调动Astro Flow工作流开发、Astro Canvas可视化大屏开发、Astro Zero轻应用开发三大子服务,据自身需求,回归业务核心进行构建。华为云Astro低代码开发平台覆盖行业场景应用,全面促进企业数字化进程。 Astro
ModelArts是面向AI开发者的一站式开发平台,提供海量数据预处理及半自动化标注、大规模分布式训练、自动化模型生成及端-边-云模型按需部署能力,帮助用户快速创建和部署模型,管理全周期AI工作流。 “一站式”是指AI开发的各个环节,包括数据处理、算法开发、模型训练、模型部署都可以在Mo
ai大模型训练花费分布
场景描述
针对Snt9b23超节点下光模块故障率高的问题,通过在HCCL通信算子级引入重执行机制,提升系统的稳定性和可靠性。
HCCL(Huawei Collective Communication Library,华为集合通信库)是华为专为昇腾(Ascend)AI处理器设计的分布式通信库,旨在优化多设备间的高效协作,以加速深度学习模型的分布式训练,适用于需要大规模算力的AI场景。在分布式训练中,HCCL负责协调多个昇腾处理器之间的数据同步(如梯度聚合、参数更新),减少通信开销,提升训练效率。
约束限制
- 仅Snt9b23超节点支持。
- 开启算子重执行会对性能带来轻微的影响。
- 重执行依赖 VPC 平面(非参数面)网络进行通信域内状态协商,如果VPC平面不同,则无法重执行。
- 对于HC CS 平面,如果链路没有恢复,路由未收敛,则无法重执行。
- 重执行依赖故障发生时一个通信域中所有卡都停在同一通信算子处,否则无法重执行,成功率约为95%。
- 使用inplace方式的通信算子可能导致UserIn数据被污染,从而影响重执行的可靠性。尽管重执行支持约80%通信算子的inplace方式,但对于Torch框架中的all_reduce、all_gather和reduce_scatter等算子,重执行仍不支持其inplace操作。
- RoH/RoCE平面因为闪断或断链触发的借轨,在同一通信域只允许执行一次,且不支持回切。借轨状态下,业务可持续,但应尽快保存checkpoint,维修故障。
- 对于目前昇腾的执行模式,HCCL重执行的支持范围如下:
表1 HCCL重执行的支持范围 模式
HCCL通信算子展开方式
是否支持
单算子
Stars
支持
Ffts+
支持
Aicpu展开
支持
通信计算融合(mc2)
不支持
图模式
全下沉模式,通信算子以展开的tasks合入图
不支持
全下沉模式,HCCL不参与图执行过程,无法进行重执行
Aicpu展开
支持
原理说明
Snt9b23超节点的连接系统主要包含HCCS平面和RoH/RoCE平面两个数据传输平面。
在HCCS平面中,L1-1520与L2-1520之间采用光互联技术;在RoH/RoCE平面,超出NPU范围的部分均使用光互联。由于电互联域的故障率相对较低,本机制主要针对光互联域的光模块故障进行处理。具体而言:
- HCCS平面L1-1520和L2-1520之间的光模块故障。
- RoH/RoCE平面出Snt9b23超节点的光模块故障。
HCCS平面
针对HCCS平面,L1和L2之间的光模块如果发生闪断或断链,1520设备将自动完成路径切换(前提是存在多路径)。然而,断链可能导致丢包,进而引发业务中断。此时,框架层将回退至上一个checkpoint进行断点续训。通过引入HCCL重执行机制,在1520完成路径切换后,重执行功能可有效降低回退至checkpoint进行断点续训的概率,从而进一步提升业务的连续性和可靠性。
RoH/RoCE平面
针对RoH/RoCE平面,协议内置传输层重传机制,可对丢包或闪断提供一定的修复能力。然而,该机制的可靠性仍存在局限性。为提升整体可靠性,本功能在HCCL层面引入了一层重执行机制:当检测到闪断持续超过30秒或发生断链时,系统将通过建立新的传输路径(借轨),在算子级启动重执行流程,进一步保障业务的稳定运行。
参数配置(HCCL_OP_RETRY_ENABLE)
环境变量HCCL_OP_RETRY_ENABLE用于配置是否开启HCCL算子的重执行特性。重执行是指当通信算子执行报SDMA或RDMA CQE类型的错误时,HCCL会尝试重新执行此通信算子。通过此特性,可以有效避免硬件闪断导致的通信中断,提升通信稳定性。
支持在以下三个物理层级的通信域中配置重执行特性:
- L0:Server内通信域
- L1:Server间通信域
- L2:超节点间通信域
配置方法:
在运行训练任务前,在Server节点中执行以下命令。
export HCCL_OP_RETRY_ENABLE="L0:0, L1:1, L2:1"
参数 |
含义 |
取值范围 |
默认值 |
建议取值 |
---|---|---|---|---|
L0 |
Server内通信域 |
|
0 |
0 |
L1 |
Server间通信域 |
|
0 |
1 |
L2 |
超节点间通信域 |
|
0 |
1 |
注意事项:
- 当L2配置为1时,超节点间通信支持在某一Device网卡故障时使用备用Device网卡进行通信。备用网卡为同一NPU中的另一个Die网卡。
- 如果通信域的创建方式为“基于ranktable”创建通信域,需要在ranktable文件中通过"backup device ip"参数配置备用网卡。
- 如果通信域的创建方式为“基于root广播式”创建通信域,会自动将同一NPU下的两个Die互为备用网卡,无需手动配置。
参数配置(HCCL_OP_RETRY_PA RAM S)
环境变量HCCL_OP_RETRY_ENABLE用于配置HCCL算子重执行的具体参数,包括最大重执行次数、第一次重执行的等待时间以及两次重执行的间隔时间。
配置示例:
export HCCL_OP_RETRY_PARAMS="MaxCnt:3, HoldTime:5000, IntervalTime:1000"
参数 |
含义 |
类型 |
取值范围 |
默认值 |
单位 |
建议值 |
---|---|---|---|---|---|---|
MaxCnt |
最大重执行次数 |
uint32 |
[1, 10] |
3 |
次 |
保持默认值3 |
HoldTime |
从检测到通信算子执行失败到开始第一次重执行的等待时间 |
uint32 |
[0, 60000] |
5000 |
ms |
保持默认值5000 |
IntervalTime |
两次重执行之间的间隔时间 |
uint32 |
[0, 60000] |
1000 |
ms |
保持默认值1000 |
使用约束:
仅当通过HCCL_OP_RETRY_ENABLE环境变量开启了HCCL的重执行特性(任一层级的重执行特性开启即可)时,此环境变量才生效。
ai大模型训练花费分布常见问题
更多常见问题 >>-
在自然语言处理(NLP)领域中,使用语言模型预训练方法在多项NLP任务上都获得了不错的提升,广泛受到了各界的关注。本课程将简单介绍一下预训练的思想,几个代表性模型和它们之间的关系。
-
ModelArts模型训练旨在提升开发者模型训练的开发效率及训练性能。提供了可视化作业管理、资源管理、版本管理等功能,基于机器学习算法及强化学习的模型训练自动超参调优;预置和调优常用模型,简化模型开发和全流程训练管理。
-
训练管理模块是ModelArts不可或缺的功能模块,用于创建训练作业、查看训练情况以及管理训练版本。模型训练是一个不断迭代和优化的过程。在训练模块的统一管理下,方便用户试验算法、数据和超参数的各种组合,便于追踪最佳的模型与输入配置,您可以通过不同版本间的评估指标比较,确定最佳训练作业。
-
盘古大模型致力于深耕行业,打造金融、政务、制造、矿山、气象、铁路等领域行业大模型和能力集,将行业知识know-how与大模型能力相结合,重塑千行百业,成为各组织、企业、个人的专家助手。
-
ModelArts提供了丰富的教程,帮助用户快速适配分布式训练,使用分布式训练极大减少训练时间。也提供了分布式训练调测的能力,可在PyCharm/VSCode/JupyterLab等开发工具中调试分布式训练。
-
模型转换,即将开源框架的网络模型(如Caffe、TensorFlow等),通过ATC(Ascend Tensor Compiler)模型转换工具,将其转换成昇腾AI处理器支持的离线模型。
更多相关专题
增值电信业务经营许可证:B1.B2-20200593 | 域名注册服务机构许可:黔D3-20230001 | 代理域名注册服务机构:新网、西数