[快速入门]如何训练一个ai模型
盘古多模态大模型

广汽借助华为云盘古多模态大模型,打造业界首个支持点云生成的大模型,为其端到端仿真高效迭代提供强有力支撑。 文档与学习成长 盘古大模型 盘古大模型 什么是盘古大模型 盘古多模态大模型能力与规格 用户指南 如何调用盘古大模型API 查看全部 AI Gallery百模千态社区 AI Gallery百模千态社区

AI平台ModelArts入门

AI开发平台ModelArts入门 AI平台ModelArts入门 面向开发者的一站式AI开发平台,可快速创建和部署模型,管理全周期AI工作流,助力千行百业智能升级 面向开发者的一站式AI开发平台,可快速创建和部署模型,管理全周期AI工作流,助力千行百业智能升级 购买 控制台 专家咨询

盘古预测大模型

文档与学习成长 盘古大模型 盘古大模型 什么是盘古大模型 盘古预测大模型能力与规格 盘古大模型快速入门 如何调用盘古大模型API 查看全部 AI Gallery百模千态社区 AI Gallery百模千态社区 优质昇腾云AI模型专区 几行代码自由部署AI应用 丰富多样的AI训练数据集 场景化AI案例,助力AI赋能千行百业

盘古NLP大模型

718B深度思考模型 高效训推 覆盖全链路的训推工具 负载均衡 多维度负载均衡策略 安全防护 支持模型加密与模型混淆保护 盘古NLP大模型系列 模型规格说明 训练和部署盘古系列模型、三方开源模型请登录 ModelArts Studio控制台 盘古NLP大模型系列 模型规格说明 训练和部署盘古系列模型、三方开源模型请登录

ModelArts Standard

支持订阅AI Gallery中的算法构建模型 训练管理 支持基于不同的数据,选择不同规格的资源池用于模型训练;支持使用以下三种方式开发模型:订阅算法、自定义算法、自定义镜像 AI应用管理 支持将训练作业中得到的模型、本地开发的模型部署为AI应用,并进行统一管理;提供模型转换能力,方便能够将模型部署在不同的设备上

智能问答机器人

06:06 智能问答机器人如何进行知识学习 智能问答机器人的优化训练及上线流程 02:56 智能问答机器人的优化训练及上线流程 智能问答机器人的线上运营监控 01:08 智能问答机器人的线上运营监控 智能问答机器人的购买流程及基础配置 03:12 智能问答机器人的购买流程及基础配置

CV大模型

文档与学习成长 盘古大模型 盘古大模型 什么是盘古大模型 盘古CV大模型能力与规格 盘古大模型用户指南 如何调用盘古CV大模型API 查看全部 AI Gallery百模千态社区 AI Gallery百模千态社区 优质昇腾云AI模型专区 几行代码自由部署AI应用 丰富多样的AI训练数据集 场景化AI案例,助力AI赋能千行百业

ModelArts Studio大模型开发平台

多语种内容审核,平台全面保护 一站式大模型开发平台 一站式大模型开发平台 ModelArts Studio大模型开发平台是集数据管理、模型训练模型部署于一体的综合平台,专为开发和应用大模型而设计,旨在为开发者提供简单、高效的大模型开发和部署方式 为什么选择大模型开发平台ModelArts Studio

华为云hilens

函数工作流FunctionGraph 轻量级边缘AI应用场景 从云上HiLens平台在线将AI应用部署到带一定AI算力的边缘设备上,比如带AI加速卡(GPU或NPU)的边缘智能盒子或服务器。AI应用使用轻量级边缘AI设备即可完成AI应用的模型推理和逻辑计算,在云上管理控制台进行实时监管与运维。

[相关产品]如何训练一个ai模型
X-brain AI+自动训练平台

,只需人工提供极少量的标注数据,通过平台的自动标注功能,能够提升50%的标注效率,节省人力及时间成本;3、解决模型训练门槛高问题,可视化的模型训练界面,自动推荐训练参数,5分钟快速上手,模型训练成本降低70%;4、克服算法只能解决单一业务场景问题,通过拖拽的方式将多个模型串联起来

智慧监控AI模型

智慧监控AI模型综合集成了人脸识别模型、安全帽识别模型、口罩佩戴识别模型、车牌识别模型、车辆占道识别模型5种AI模型。一,人脸识别服务 人脸识别模型目前提供授权认证、模型加载、人脸注册、人脸识别、人脸删除、特征提取六个接口服务。 授权认证:需先进行授权认证,才能够正常使用人脸识别服务;

AI大模型 算法备案

《互联网信息服务算法推荐管理规定》明确,具有舆论属性或者社会动员能力的算法推荐服务提供者应当在提供服务之日起十个工作日内通过互联网信息服务算法备案系统填报服务提供者的名称、服务形式、应用领域、算法类型、算法自评估报告、拟公示内容等信息  方便

企业级AI模型开发

云坞网络专注于利用先进的AI云计算、大数据和人工智能技术,为企业提供卓越的ChatGPT行业解决方案。帮助企业快速实现数字化、智能化和绿色化转型。 系统定制开发:我们可以为客户提供系统的定制开发服务,帮助客户实现更多的个性化功能和业务流程需求。,数据迁移:我们帮助客户将现有系统的

AI军事体育训练考核系统

产品利用移动5G通讯,结合AI视觉算法的先进技术,与战训环节深度融合,实现比武考试、体能训练、日常训练等全场景应用 实时查看训练考核数据

AI大模型专业服务

湘江鲲鹏目前在人工智能模型领域拥有算力、数据、算法三大关键要素的经验积累,构建了大模型三个方面的差异化竞争力,盘古大模型AI专业服务覆盖从前期咨询、规划设计,到数据工程、模型训练,再到应用工程及模型运维的完整流程。基于华为盘古提供的AI专业服务包,致力于为企业提供一站式人工智能解决方案

大模型及AI应用配套服务

angChain等流行的大模型开发框架,构建企业级AI应用;团队拥有成熟的软件工程技术和管理能力。6. 大模型使用的技术支持,用户使用大模型平台,解答用户使用过程遇到的问题;大模型与应用对接集成,以及进行日常巡检、故障处理、模型升级等服务。4. 工业数据模型(CAD模型、CAE模

天尊大模型AIGC场景解决方案

太杉天尊大模型AIGC场景解决方案是以AI场景解决方案为核心的全栈Maas综合方案,助力政企客户灵活部署(可公有可私有部署)。具备自研的行业模型能力,主要用于政府/公安/教育等行业的数据处理、文本处理以及多模态处理等多场景。太杉天尊大模型AIGC场景解决方案,是一款专为满足政府企

人工智能AI大模型技术研发定制服务

公司集成了世界领先的底层大模型,具备打通跨模型和工具链的平台,提供从需求分析、数据收集、模型设计、训练优化、评估、系统集成、用户界面设计、部署维护、合规性检查、技术支持、性能监控、扩展性设计、定制服务到持续研发一站式AI模型定制研发服务。光启慧语是一家围绕大模型全栈开展技术研发和产品

[相似文章]如何训练一个ai模型
ModelArts模型训练_模型训练简介_如何训练模型

ModelArts模型训练 ModelArts模型训练简介 ModelArts模型训练,俗称“建模”,指通过分析手段、方法和技巧对准备好的数据进行探索分析,从中发现因果关系、内部联系和业务规律,为商业目的提供决策参考。训练模型的结果通常是一个或多个机器学习或深度学习模型模型可以应用到新的数据中,得到预测、评价等结果。

ModelArts模型训练_创建训练作业_如何创建训练作业

ModelArts训练管理 ModelArts训练管理 ModelArts训练管理模块用于创建训练作业、查看训练情况以及管理训练版本。在训练模块的统一管理下,方便用户试验算法、数据和超参数的各种组合,便于追踪最佳的模型与输入配置,您可以通过不同版本间的评估指标比较,确定最佳训练作业。 M

ModelArts模型训练_超参搜索简介_超参搜索算法

ModelArts训练之超参搜索 ModelArts训练之超参搜索 ModelArts训练中新增了超参搜索功能,自动实现模型超参搜索,为您的模型匹配最优的超参。ModelArts支持的超参搜索功能,在无需算法工程师介入的情况下,即可自动进行超参的调优,在速度和精度上超过人工调优。 Mo

AI训练加速存储_高性能数据存储_AI数据存储内存不足怎么办

近年来,AI快速发展并应用到很多领域中,AI新产品掀起一波又一波热潮,AI应用场景越来越多,有自动驾驶、大模型AIGC、科学AI等不同行业。AI人工智能的实现需要大量的基础设施资源,包括高性能算力,高速存储和网络带宽等基础设施,即“大算力、大存力、大运力”的AI基础大设施底座,让算力发展不要偏斜。

华为云盘古大模型_华为云AI大模型_盘古人工智能

了解详情 盘古预测大模型 盘古预测大模型是面向结构化类数据,基于10类2000个基模型空间,通过模型推荐、融合两步优化策略,构建图网络架构AI模型。 了解详情 盘古科学计算大模型 科学计算大模型是面向气象、医药、水务、机械、航天航空等领域,采用AI数据建模和AI方程求解的方法;从海

ModelArts推理部署_模型_AI应用来源-华为云

ModelArts支持本地准备模型包,编写模型配置文件和模型推理代码,将准备好的模型包上传至对象存储服务OBS,从OBS导入模型创建为AI应用。 制作模型包,则需要符合一定的模型包规范。模型包里面必需包含“model”文件夹,“model”文件夹下面放置模型文件,模型配置文件,模型推理代码文件。

.email域名注册_如何注册.email域名

.email域名注册 什么是.email域名注册? 域名注册(Domain Registration)是用户付费获取Internet上某一域名一段时间使用权的过程。华为云域名注册服务提供域名的注册、购买、实名认证以及管理功能。 华为云的域名注册服务与新网合作,因此通过华为云注册的

如何申请一个域名_为什么需要申请域名

介绍云解析公网DNS使用流程 介绍如何将域名转入华为云 03:00 介绍如何将域名转入华为云 域名转入华为云操作指导 介绍如何将域名转出华为云 01:26 介绍如何将域名转出华为云 域名转出华为云操作指导 域名解析服务相关推荐 如何购买域名_购买一个域名_低价域名 域名https证书申请_如何申请免费的https证书_申请https证书

人工智能学习入门

使用MindSpore训练手写数字识别模型 基于昇腾AI处理器的算子开发 使用MindSpore训练手写数字识别模型 基于昇腾AI处理器的算子开发 在线课程 体系化的培训课程,快速完成学习覆盖,让您轻松上云 AI基础 AI基础课程--概览 AI基础课程--Python编程知识 AI基础课程--数学基础知识

如何训练一个ai模型

AI Gallery支持将模型进行微调,训练后得到更优模型。

场景描述

模型微调是深度学习中的一种重要技术,它是指在预训练好的模型基础上,通过调整部分参数,使其在特定任务上达到更好的性能。 在实际应用中,预训练模型是在大规模通用数据集上训练得到的,而在特定任务上,这些模型的参数可能并不都是最合适的,因此需要进行微调。

AI Gallery的模型微调,简单易用,用户只需要选择训练数据、创建微调任务,模型微调就会对数据进行训练,快速生成模型。

约束限制

  • 如果模型的“任务类型”“文本问答”“文本生成”,则支持模型微调。如果模型的“任务类型”是除“文本问答”“文本生成”之外的类型(即自定义模型),则模型文件必须满足自定义模型规范(训练)才支持模型自定义训练。
  • 当使用自定义 镜像 进行模型微调时,要确认镜像是否满足自定义镜像规范,否则无法成功完成自定义训练。

进入模型微调

  1. 登录AI Gallery
  2. 单击“模型”进入模型列表。
  3. 选择需要进行微调训练的模型,单击模型名称进入模型详情页。
  4. 在模型详情页,选择“训练 > 微调大师”进入微调工作流页面。

选择训练任务类型

选择模型微调的训练任务类型。

  • 当模型的“任务类型”“文本问答”“文本生成”时,“训练任务类型”默认和模型“任务类型”一致。“训练任务类型”支持修改,如果模型文件满足自定义模型规范(训练),则“训练任务类型”支持选择“自定义”
  • 当模型的“任务类型”是除“文本问答”“文本生成”之外的类型(即自定义模型)时,则“训练任务类型”默认为“自定义”,支持修改为“文本问答”“文本生成”
  • 当使用自定义镜像进行模型微调时,“训练任务类型”默认为“自定义”,且不支持修改。

准备数据

  • 本地上传数据需要确保数据已按照数据集要求完成编排。如果是自定义模型,此处的数据集要求即为模型文件“dataset_readme.md”里的内容。
  • 单个文件最大5GB,所有文件总大小不超过50G。
  1. 在微调工作流的“数据准备”环节选择数据集。
    • 从本地上传
      1. “从本地上传”处,单击“点击上传”,选择本地编排好的训练数据。
      2. 数据上传成功后,页面会有提示信息。

        此时AI Gallery会自动新建一个数据集,单击提示信息处的“查看”可以进入数据集详情页,也可以在“我的Gallery > 数据集 > 我创建的数据集”进入数据集详情页查看。

    • 从AI Gallery中选
      1. 单击“从AI Gallery中选择”。
      2. 在弹窗中,从“我创建的”或“我收藏的”数据集中选择所需要数据集。
      3. 选择完成后,单击“确定”。
  2. 数据准备完成后,单击“下一步”进入“作业设置”环节。

设置并启动作业

  1. 在微调工作流的“作业设置”环节配置训练作业参数。
    1. 算法配置,会显示已选模型的信息,基于已选模型选择微调方式。
      • “训练任务类型”“文本问答”“文本生成”时,AI Gallery支持的微调方式是LoRA。
      • “训练任务类型”“自定义”时,微调方式来自于模型文件“train_params.json”

      低秩适应(LoRA)是一种重参数化方法,旨在减少具有低秩表示的可训练参数的数量。权重矩阵被分解为经过训练和更新的低秩矩阵。所有预训练的模型参数保持冻结。训练后,低秩矩阵被添加回原始权重。这使得存储和训练LoRA模型更加高效,因为参数明显减少。

    2. 超参数设置,基于训练作业配置超参。超参指的是模型训练时原始数据集中实际字段和算法需要字段之间的映射关系。
      • “训练任务类型”“文本问答”“文本生成”时,则常见的超参说明请参见表1
      • “训练任务类型”“自定义”时,超参信息来自于模型文件“train_params.json” 。如果不使用可选超参,建议单击右侧的删除按钮,删除参数。
      表1 常见超参说明

      参数名称

      参数类型

      说明

      data_url

      String

      数据 OBS 存储路径。

      train_url

      String

      微调产物输出OBS路径。

      train_data_file

      String

      训练数据文件名。

      test_data_file

      String

      测试数据文件名。

      prompt_field

      String

      数据prompt列名。

      response_field

      String

      数据response列名。

      history_field

      String

      数据history列名。

      prefix

      String

      数据格式化时使用的前缀。

      instruction_template

      String

      数据格式化时使用的指令模板。

      response_template

      String

      数据格式化时使用的回答模板。

      lora_alpha

      int

      Lora scaling的alpha参数。

      lora_dropout

      float

      Lora dropout概率。

      lora_rank

      int

      Lora attention维度。

      per_device_train_batch_size

      int

      用于训练的每个GPU/TPU core/CPU的批处理大小。

      gradient_accumulation_steps

      int

      梯度累计步数。

      max_steps

      int

      训练最大步数,如果数据耗尽,训练将会在最大步数前停止。

      save_steps

      int

      checkpoint保存步数。

      logging_steps

      int

      日志输出步数。

      learning_rate

      float

      初始学习率。

      max_grad_norm

      float

      梯度裁剪最大范数。

      warmup_ratio

      float

      热身步数比。

      max_seq_length

      int

      数据最大序列长度。

      finetuned_model

      String

      前序微调产物OBS路径。

      bits

      int

      模型量化bit数,如4、8。

      max_eval_samples

      int

      最大测试数据数。

    3. 计算规格选择,按需选择计算规格。单击“选择”,在弹窗中选择资源规格,单击“确定”。
      • “所在区”选择计算规格所在的区域。默认显示全部区域的计算规格。
      • 选择计算规格不可用的资源会置灰。右侧“配置信息”区域会显示计算规格的详细数据,AI Gallery会基于资产和资源情况分析该任务是否支持设置“商品数量”,用户可以基于业务需要选择任务所需的资源卡数。

      如果选择付费资源,则请确认账号未欠费,且余额高于所选计算规格的收费标准,否则可能会导致AI Gallery工具链服务异常中断。AI Gallery的计算规格的计费说明请参见计算规格说明

  2. 作业参数配置完成后,单击“启动作业”。
  3. “订单信息确认”页面,确认服务信息和费用,单击“确定”提交模型训练任务。

    单击“返回模型训练”跳转到微调大师页面,可以查看训练作业状态。当“状态”“训练完成”时,表示微调任务完成。

    • 单击操作列的“查看模型”跳转到微调获得的新模型的详情页面。
    • 单击操作列的“任务详情”可以在弹窗中查看“训练信息”“训练日志”“指标效果”
    • 单击操作列的“更多 > 删除任务”,可以删除微调任务,但是微调获得的新模型不会被删除。

查看训练效果

启动模型微调任务后,在微调大师列表单击操作列的“任务详情”,在弹窗中选择“指标效果”页签,可以查看训练效果。

表2 训练效果的指标介绍

指标名称

指标说明

NPU/GPU利用率

在训练过程中,机器的NPU/GPU占用情况(横坐标时间,纵坐标占用率)。

显存利用率

在训练过程中,机器的显存占用情况(横坐标时间,纵坐标占用率)。

吞吐

在训练过程中,每卡处理tokens数量(tokens/s/p)。每种框架计算方式不一致,例如,ATB可通过“samples per second*seq_lenth/总卡数”得到tokens/s/p,输出给throughout字段,seq_lenth取值在训练脚本中可以查看。

单机8卡吞吐量一般为1650tokens/s/p,双机16卡吞吐量一般为1625tokens/s/p。

说明:

自定义训练或自定义镜像训练,需要提前在训练启动脚本(例如“train.py”)中定义好迭代次数、LOSS和吞吐数据的存放位置,以及存放格式(必须是“迭代次数|loss|吞吐”),才能在此处正常查看吞吐和“训练LOSS”曲线。

训练LOSS

训练阶段的LOSS变化,模型在日志里用LOSS关键词记录数据,按照训练迭代周期记录LOSS值。

微调产物说明

模型微调完成后,会得到一个新模型,即微调产物。

在微调大师页面,单击操作列的“查看模型”跳转到微调获得的新模型的详情页面。选择“模型文件”页签可以查看微调产物。各文件说明请参见表3

图1 微调产物示例
表3 微调产物说明

文件名

文件说明

gallery_train文件夹

自定义模型的模型训练文件,仅当使用自定义模型微调时才会有这个微调产物,内容和预训练模型里的gallery_train文件一致。

training_logs/user_params.json

微调配置参数信息,AI Gallery会自动将微调设置的参数信息记录在此文件下。

“README.md”

模型的基础信息。内容和预训练模型里“模型文件”页签的“README.md”一致。

其他文件

当使用自定义模型微调时,可能还会有一些其他微调产物,这是由自定义模型的训练脚本文件train.py决定的,如果训练脚本定义了归档其他训练产物,就会在此处呈现。

如何训练一个ai模型常见问题

更多常见问题 >>
  • ModelArts模型训练旨在提升开发者模型训练的开发效率及训练性能。提供了可视化作业管理、资源管理、版本管理等功能,基于机器学习算法及强化学习的模型训练自动超参调优;预置和调优常用模型,简化模型开发和全流程训练管理。

  • 训练管理模块是ModelArts不可或缺的功能模块,用于创建训练作业、查看训练情况以及管理训练版本。模型训练是一个不断迭代和优化的过程。在训练模块的统一管理下,方便用户试验算法、数据和超参数的各种组合,便于追踪最佳的模型与输入配置,您可以通过不同版本间的评估指标比较,确定最佳训练作业。

  • 模型转换,即将开源框架的网络模型(如Caffe、TensorFlow等),通过ATC(Ascend Tensor Compiler)模型转换工具,将其转换成昇腾AI处理器支持的离线模型。

  • 本实验指导用户在短时间内,了解和熟悉使用ModelArts进行模型开发和训练的基本流程,并利用ModelArts训练管理服务完成一次训练任务。

  • 在自然语言处理(NLP)领域中,使用语言模型预训练方法在多项NLP任务上都获得了不错的提升,广泛受到了各界的关注。本课程将简单介绍一下预训练的思想,几个代表性模型和它们之间的关系。

  • 本课程主要介绍如何让TensorFlow脚本运行在昇腾910处理器上,并进行精度、性能等方面的调优。通过对教材的解读,使学员能够结合教材+实践,迁移自己的训练脚本到昇腾平台上进行训练。