[快速入门]ai模型开发
AI开发平台ModelArts-概览

AI开发平台ModelArts AI开发平台ModelArts 面向开发者的一站式AI开发平台,可快速创建和部署模型,管理全周期AI工作流,助力千行百业智能升级 面向开发者的一站式AI开发平台,可快速创建和部署模型,管理全周期AI工作流,助力千行百业智能升级 重磅发布MaaS大模

ModelArts Standard

端到端生产工具链,一致性开发体验 端到端生产工具链,一致性开发体验 线上线下协同开发开发训练一体化架构,支持大模型分布式部署及推理 AI工程化能力,支持AI全流程生命周期管理 AI工程化能力,支持AI全流程生命周期管理 支持MLOps能力,提供数据诊断、模型监测等分析能力,训练智能日志分析与诊断

AI平台ModelArts入门

AI开发平台ModelArts入门 AI平台ModelArts入门 面向开发者的一站式AI开发平台,可快速创建和部署模型,管理全周期AI工作流,助力千行百业智能升级 面向开发者的一站式AI开发平台,可快速创建和部署模型,管理全周期AI工作流,助力千行百业智能升级 购买 控制台 专家咨询

大模型混合云

ModelArts一站式AI开发平台,支持大规模异构集群调度管理、分布式训练、云边协同部署及训推全流程Workflow,实现全场景AI高效开发 · ModelArts Studio工程工具套件,预置多种AI算子和开发模板,提供大模型数据、模型、应用一站式开发体验,加速行业级应用上线

CV大模型

文档与学习成长 盘古大模型 盘古大模型 什么是盘古大模型 盘古CV大模型能力与规格 盘古大模型用户指南 如何调用盘古CV大模型API 查看全部 AI Gallery百模千态社区 AI Gallery百模千态社区 优质昇腾云AI模型专区 几行代码自由部署AI应用 丰富多样的AI训练数据集 场景化AI案例,助力AI赋能千行百业

应用平台 AppStage

API屏蔽模型差异 提供AI原生应用开发引擎,包括RAG、Agent等应用框架,高码与低码的开发形态,降低AI原生应用开发门槛,提升开发效率 提供支撑AI原生应用运行的整套模型工具链,包括数据管理、模型接入、模型调优等能力,帮助客户选好、管好、用好大模型,提升AI原生应用效果 构

ModelArts Studio

Server,LangChain、九问、RAG、Agent、Guard等组件化集成,快速构建一站式应用。 模型开发:开箱即用的大模型开发工具链 模型开发:开箱即用的大模型开发工具链 模型广场 预置丰富的主流开源大模型,支持对模型进一步调优、压缩、部署等 模型调优 通过构建符合业务场

工业智能体 - EI企业智能-华为云

工业智能体 IIT 工业智能体 IIT 工业智能体,是面向工业领域的一站式场景模型开发平台,用于提升非AI工程师将行业Know-How与AI深度融合、解决行业难题的效率。 工业智能体,是面向工业领域的一站式场景模型开发平台,用于提升非AI工程师将行业Know-How与AI深度融合、解决行业难题的效率。

ModelBox开发者专区

客流分析实战营,获取精美好礼! AI应用开发全景 ModelBox是在AI应用开发的“推理阶段”使用的高性能开发框架 开源镜像开发 ModelBox AI应用开发 ModelBox是一套专门为AI开发者提供的易于使用,高效,高扩展的AI推理开发框架,它可以帮助AI开发者快速完成从模型文件到AI推理应用的

[相关产品]ai模型开发
企业级AI模型开发

云坞网络专注于利用先进的AI云计算、大数据和人工智能技术,为企业提供卓越的ChatGPT行业解决方案。帮助企业快速实现数字化、智能化和绿色化转型。 系统定制开发:我们可以为客户提供系统的定制开发服务,帮助客户实现更多的个性化功能和业务流程需求。,数据迁移:我们帮助客户将现有系统的

智慧监控AI模型

智慧监控AI模型综合集成了人脸识别模型、安全帽识别模型、口罩佩戴识别模型、车牌识别模型、车辆占道识别模型5种AI模型。一,人脸识别服务 人脸识别模型目前提供授权认证、模型加载、人脸注册、人脸识别、人脸删除、特征提取六个接口服务。 授权认证:需先进行授权认证,才能够正常使用人脸识别服务;

AI大模型 算法备案

《互联网信息服务算法推荐管理规定》明确,具有舆论属性或者社会动员能力的算法推荐服务提供者应当在提供服务之日起十个工作日内通过互联网信息服务算法备案系统填报服务提供者的名称、服务形式、应用领域、算法类型、算法自评估报告、拟公示内容等信息  方便

AI大模型专业服务

质量。4. 模型训练:· 设计调优方案,实施模型训练,并进行模型评测。· 熟悉盘古大模型工作流和云服务操作,确保模型效果优化。5. 应用工程:· 提供基于大模型能力的Agent开发和应用对接服务。· 具备良好的软件开发和沟通能力,实现大模型与应用的无缝对接。6. 模型运维:·  

大模型及AI应用配套服务

angChain等流行的大模型开发框架,构建企业级AI应用;团队拥有成熟的软件工程技术和管理能力。6. 大模型使用的技术支持,用户使用大模型平台,解答用户使用过程遇到的问题;大模型与应用对接集成,以及进行日常巡检、故障处理、模型升级等服务。4. 工业数据模型(CAD模型、CAE模

AI开发平台

件、算法、模型及评估模块,为 AI 工程师打造从数据预处理、模型训练、到模型评估的全流程开发支持。目前支持二分类、多分类。AI智能模型仓:模型仓是整个AI开发平台中模型的中央存储仓库,模型仓库可导入所有训练任务生成的模型并进行统一管理。算法仓库:算法仓是整个AI开发平台中算法的

天尊大模型AIGC场景解决方案

太杉天尊大模型AIGC场景解决方案是以AI场景解决方案为核心的全栈Maas综合方案,助力政企客户灵活部署(可公有可私有部署)。具备自研的行业模型能力,主要用于政府/公安/教育等行业的数据处理、文本处理以及多模态处理等多场景。太杉天尊大模型AIGC场景解决方案,是一款专为满足政府企

人工智能AI大模型技术研发定制服务

公司集成了世界领先的底层大模型,具备打通跨模型和工具链的平台,提供从需求分析、数据收集、模型设计、训练优化、评估、系统集成、用户界面设计、部署维护、合规性检查、技术支持、性能监控、扩展性设计、定制服务到持续研发一站式AI模型定制研发服务。光启慧语是一家围绕大模型全栈开展技术研发和产品

润和AI开发板

支持eMMC、TF-Card、SSD多种方式扩展存储,支持HDMI、DSI两路显示输出,可实现双屏同显,双屏异显尺寸小巧,仅一张信用卡大小,便于携带 清单说明:包含RK3568开发板(4GB)×1、A2 WiFi模块×1、外壳×1、电源线和电源插头×1、散热片×1。丰富的硬件接口,便于组装扩展,轻松完成各种实验

[相似文章]ai模型开发
华为云ModelArts_ModelArts开发_AI全流程开发

、“语音分割”类型的数据集。 模型开发 数据准备完成后,可进行AI模型开发AI模型开发的过程,称之为Modeling,一般包含两个阶段:开发阶段和实验阶段。两个过程可以相互转换。如开发阶段代码稳定后,则会进入实验阶段,通过不断尝试调整超参来迭代模型;或在实验阶段,有一个可以优化

华为云盘古大模型_华为云AI大模型_盘古人工智能

了解详情 盘古预测大模型 盘古预测大模型是面向结构化类数据,基于10类2000个基模型空间,通过模型推荐、融合两步优化策略,构建图网络架构AI模型。 了解详情 盘古科学计算大模型 科学计算大模型是面向气象、医药、水务、机械、航天航空等领域,采用AI数据建模和AI方程求解的方法;从海

ModelArts推理部署_模型_AI应用来源-华为云

入镜像创建AI为应用。 帮助文档 收起 展开 本地准备模型包 收起 展开 在本地准备模型包,编写模型配置文件和模型推理代码,将准备好的模型包上传至对象存储服务OBS,从OBS导入模型创建为AI应用。 帮助文档 收起 展开 AI Gellary订阅模型 收起 展开 在AI Gall

ModelArts模型训练_模型训练简介_如何训练模型

ModelArts模型训练 ModelArts模型训练简介 ModelArts模型训练,俗称“建模”,指通过分析手段、方法和技巧对准备好的数据进行探索分析,从中发现因果关系、内部联系和业务规律,为商业目的提供决策参考。训练模型的结果通常是一个或多个机器学习或深度学习模型模型可以应用到新的数据中,得到预测、评价等结果。

ModelArts是什么_AI开发平台_ModelArts功能

面向不同经验的AI开发者,提供便捷易用的使用流程。例如,面向业务开发者,不需关注模型或编码,可使用自动学习流程快速构建AI应用;面向AI初学者,不需关注模型开发,使用预置算法构建AI应用;面向AI工程师,提供多种开发环境,多种操作流程和模式,方便开发者编码扩展,快速构建模型及应用。 立即使用

GaussDB数据库模型_GaussDB是什么_高斯数据库模型

打造openGauss开放生态 企业级特性 智能诊断,索引推荐等丰富的企业级特性,有效提升客户开发运维效率 智能诊断,索引推荐等丰富的企业级特性,有效提升客户开发运维效率 高斯数据库模型 GaussDB有哪些黑科技? 混合负载高性能与弹性扩展 混合负载高性能与弹性扩展 适用于各类

免费AI客服电话_AI智能语音外呼系统_AI人工语音智能电话

000.00元/年 免费AI客服电话-智能AI客户联络中心-AI智能电话机器特征 免费AI客服电话-智能AI客户联络中心-AI智能电话机器特征 免费AI客服电话-内置ASR引擎 支持ASR,NLP,NLU,TTS等技术数据整合识别、响应飞速提升 免费AI客服电话-多轮会话 领先的

人工智能学习入门

使用MindSpore训练手写数字识别模型 基于昇腾AI处理器的算子开发 使用MindSpore训练手写数字识别模型 基于昇腾AI处理器的算子开发 在线课程 体系化的培训课程,快速完成学习覆盖,让您轻松上云 AI基础 AI基础课程--概览 AI基础课程--Python编程知识 AI基础课程--数学基础知识

人工智能学习入门

人工智能学习入门 人工智能课程学习,动手实验,在线考试认证,掌握人工智能技能 人工智能知识图谱 在线课程 01 AI基础、技术领域、应用场景、华为云EI AI基础、技术领域、应用场景、华为云EI 动手实验 02 包括初级、中级实验 包括初级、中级实验 AI基础 AI基础 AI基础课程--概览

ai模型开发

服务概述

AI平台 开发与实施服务主要面向千行百业中有行业实际场景需求,并希望通过AI相关技术去解决这些需求的客户。华为云侧将基于AI平台,提供AI平台实施服务、昇腾云服务迁移适配服务;结合客户业务场景,提供专业的场景化建模开发、调优服务。

服务内容

  • AI平台场景化建模开发服务
    1. AI平台场景化建模开发服务

      服务规格

      SKU编码

      服务内容

      适用场景

      AI平台场景化建模开发服务-基础版

      modelarts.service.aipmd.basic

      场景调研:调研业务背景、业务场景及痛点,对齐业务目标,调研业务系统、数据、模型等现状信息,并对现状进行分析与评估。

      方案设计:完成模型选型,模型开发(训推方案)方案设计、模型评测方案设计、数据方案设计。

      适配实施:根据方案完成数据工程和模型实施、测试。

      模型训练:根据技术方案,完成模型训练。

      指标调优:模型指标在客户的历史业务数据中得到验证和保证。

      验收移交:测试通过并完成服务/交付件的验收。

      客户需要基于自己实际遇到的问题场景设计AI解决方案,需要华为侧帮助建立AI解决方案(不含UseCase),模型指标在客户的历史业务数据中得到验证和保证。

      AI平台场景化建模开发服务-标准版

      modelarts.service.aipmd.standard

      场景调研:调研业务背景、业务场景及痛点,对齐业务目标,调研业务系统、数据、模型等现状信息,并对现状进行分析与评估。

      方案设计:完成模型选型,模型开发(训推方案)方案设计、模型评测方案设计、数据方案设计。

      适配实施:根据方案完成数据工程和模型实施、测试。

      模型训练:根据技术方案,构建UseCase,完成模型训练。

      指标调优:模型指标在客户的历史业务数据中得到验证和保证。

      验收移交:测试通过并完成服务/交付件的验收。

      客户需要基于自己实际遇到的问题场景设计AI解决方案,华为侧帮助建立AI解决方案,并沉淀UseCase提供给客户,模型指标在客户的历史业务数据中得到验证和保证。

      AI平台场景化建模开发服务-专业版

      modelarts.service.aipmd.professional

      场景调研:调研业务背景、业务场景及痛点,对齐业务目标,调研业务系统、数据、模型等现状信息,并对现状进行分析与评估。

      方案设计:完成模型选型,模型开发(训推方案)方案设计、模型评测方案设计、数据方案设计。

      适配实施:根据方案完成数据工程和模型实施、测试。

      模型训练:根据技术方案,完成模型训练。

      模型调优:模型指标在客户的实时业务数据中得到验证和保证。

      验收移交:测试通过并完成服务/交付件的验收。

      客户需要基于自己实际遇到的问题场景设计AI解决方案,需要华为侧帮助建立AI解决方案(不含UseCase),模型指标在客户的实时业务数据中得到验证和保证。

      AI平台场景化建模开发服务-铂金版

      modelarts.service.aipmd.platinum

      场景调研:调研业务背景、业务场景及痛点,对齐业务目标,调研业务系统、数据、模型等现状信息,并对现状进行分析与评估。

      方案设计:完成模型选型,模型开发(训推方案)方案设计、模型评测方案设计、数据方案设计。

      适配实施:根据方案完成数据工程和模型实施、测试。

      模型训练:根据技术方案,构建UseCase,完成模型训练

      指标调优:模型指标在客户的实时业务数据中得到验证和保证

      验收移交:测试通过并完成服务/交付件的验收。

      客户需要基于实际数据完成算法训练得到算法模型结果并保证精度结果,需要华为侧提供场景化Usecase,模型指标在客户的实时业务数据中得到验证和保证。

      CloudMatrix 昇腾云脑定制开发服务

      Ascend.Cloud.Brain.Customization.Devel.Service

      提供故障诊断和巡检的运维定制开发服务,包含离线的日志诊断、存储诊断、profiling分析、慢节点慢网络性能诊断、全栈的硬件压测、配置检测等,实现故障的定位定界,保障客户训练AI作业快速诊断和快速恢复稳定性。

      故障诊断:依据客户实际场景,完成离线的日志诊断、存储诊断、profiling分析、慢节点慢网络性能诊断等。

      健康巡检:依据客户实际场景,完成全栈的硬件压测、配置检测等。

      昇腾云脑平台规划与设计服务

      Ascend.Cloud.Platform.Initial.serive

      平台安装,并指导客户完成算法API跟业务系统对接

      提供技术支持服务,帮助客户维护更加高效、稳定的昇腾云脑平台安装。

      大模型训练平台规划与设计服务

      big.model.training.platform

      提供大模型训练平台技术支持服务,帮助客户维护更加高效、稳定的大模型训练平台安装,并指导客户完成算法API跟业务系统对接。

      提供技术支持服务,帮助客户维护更加高效、稳定的大模型训练平台安装。

      智算集群规划与设计服务

      Iciiser01

      提供智算集群的设计,调试安装,环境检查,帮助客户完成功能测试的验收

      提供智算集群的规划设计、调试安装、环境检查、具体的安装实施,以及相关功能的测试验收。

      1. 场景调研
        1. 目的:通过系统化调研,明确客户的具体需求和期望,为项目的规划、技术选型、资源分配以及后续的开发和部署提供依据,确保项目能够满足客户的业务目标并顺利实施。
        2. 内容:

          服务项目

          服务内容说明

          业务场景调研

          调研业务背景、业务场景及痛点采集、对齐业务目标

          场景化建模分析

          业务系统、数据和模型现状的分析与评估等

      2. 方案设计
        1. 目的:基于场景调研,完成整体方案进行设计,确保方案能满足用户需求,同时为后续适配实施提供清晰指导。
        2. 内容:

          服务项目

          服务内容说明

          场景化建模开发方案设计

          模型选型、训练&推理方案设计

          数据方案设计

          完成数据收集、清洗、标注流程设计

          模型评测方案设计

          构建评测数据、评测标准设计

      3. 适配实施
        1. 目的:基于方案设计,完成模型开发与适配,实现目标功能。
        2. 内容:

          服务项目

          服务内容说明

          数据工程实施

          数据收集、数据清洗、数据标注

          场景化建模实施

          沉淀Usecase、模型构建及模型训练

          场景化模型测试

          构建评测数据,模型评测

      4. 验收移交
        1. 目的:基于适配实施的结果,完成项目验收。
        2. 内容:

          服务项目

          服务内容说明

          服务验收

          在历史数据/实时业务数据中模型功能及性能评测通过

          项目移交

          知识转移、培训、后续优化及建议

    2. AI平台场景化建模部署服务

      服务规格

      SKU编码

      服务内容

      适用场景

      AI平台场景化建模部署服务-基础版

      modelarts.service.aipdd.basic

      场景调研:调研业务背景、业务场景及痛点,对齐业务目标,调研计算平台、基础设施等现状信息,并对现状进行分析与评估。

      方案设计:完成部署方案设计。

      适配实施:根据方案完成模型部署。根据ModelArts平台技术方案,开发推理脚本和制作不同部署设备的推理 镜像 并完成部署,指导客户完成算法API跟业务系统对接。

      验收移交:测试通过并完成服务/交付件的验收。

      客户需要对已交付的解决方案完成端到端训练并将模型部署成restAPI接入线上系统中,根据技术方案,开发推理脚本和制作云端推理镜像并完成部署,指导客户完成算法API跟业务系统对接。部署服务QPS为1,资源设备数1台。

      AI平台场景化建模部署服务-标准版

      modelarts.service.aipdd.standard

      场景调研:调研业务背景、业务场景及痛点,对齐业务目标,调研计算平台、基础设施等现状信息,并对现状进行分析与评估。

      方案设计:完成部署方案设计。

      适配实施:根据方案完成模型部署。根据ModelArts平台技术方案,开发推理脚本和制作不同部署设备的推理镜像并完成部署,指导客户完成算法API跟业务系统对接。

      验收移交:测试通过并完成服务/交付件的验收。

      客户需要对华为云上AI资产进行端到端训练并将模型部署成restAPI接入线上系统中,根据技术方案,开发推理脚本和制作云端推理镜像并完成部署,指导客户完成算法API跟业务系统对接。部署服务QPS为2-5之间,资源设备数2-5台。

      AI平台场景化建模部署服务-专业版

      modelarts.service.aipdd.professional

      场景调研:调研业务背景、业务场景及痛点,对齐业务目标,调研计算平台、基础设施等现状信息,并对现状进行分析与评估。

      方案设计:完成部署方案设计。

      适配实施:根据方案完成模型部署。根据ModelArts平台技术方案,开发推理脚本和制作不同部署设备的推理镜像并完成部署,指导客户完成算法API跟业务系统对接。

      验收移交:测试通过并完成服务/交付件的验收。

      客户需要对华为云上AI资产进行端到端训练并将模型部署成restAPI接入线上系统中,根据技术方案,开发推理脚本和制作云端推理镜像并完成部署,指导客户完成算法API跟业务系统对接。部署服务QPS为6-50之间,资源设备数6-10台。

      AI平台场景化建模部署服务-铂金版

      modelarts.service.aipdd.platinum

      场景调研:调研业务背景、业务场景及痛点,对齐业务目标,调研计算平台、基础设施等现状信息,并对现状进行分析与评估。

      方案设计:完成部署方案设计。

      适配实施:根据方案完成模型部署。根据ModelArts平台技术方案,开发推理脚本和制作不同部署设备的推理镜像并完成部署,指导客户完成算法API跟业务系统对接。

      验收移交:测试通过并完成服务/交付件的验收。

      客户需要对已交付的解决方案或者华为云上AI资产完成端到端训练,将模型部署成一个restAPI接入客户线上系统中,并将模型部署至边缘系统中,最终进行业务逻辑验收。部署服务QPS大于50,资源设备数大于10台。

      1. 环境准备
        1. 目的:明确客户的具体需求和期望,检查、开通和部署资源环境,准备模型权重,以及制作推理镜像。
        2. 内容:

          服务项目

          服务内容说明

          检查资源环境

          检查/开通相关资源

          部署环境安装

          相关资源(模型所需的各种组件)安装、配置

          准备模型权重

          准备模型权重

          制作推理镜像

          制作推理镜像

      2. 环境部署
        1. 目的:配置推理参数、制作推理脚本并启动推理服务。
        2. 内容:

          服务项目

          服务内容说明

          配置推理参数

          配置推理参数

          制作推理脚本

          制作推理脚本

          启动推理服务

          启动推理服务

      3. 部署验证
        1. 目的:进行功能、性能和精度测试。
        2. 内容:

          服务项目

          服务内容说明

          功能测试

          验证功能是否正常运行

          性能测试

          验证性能是否符合要求

          精度测试

          验证精度是否符合要求

      4. 验收移交
        1. 目的:基于适配实施的结果,完成项目验收。
        2. 内容:

          服务项目

          服务内容说明

          服务验收

          在历史数据/实时业务数据中模型功能及性能评测通过

          项目移交

          知识转移、培训、后续优化及建议

    3. 应用与智能体编排服务

      服务规格

      SKU编码

      服务内容

      适用场景

      应用与智能体编排-标准版

      modelarts.service.aaos.standard

      编排需求调研:明确智能体的需求范围及评估可行性;

      方案设计:根据调研结果,进行智能体编排方案设计;

      编排实施:依据设计方案,进行算法/大模型API的集成、智能体的构建、编排、配置与部署;

      验收上线:效果验证与持续优化;

      面向中低复杂度需求,支持客户快速集成算法/大模型API和多智能体构建,包含知识库构建(仅限文本类型)

      应用与智能体编排-专业版

      modelarts.service.aaos.professional

      编排需求调研:明确智能体的需求范围及评估可行性;

      方案设计:根据调研结果,进行智能体编排方案设计;

      编排实施:依据设计方案,进行算法/大模型API的集成、智能体的构建、编排、配置与部署;

      验收上线:效果验证与持续优化;

      面向需要深度定制的复杂业务场景,支持客户集成算法/大模型API和多智能体构建,包含知识库构建(多模态融合)、规则引擎检索优化、检索策略优化及反思执行优化

      1. 编排需求调研
        1. 目的:通过系统化调研,明确客户的具体需求和期望,为项目的规划、技术选型、资源分配以及后续的开发提供依据,确保项目能够满足客户的业务目标并顺利实施。
        2. 内容:

          服务项目

          服务内容说明

          业务场景调研

          场景采集、训练数据分析、功能分析与评估等

          需求确认

          需求规格说明与确认

      2. 方案设计
        1. 目的:基于场景调研,完成整体方案进行设计,确保方案能满足用户需求,同时为后续编排实施提供清晰指导。
        2. 内容:

          服务项目

          服务内容说明

          组件规划

          组件确认、组件选型

          数据流设计

          流程编排、数据格式规范

          用户界面设计

          原型设计、交互设计

      3. 编排实施
        1. 目的:基于方案设计,完成应用与智能体的开发、工作流编排。
        2. 内容:

          服务项目

          服务内容说明

          组件开发

          客户业务API组件、功能组件开发

          知识库构建

          数据整理、数据入库

          编排实施

          组件对接,功能实现

      4. 验收上线
        1. 目的:基于编排实施的结果,完成项目验收。
        2. 内容:

          服务项目

          服务内容说明

          效果验证

          测试用例构建、功能测试、集成测试

          持续优化

          流程优化

  • AI平台场景化建模调优服务
    1. AI平台场景化建模调优服务
      1. 模型调优服务描述

        服务规格

        SKU编码

        服务内容

        适用场景

        AI平台场景化建模调优服务-基础版

        modelarts.service.aipmt.basic

        针对已交付的场景化方案或模型迁移方案中的模型在实际场景中的不足,结合多场景调优经验,深入实际场景,分析业务数据,精准优化模型性能及精度指标(平台调优)。

        适用于已交付的场景化方案或模型迁移方案中模型精度或性能不满足实际场景需求,需要进一步提升精度或性能且希望华为AI技术人员提供客户侧现有场景的模型调优

        AI平台场景化建模调优服务-标准版

        modelarts.service.aipmt.standard

        针对已交付的场景化方案或模型迁移方案中的模型在实际场景中的不足,结合多场景调优经验,深入实际场景,分析业务数据,精准优化模型性能及精度指标(平台调优),并提供模型调优报告。

        适用于已交付的场景化方案或模型迁移方案中模型精度或性能不满足实际场景需求,需要进一步提升精度或性能且希望华为AI技术人员提供客户侧现有场景的模型调优

        AI平台场景化建模调优服务-专业版

        modelarts.service.aipmt.professional

        针对已交付的场景化方案或模型迁移方案中的模型在实际场景中的不足,结合多场景调优经验,深入实际场景,分析业务数据,精准优化模型场景化指标(模型调优、数据集条数不超过1W条)。

        适用于已交付的场景化方案或模型迁移方案中模型精度或性能不满足实际场景需求,需要进一步提升精度或性能且希望华为AI技术人员提供客户侧现有场景的模型调优

        AI平台场景化建模调优服务-铂金版

        modelarts.service.aipmt.platinum

        针对已交付的场景化方案或模型迁移方案中的模型在实际场景中的不足,结合多场景调优经验,深入实际场景,分析业务数据,精准优化模型场景化指标(模型调优、数据集条数不超过1W条),并提供模型调优报告。

        适用于已交付的场景化方案或模型迁移方案中模型精度或性能不满足实际场景需求,需要进一步提升精度或性能且希望华为AI技术人员提供客户侧现有场景的模型调优

      2. 模型调优方案设计
        1. 目的:通过对客户业务场景、数据状况及现有模型基础的深入分析,确定模型输入输出格式、运行环境、性能要求及精度基线。设计算子融合、量化等加速策略,优化计算流程,改造模型训练及推理代码,精细化调整数据预处理和算法参数配置,显著提升模型在实际场景中的性能与精度。
        2. 服务内容:

          服务内容

          服务详细描述

          场景分析

          深入分析客户的业务场景、数据状况(如数据规模、质量、分布)和现有模型基础(如模型架构、性能指标)。确定模型的输入输出格式(如文本、图像、结构化数据)、运行环境(如云端、边缘设备)、性能要求(如时延、吞吐量、内存占用)及精度基线。

          模型加速方案设计

          深入识别现有加速方案,设计算子融合策略,优化计算流程,减少冗余运算。采用量化等技术,降低模型精度损失的同时提升运行效率,确保在客户实际场景中,模型性能显著提升。

          脚本改造方案设计

          针对客户现有场景模型精度或性能不足问题,对模型训练及推理代码进行适配性改造。分析代码架构,优化算法参数配置,调整数据预处理流程,精细化重构代码逻辑,确保模型在特定场景下高效运行,显著提升精度与性能。

      3. 模型性能调优
        1. 目的:通过精准采集模型训练与推理的端到端性能数据,分析瓶颈节点,适配加速框架,优化算子性能、内存通信调度及集群稳定性,提升模型运行效率与稳定性,为模型性能优化提供技术支撑。
        2. 服务内容:

          服务内容

          服务详细描述

          性能数据采集

          通过profiling工具精准采集模型训练与推理的端到端性能数据,包括详细记录各阶段的耗时、资源占用率、瓶颈节点等关键指标,为后续模型调优提供精确依据。

          性能瓶颈识别

          分析客户侧采集的性能数据,精准定位模型训练与推理过程中的性能瓶颈,从计算资源利用率、数据传输效率、算法复杂度等多维度剖析问题根源,为后续优化提供明确方向。

          推理性能调优

          针对推理性能调优,分析适配合适的加速框架,精准定位算子瓶颈并优化,优化内存通信调度等调优技术。

          训练性能调优

          针对推理性能调优,分析适配合适的加速框架,进行算子性能调优、内存通信调度调优、集群稳定性调优等调优技术。

      4. 模型精度调优
        1. 目的:通过推理前向对齐与训练Loss对齐,利用模型权重转换、日志采集分析及问题算子适配等技术手段,精准定位精度问题,实现模型精度对齐,优化模型适配性,提升模型在客户侧现有场景中的运行效果与性能表现。
        2. 服务内容:

          服务内容

          服务详细描述

          推理前向对齐

          通过模型权重转换,进行推理验证检验模型运行效果,并通过日志采集分析来定位精度问题,实现精度对齐。

          训练Loss对齐

          通过启动训练并dump采集数据,定位问题算子并适配成亲和性算子,实现Loss精度对齐,助力模型更好地适配客户侧现有场景。

      5. 调优场景验证
        1. 目的:性能验证与精度验证旨在精准评估模型关键性能指标,通过严谨测试流程,测量模型吞吐量、响应时间,对比GPU训练loss值,确保误差可控,利用业务数据衡量真实场景表现,为优化提供依据,保障模型高效稳定运行。
        2. 服务内容:

          服务内容

          服务详细描述

          性能验证

          聚焦于模型训练与推理吞吐等关键性能指标,精准测量模型在实际场景中的运行效率,通过严谨的测试流程,全面评估模型吞吐量、响应时间等。

          精度验证

          通过对比GPU训练的loss值,确保模型训练过程误差在可控范围内,并利用实际业务数据进行评测,精准衡量模型在真实场景下的表现。

    2. 模型蒸馏服务
      1. 蒸馏服务描述

        服务规格

        SKU编码

        服务内容

        适用场景

        模型蒸馏服务-标准版

        modelarts.service.aimds.standard

        基于DeepSeek系列模型为教师模型,面向大模型的基础能力(对话问答、文案生成、阅读理解),结合已有的行业指令数据进行数据蒸馏服务,2000条/套。

        适用于期望得到有思维链能力且逻辑能力较强蒸馏数据集

        模型蒸馏服务-专业版

        modelarts.service.aimds.professional

        基于DeepSeek系列模型为教师模型,面向大模型的基础能力(对话问答、文案生成、阅读理解),结合已有的行业指令数据进行数据蒸馏服务,5000条/套。并对已撰写的数据进行模型蒸馏服务。

        适用于期望得到有思维链能力且逻辑能力较强的领域大模型的客户

        模型蒸馏服务-铂金版

        modelarts.service.aimds.platinum

        基于DeepSeek系列模型为教师模型,面向大模型的基础能力(对话问答、文案生成、阅读理解),结合已有的行业指令数据进行数据蒸馏服务,5000条/套。并对已撰写的数据进行模型蒸馏、强化学习服务。

        适用于期望得到有思维链能力且逻辑能力非常强的领域大模型的客户

        蒸馏服务方案主题流程如下:

      2. 蒸馏方案设计
        1. 目的:前期方案设计,与客户团队沟通了解数据特点、模型应用目标、以及性能精度指标要求等,明确后续数据工程、模型训练、模型评测的方案细节,制定高效的模型蒸馏策略。
        2. 服务内容:

          服务内容

          服务详细描述

          场景分析

          深入分析客户的业务场景、数据状况(如数据规模、质量、分布)和现有模型基础(如模型架构、性能指标),明确蒸馏的核心目标和需求。确定模型的输入输出格式(如文本、图像、结构化数据)、运行环境(如云端、边缘设备)及性能要求(如时延、吞吐量、内存占用)。

          学生模型判定

          根据场景分析结果,从现有模型库中选择合适的学生模型,综合考虑模型架构、规模(参数量、层数)和性能(精度、效率)等因素。例如,对于资源受限的边缘设备,可选择轻量级架构;对于高精度要求的场景,则选择中等规模但性能优越的模型。

          蒸馏策略选择

          综合考虑数据状况、模型特点和业务需求,选择合适的蒸馏策略并制定具体计划。例如,对于数据丰富的场景,采用基于数据微调的策略(如SFT或LoRA),利用领域数据优化学生模型;对于任务复杂度高的场景,引入强化学习策略(GRPO),通过奖励机制提升模型表现。制定详细的蒸馏计划,包括数据准备、模型训练、评估和迭代优化等阶段,确保蒸馏过程高效可控,最终交付符合业务需求的高性能模型。

          评测方案设计

          设计从客户业务场景中抽取具有代表性的数据,包括各种类型的输入和预期输出,构建评测数据集;根据业务场景定义一些定制化的评测标准,如对于生成文本的流畅性、逻辑性、专业性等方面的评估标准。

      3. 蒸馏数据实施
        1. 目的:将精心设计的数据方案提供教师模型转化为高质量的蒸馏数据,涵盖数据的采集、清洗、标注以及配比等关键环节。每个环节均遵循严格的质量控制标准,确保蒸馏数据能够高效地提炼出有价值的信息,从而显著提升模型性能。
        2. 服务内容:
        3. 数据格式要求:
        a) 微调训练指令数据以Alpaca与Sharegpt格式为例:

        格式名称

        具体格式

        Alpaca

        [

        {

        "instruction": "人类指令(必填)",

        "input": "人类输入(选填)",

        "output": "模型回答(必填)",

        "system": "系统提示词(选填)",

        "history": [

        ["第一轮指令(选填)", "第一轮回答(选填)"],

        ["第二轮指令(选填)", "第二轮回答(选填)"]

        ]

        }

        ]

        • instruction 列对应的内容会与 input 列对应的内容拼接后作为人类指令,即人类指令为 instruction/input。
        • output 列对应的内容为模型回答。
        • system 列对应的内容将被作为系统提示词。
        • history 列是由多个字符串二元组构成的列表,分别代表历史消息中每轮对话的指令和回答。注意在指令监督微调时,历史消息中的回答内容也会被用于模型学习。

          格式名称

          具体格式

          Sharegpt

          [

          {

          "conversations": [

          {

          "from": "human",

          "value": "人类指令"

          },

          {

          "from": "gpt",

          "value": "模型回答"

          }

          ],

          "system": "系统提示词(选填)",

          "tools": "工具描述(选填)"

          }

          ]

        • conversations: 包含一系列对话对象,每个对象都由发言者(from)和发言内容(value)组成。
        • from可以是"human"(人类)或"gpt"(机器),表示是谁说的这句话。
        • system: 可选的系统级别提示,类似于alpaca格式中的system字段,用于设置对话的整体背景或规则。
        • tools: 描述可用的外部工具或功能的信息,这些工具可能被模型用来执行某些任务或获取更多信息。

        b) 强化学习数据以RLHF为例:

        格式名称

        具体格式

        RLHF

        {

        "context":[

        {

        "role": "human",

        "text": ""

        },

        {

        "role": "assistant",

        "text": ""

        },

        ],

        "chosen": {

        "role": "assistant",

        "text": ""

        },

        "rejected": {

        "role": "assistant",

        "text": ""

        }

        }

        • context:描述: 包含一个对话的所有历史记录,通常是用户和助手(模型)之间的交互。
        • role: 指示说话者的角色,可能是“human”(人类用户)或“assistant”(模型助手)。
        • text: 表示发言的具体内容。
        • chosen:表示在给定上下文中,人类选择的最佳响应,用于训练模型理解何种响应符合人类期望。
        • Rejected:表示在给定上下文中,人类不选择的响应。帮助模型学习哪些响应不符合人类偏好,优化输出质量。
      4. 蒸馏方案实施
        1. 目的:基于前期的模型方案设计,利用计算资源,实施模型训练方案。在模型训练过程中,需实时监测模型收敛情况与性能指标,及时调整训练策略。
        2. 服务内容:

          服务内容

          服务详细描述

          模型微调

          采用SFT、LoRA和RFT等技术对模型进行微调,结合业务场景的具体需求和数据分布特点,调整模型参数以提升其任务适应性。例如,LoRA通过低秩分解减少参数量,在保持性能的同时降低计算开销;RFT则结合强化学习信号,进一步优化模型在复杂任务中的表现。微调过程中,使用配比数据集进行多轮迭代训练,同时通过交叉验证和早停策略防止过拟合,确保模型在业务场景中达到最优性能。

          模型强化学习

          采用DPO、PPO和GRPO等强化学习方法,通过奖励机制引导模型优化。例如,DPO直接优化人类偏好数据,使模型输出更符合用户期望;PPO通过约束策略更新步长,确保训练稳定性;GRPO则结合多目标优化,提升模型的泛化能力。训练过程中,利用模拟环境或真实用户交互数据生成奖励信号,通过策略梯度方法不断调整模型参数,使其在复杂动态环境中表现出更强的适应性和鲁棒性。

          性能优化

          在模型训练和推理阶段,通过混合精度训练和模型量化等技术,显著优化模型的性能和资源效率。混合精度训练利用FP16和FP32的结合,在保证模型精度的同时大幅减少显存占用和计算时间;模型量化则通过将模型权重和激活值从浮点数转换为低比特整数(如INT8),进一步压缩模型大小并加速推理速度。

      5. 蒸馏场景验证
        1. 目的:对蒸馏后的模型进行全面评估与验证的过程,旨在确保模型在实际业务场景中能够稳定、高效地运行,并达到预期的性能指标与业务效果。
        2. 服务内容:

          服务内容

          服务详细描述

          端到端测试

          在模型蒸馏完成后,对蒸馏后的学生模型进行全面的端到端测试,涵盖从输入数据预处理到最终输出预测的完整流程。测试过程中,使用相同的测试数据集,对比蒸馏前后的模型在性能(如准确率、召回率、F1分数)、吞吐量(每秒处理的请求数)、时延(从输入到输出的响应时间)以及内存占用(模型运行时的内存消耗)等关键指标上的差异。

          业务指标对齐

          将蒸馏后的模型在实际业务环境中进行用户侧的真实业务验证。根据业务需求定义关键性能指标(如转化率、点击率、用户满意度等),并收集实际业务场景中的数据作为测试集。通过A/B测试或多组对比实验,评估蒸馏模型在真实业务中的表现,确保其性能与业务需求相匹配。

          测评结果分析

          对评测结果进行分析和总结,找出模型存在的问题和不足之处,为后续的模型优化和改进提供依据。

        3. 构建评测数据:

          L2应用重点关注应用场景,如MML命令优化、情绪感知等。

          评测集/模型

          L0模型

          L1模型

          L2应用

          模型基础能力集

          √(重点关注)

          √(抽样验收)

          √(抽样验收)

          模型领域能力集

            

          √(重点关注)

          √(抽样验收)

          应用场景能力集

            

            

          √(重点关注)

        4. 制定评测标准:

          指标大类

          指标项

          指标定义

          评分细则

          得分项

          正确性

          正确性是指文本内容是否准确和无误,特别是与参考答案对比时。即使回答不全面,只要回答的内容是正确的,就可以认为其具有正确性。

          完全正确(5分):完全正确,与事实与核心观点吻合,无任何错误。

          部分正确(3分):内容大部分正确,但包含一些错误信息。

          一半正确(2分):一半正确一半错误

          严重错误(1分):内容大部分错误,但包含一些正确信息。

          完全错误(0分):内容完全错误,与事实或参考答案相悖。

          完整性

          完整性是指文本是否全面覆盖了参考答案中的所有关键点。即使答案中有错误,只要回答的内容是涵盖了所有要求的方面,就可以认为其具有完整性。

          完全完整(5分):全面覆盖了参考答案的所有关键点,信息完整无遗漏。

          较为完整(3分):内容覆盖大部分关键点,但仍有一些遗漏。

          部分缺失(1分):仅覆盖了部分关键点,但重要信息缺失较多,完整性较差。

          严重缺失(0分):未提及参考答案中的关键点,信息完全缺失。

          相关性

          相关性是指文本内容是否与题目或问题密切相关。即使答案中有错误,只要回答的内容是围绕问题展开的,就可以认为其具有相关性。

          高相关性(5分):文本紧密围绕题目或问题展开,信息高度相关,极少或无偏离主题的冗余内容。

          中等相关性(3分):部分内容与题目或问题相关,但仍包含一定比例的无关信息或偏离主题的描述。

          低相关性(0分):文本内容与题目或问题联系微弱,大部分信息无关或完全偏离主题。

          有效性

          指生成的内容是否能够有效指导用户解决问题

          5分:生成答案能够有效指导用户运维和SLA快速闭环

          4分:生成答案能够回答用户问题,不能提升SLA,还需要用户进行多轮问答给出下一步解决方案

          3分:生成答案只有一部分对用户问题解决有帮助

          2分:生成答案对用户问题解决没有帮助

          1分:答非所问

          扣分项

          通顺性

          1.语法正确:使用的词汇搭配恰当,句式结构符合语法规则,没有错乱的现象。

          2.连贯性:各段落、句子之间过渡自然,内容衔接紧凑,读者阅读时不会感到突兀或跳跃。

          是/否(-0.5)

          风格遵从性

          1.简洁:无超出了预期的最大长度,导致回答出现截断的情况。

          2.列举:是否采用列举风格,使得信息更加清晰和条理化。

          3.具体:是否出现过于笼统的说辞

          是/否(-0.5)

          一致性

          在论述或阐述观点的过程中,整段文本需保持观点的一致性,不存在自相矛盾的地方。

          是/否(-0.5)

    3. 模型增训服务
      1. 增训服务描述

        服务规格

        SKU编码

        服务内容

        适用场景

        模型增训服务-标准版

        modelarts.service.aimrs.standard

        基于DeepSeek模型,根据大量行业预训练数据进行模型增量预训练,然后结合一定量no-reasoning行业指令数据集进行SFT微调,这两个训练阶段,帮助客户打造行业大模型的服务。

        适用于期望得到无思维链能力且逻辑能力一般的行业大模型的客户

        模型增训服务-专业版

        modelarts.service.aimrs.professional

        基于DeepSeek模型,根据大量行业预训练数据进行模型增量预训练,然后结合一定量no-reasoning行业指令数据集进行SFT微调,最后再进行强化学习,这三个训练阶段,帮助客户打造行业大模型的服务。

        适用于期望得到无思维链能力且逻辑能力较强的行业大模型的客户

        模型增训服务-铂金版

        modelarts.service.aimrs.platinum

        基于DeepSeek模型,根据大量行业预训练数据进行模型增量预训练,然后结合一定量reasoning行业指令数据集进行SFT微调,最后再进行强化学习,这三个训练阶段,帮助客户打造行业大模型的服务。

        适用于期望得到具备思维链能力且逻辑能力非常强的行业大模型的客户

        增训服务方案整体流程如下:

      2. 增训方案设计
        1. 目的:通过前期方案设计,与客户深入沟通其具体场景分析增训方案的合理性和可行性,明确增训方案在实施过程中数据工程,模型训练以及模型评测的方案细节,指导增训服务的开展。
        2. 服务内容

          服务内容

          服务详细描述

          场景分析

          基于客户实际行业、行业数据量、客户实际场景需求分析,做模型增训的合理性和可行性,输出建议。

          数据方案设计

          基于场景分析的结果制定数据集方案,包括行业数据选型,数据来源,数据处理方式,数据评估标准,数据配比方案,数据管理方案,数据安全保障方案等。

          模型方案设计

          基于场景分析的结果制定模型训练方案,包括模型选型(DeepSeek v3/r1),增训工作流的设计(增量预训练、SFT、RL等阶段),分布式训练方案设计,训练超参的设计等。

          模型评测方案设计

          针对客户场景和训练后的模型制定模型评测方案,包括精度性能的指标的制定,行业标准制定、模型评估验证标准制定、业务效果验证标准制定等。

        3. 增训场景适用情况

          场景分析时,可参考以下信息,分析模型增训的合理性和可行性。

            

          适用情况

          通用无监督数据

          通用SFT数据

          方案实施周期

          集群规模

          效果

          DeepSeek增量预训练

          客户具有大量的无监督领域数据

          需要(华为沉淀)

          需要

          512卡 910B 313t及以上规格

          按多阶段充分补齐行业的知识

        4. 数据要求参考

          设计数据方案时,可参考如下推荐值确定增训工作流每个阶段的数据要求。

          模型

          增量预训练

          SFT

          RL(可选)

          数据集格式样例

          数据量级

          作用

          数据集格式样例

          数据量级

          作用

          作用

          DeepSeek v3

          无监督数据

          {

          "text": "xxx……“

          }

          10B token

          注入行业知识

          Non-Reasoning Data:

          {“system“: “xxx(系统prompt, 可选)”,

          "context": “xxx“,

          "target": “xxx"}

          1w~200w条

          注入场景知识,获得问答能力

          训练通用逻辑推理能力,解锁模型潜力,对齐偏好

          Reasoning Data:

          {“system“: “xxx(系统prompt, 可选)”,

          "context": “xxx“,

          “target”: “<think>\n…xxx…\n</think>”}

          注入场景知识,获得问答能力,以及CoT能力

          DeepSeek R1

          无监督数据

          {

          "text": "xxx……“

          }

          10B token

          注入行业知识

          Reasoning Data:

          {“system“: “xxx(系统prompt, 可选)”,

          "context": “xxx“,

          “target”: “<think>\n…xxx…\n</think>”}

          1w~200w条

          注入场景知识,获得问答能力,以及CoT能力

          预训练数据集质量要求:

          a) 保证预训练的无监督数据内容质量高,不包含异常字符。

          b) 保证预训练的无监督数据内容知识密度高,具有有价值的行业知识,以期训练能提升模型能力。

          c) 避免互联网上广告数据和带水印的数据。

          SFT数据质量要求:

          a) 保证微调数据中的输入(context字段)不重复,否则会造成模型效果不佳。

          b) 保证微调数据内容质量高,不包含异常字符。

          c) 保证输出(target字段)内容符合业务场景需求,例如:短视频口播场景要求文风可以引起观众兴趣、不丢失产品特点且可以引导观众购买。

        5. 增训工作流

          在做模型方案设计时,可参考如下技术路线,根据实际情况选择是否做强化学习。

        6. 行业大模型评估维度

          基础大模型评估维度:

          a) 通用智能:测试模型达到的智能程度,包括认知水平、知识掌握、推理能力、语言和文化、模型适应性等。

          b) 专业技能:考察模型在常见任务所需技能上能达到的水平,包括信息理解、内容生成、代码能力、数学建模能力、交互能力、智能Agent等。

          c) 资源与性能:模型运行占用的资源与性能,包括运行态资源占用、静态资源占用、模型性能、服务性能等。

          d) 可信与安全:模型输出信息的可信度,输出内容符合安全与AI伦理要求,代码/模型可信,遵从AI治理要求(AI安全、代码可信、AI治理遵从…)。

          e) 领域适配:领域知识适配能力;支持完成特定业务领域的能力,包括领域适配基础能力、适配数据成本、适配算力成本等。

          行业大模型评估维度:

          a) 行业知识:评估具备行业知识的能力,例如法律知识,包括法律知识问答,案件咨询问答等。

          b) 行业任务:评估完成具体行业场景的任务的能力,例如法律任务,包括法条推送,案件识别,裁判预测,案情理解等。

          c) 行业安全:评估行业大模型的安全性。

          在做模型评测方案设计时,可参考基础大模型评估维度叠加行业大模型评估维度八大维度制定模型评估及业务效果评估的维度。

        7. 行业大模型评估分层策略

          评测集/模型

          L0模型

          L1模型

          L2应用

          模型基础能力集

          √(重点关注)

          √(抽样验收)

          √(抽样验收)

          模型领域能力集

          --

          √(重点关注)

          √(抽样验收)

          应用场景能力集

          --

          --

          √(重点关注)

          L1模型:重点关注模型能力,如基础能力(知识储备、逻辑推理、安全合规等等),行业领域能力(行业知识储备能力)。

      3. 数据方案实施
        1. 目的:根据制定的数据方案,准备训练前需要的所有数据集(行业预训练数据集、通用预训练数据集、行业指令数据集、通用指令数据集等)。
        2. 服务内容:

          服务内容

          服务详细描述

          数据提取与清洗

          基于客户提供的原始数据(PDF、WORD…)进行数据提取,然后基于提取出来的数据进行数据脱敏,文本长度过滤,异常字符过滤,符号标准化,中文简繁转换,敏感词过滤,正则过滤,文本,去重等一系列数据加工操作。

          数据标注

          在数据清洗后,针对需要标注的数据集通过辅助问答、智能生成QA对等方式进行单轮问答标注、多轮问答标注……

          数据评估

          通过自动评估任务、人工评估或评估抽样等方式评估文本类数据是否符合模型训练的标准,包括预训练数据、SFT数据、强化学习数据等。

          数据配比

          将处理评估完成的行业数据与开源可获得或已沉淀的通用数据集,按需配比,其中包括预训练数据、SFT数据、强化学习数据等。

          数据安全保障

          提供数据获取、数据存储、数据内容、数据流通、数据管理的全流程安全保障服务。

          增训方案数据集工作流:

      4. 模型方案实施
        1. 目的:根据制定的模型训练方案,搭建训练环境,设置训练超参数,开始训练,多次迭代优化超参,数据集配比等配置,最终得到L1行业大模型。
        2. 服务内容:

          服务内容

          服务详细描述

          环境准备

          训练环境准备包括:(1)基础模型权重文件下载后格式转换;(2)将准备好的数据集、词表文件、转换后的权重文件上传至 OBS 桶;(3)镜像制作、镜像下载上传至AI平台等。

          模型增训实施

          主要为增训工作流实施服务,包括:(1)增量预训练任务配置,SFT训练任务配置等;(2)训练任务启动,监控;(3)故障保障,断点续训保障等;(4)训练后权重转换。

          模型调优

          若训练性能及训练后模型效果不及客户预期,需进行性能调优,精度(或称评测效果)调优,直到满足客户要求。比如,通过调节数据配比,优化模型表现。

      5. 增训场景验证
        1. 目的:基于模型评测方案,针对训练得到的行业大模型进行评测,如能达到客户要求,即可进入验收阶;如效果欠佳,需分析BadCase明确优化方向,多次迭代优化后,直到通过评测标准。
        2. 服务内容:

          服务内容

          服务详细描述

          精度性能验证

          通过测评任务或loss对齐等方式验证精度是否对齐,达到客户精度标准,通过计算吞吐、MFU等指标确认性能是否达到客户性能标准。

          模型评估验证

          将训练后的模型基于前期制定的评测标准,验证模型的通用能力和行业能力,方式可包括:通过模型基础能力测评集、自定义的模型行业领域测评集进行评估等方式。

          业务效果验证

          增训场景验证最后一步,需验证客户实际场景的业务效果,以方案设计中的业务效果验证标准,验证业务效果是否达到客户要求。

    4. 模型微调服务
      1. 微调服务描述

        服务规格

        SKU编码

        服务内容

        适用场景

        模型微调服务-标准版

        modelarts.service.aimfts.standard

        基于DeepSeek模型,面向大模型的基础能力(对话问答、文案生成、阅读理解),结合客户的行业指令数据进行微调数据资产撰写,2000条/套。并对已撰写的数据进行微调训练服务。

        适用于客户拥有少量的行业指令知识数据,根据某个场景,快速构建场景大模型。

        模型微调服务-专业版

        modelarts.service.aimfts.professional

        基于DeepSeek模型,面向大模型的基础能力(对话问答、文案生成、阅读理解),结合客户的行业指令数据进行微调数据资产撰写,5000条/套。并对已撰写的数据进行微调训练服务。

        适用于客户拥有丰富的行业指令知识数据,根据某个场景,快速构建场景大模型。

        模型微调服务-铂金版

        modelarts.service.aimfts.platinum

        基于DeepSeek模型,面向大模型的基础能力(对话问答、文案生成、阅读理解),结合客户的行业指令数据进行微调数据资产撰写,5000条/套。并对已撰写的数据进行微调训练、强化学习服务。

        适用于客户拥有丰富的行业指令知识数据,根据某个场景,快速构建场景大模型,并指导其在复杂任务中做出更优决策。

      2. 微调方案设计
        1. 目的:前期方案设计,与客户团队沟通了解数据特点、模型应用目标、以及性能精度指标要求等,明确后续数据工程、模型训练、模型评测的方案细节,制定高效的模型微调策略。
        2. 服务内容:

          服务内容

          服务详细描述

          场景方案设计

          (1)微调训练路线:针对数据量适中,根据某个场景,需要提高下游领域任务指令遵从,可通过指令微调对齐模型输出与业务需求,则采用监督微调(SFT或LoRA)训练。

          (2)强化学习路线:针对客户已有微调的场景模型,需要引导模型更好地适应特定的任务,使模型能够不断优化回答策略,在实际应用中表现得更加智能和高效,则采用强化学习策略。

          数据方案设计

          (1)行业指令数据:收集与客户行业相关的指令数据,并设计指令数据如何分类和标注,明确指令的意图和对应的输出格式,为模型微调提供高质量的训练样本。

          (2)强化学习数据:设计强化学习数据收集策略,确定如何收集和构建能够有效反映人类偏好的数据集。

          模型方案设计

          (1)模型超参数配置:根据客户的需求和硬件资源情况,设计如何配置模型的超参数,如学习率、批量大小、训练轮数等。

          (2)奖励模型设计:针对强化学习,需要根据业务目标和用户需求,设计合理的奖励模型,引导模型向更好的方向优化。

          评测方案设计

          (1)构建评测数据:设计从客户业务场景中抽取具有代表性的数据,包括各种类型的输入和预期输出,构建评测数据集。

          (2)评测标准设计:根据业务场景定义一些定制化的评测标准,如对于生成文本的流畅性、逻辑性、专业性等方面的评估标准。

        3. 场景方案设计——SFT微调训练场景的整体流程:

          适用场景

          行业指令数据

          通用指令数据

          集群规模

          基础模型已经具有行业知识,根据某个场景,需要提高下游领域任务指令遵从。

          高质量指令数据,要求:数据条数建议值>=1w

          高质量通用指令数据。要求:条数最小值>=2k

          910B 313t及以上规格

          SFT微调:512卡,LoRA微调:64卡

        4. 场景方案设计——强化学习场景的整体流程:

          适用场景

          行业指令数据

          通用指令数据

          集群规模

          客户拥有行业模型或已微调的场景模型,需要提升模型在垂直场景的适应性。

          高质量指令数据,要求:条数建议值>=5k

          高质量通用指令数据。要求:条数最小值>=2k

          910B 313t及以上规格

          PPO、GRPO:512卡

      3. 数据方案实施
        1. 目的:将设计好的数据方案转化为高质量的训练数据,其中包括数据的采集、清洗、标注以及配比等多个环节,每个环节都遵循严格的质量控制标准,以保障数据能够有效驱动模型性能提升。
        2. 服务内容:

          服务内容

          服务详细描述

          数据采集

          基于客户在业务系统、 数据库 、日志文件等渠道采集到的原始数据进行数据提取,为模型微调提供丰富的业务场景数据。

          数据标注

          按照设计的指令格式与任务要求,对采集的数据进行标注,确保模型理解执行指令。

          数据清洗

          已标注的数据进行清洗,去除重复、错误、无关的数据。例如,去除文本中的 HTML 标签、特殊字符,纠正错别字和语法错误等,提高数据的质量和可用性。

          数据审核

          对清洗后的数据进行审核,确保数据的合法性和合规性。例如,在处理用户数据时,遵守相关的隐私保护法规,对敏感信息进行脱敏处理,确保数据的安全使用。

          标注偏好数据

          针对强化学习,基于设计好的奖励模型,组织专业的标注人员或利用自动化工具对数据进行偏好标注。

          指令数据配比

          根据客户行业数据的特点和模型训练的需求,确定行业数据与通用数据的配比。

        3. 数据格式要求:

          a) 微调训练指令数据以Alpaca与Sharegpt格式为例:

        格式名称

        具体格式

        Alpaca

        [

        {

        "instruction": "人类指令(必填)",

        "input": "人类输入(选填)",

        "output": "模型回答(必填)",

        "system": "系统提示词(选填)",

        "history": [

        ["第一轮指令(选填)", "第一轮回答(选填)"],

        ["第二轮指令(选填)", "第二轮回答(选填)"]

        ]

        }

        ]

        • instruction 列对应的内容会与 input 列对应的内容拼接后作为人类指令,即人类指令为 instruction/input。
        • output 列对应的内容为模型回答。
        • system 列对应的内容将被作为系统提示词。
        • history 列是由多个字符串二元组构成的列表,分别代表历史消息中每轮对话的指令和回答。注意在指令监督微调时,历史消息中的回答内容也会被用于模型学习。

          格式名称

          具体格式

          Sharegpt

          [

          {

          "conversations": [

          {

          "from": "human",

          "value": "人类指令"

          },

          {

          "from": "gpt",

          "value": "模型回答"

          }

          ],

          "system": "系统提示词(选填)",

          "tools": "工具描述(选填)"

          }

          ]

        • conversations: 包含一系列对话对象,每个对象都由发言者(from)和发言内容(value)组成。
        • from可以是"human"(人类)或"gpt"(机器),表示是谁说的这句话。
        • system: 可选的系统级别提示,类似于alpaca格式中的system字段,用于设置对话的整体背景或规则。
        • tools: 描述可用的外部工具或功能的信息,这些工具可能被模型用来执行某些任务或获取更多信息。

        b) 强化学习数据以RLHF为例:

        格式名称

        具体格式

        RLHF

        {

        "context":[

        {

        "role": "human",

        "text": ""

        },

        {

        "role": "assistant",

        "text": ""

        },

        ],

        "chosen": {

        "role": "assistant",

        "text": ""

        },

        "rejected": {

        "role": "assistant",

        "text": ""

        }

        }

        • context:描述: 包含一个对话的所有历史记录,通常是用户和助手(模型)之间的交互。
        • role: 指示说话者的角色,可能是“human”(人类用户)或“assistant”(模型助手)。
        • text: 表示发言的具体内容。
        • chosen:表示在给定上下文中,人类选择的最佳响应,用于训练模型理解何种响应符合人类期望。
        • Rejected:表示在给定上下文中,人类不选择的响应。帮助模型学习哪些响应不符合人类偏好,优化输出质量。
      4. 模型方案实施
        1. 目的:基于前期的模型方案设计,利用计算资源,实施模型训练方案。在模型训练过程中,需实时监测模型收敛情况与性能指标,及时调整训练策略。
        2. 服务内容:

          服务内容

          服务详细描述

          前期环境准备

          (1)环境准备:获取华为昇腾硬件和软件开发环境,环境是基于Docker镜像构建的独立开发环境,其中集成CANN、PyTorch、软件套件等。

          (2)模型权重准备:获取开源的模型原始权重文件,并基于原始权重文件转换为统一的megatron格式,以便更好地利用分布式训练资源,提高训练效率和模型的可扩展性。

          模型微调训练

          (1)SFT:采用SFT微调训练方法,根据设计好的微调方案对模型进行训练。SFT通过在模型的输出层添加一个新的分类层或生成层,利用标注好的数据对模型进行监督训练,使其适应新的任务

          (2)LoRA&QLoRA:采用LoRA、QLoRA等微调训练方法。LoRA和QLoRA是在模型的中间层添加低秩适应模块,能够在不改变模型原始结构的情况下,有效地学习任务特定的知识。

          模型强化学习

          运用PPO、DPO、GRPO等强化学习手段,结合设计好的奖励模型,对微调后的模型进行进一步的优化。不断调整强化学习的参数和策略,如学习率、奖励衰减系数、探索率等,以平衡模型的探索和利用能力,使其能够在不断变化的环境中找到最优的策略。

      5. 微调场景验证
        1. 目的:对微调后的模型进行全面评估与验证的过程,旨在确保模型在实际业务场景中能够稳定、高效地运行,并达到预期的性能指标与业务效果。
        2. 服务内容

          服务内容

          服务详细描述

          精度性能验证

          通过测评任务或loss对齐等方式验证精度是否对齐,达到客户精度标准,通过计算吞吐、MFU等指标确认性能是否达到客户性能标准。

          制定评测标准

          根据完全匹配、包含、模糊匹配等标准,对模型的生成结果或预测结果进行详细的评测。

          测评结果分析

          对评测结果进行分析和总结,找出模型存在的问题和不足之处,为后续的模型优化和改进提供依据。

        3. 构建评测数据

          L2应用重点关注应用场景,如MML命令优化、情绪感知等。

          评测集/模型

          L0模型

          L1模型

          L2应用

          模型基础能力集

          √(重点关注)

          √(抽样验收)

          √(抽样验收)

          模型领域能力集

            

          √(重点关注)

          √(抽样验收)

          应用场景能力集

            

            

          √(重点关注)

        4. 制定评测标准

          指标大类

          指标项

          指标定义

          评分细则

          得分项

          正确性

          正确性是指文本内容是否准确和无误,特别是与参考答案对比时。即使回答不全面,只要回答的内容是正确的,就可以认为其具有正确性。

          完全正确(5分):完全正确,与事实与核心观点吻合,无任何错误。

          部分正确(3分):内容大部分正确,但包含一些错误信息。

          一半正确(2分):一半正确一半错误

          严重错误(1分):内容大部分错误,但包含一些正确信息。

          完全错误(0分):内容完全错误,与事实或参考答案相悖。

          完整性

          完整性是指文本是否全面覆盖了参考答案中的所有关键点。即使答案中有错误,只要回答的内容是涵盖了所有要求的方面,就可以认为其具有完整性。

          完全完整(5分):全面覆盖了参考答案的所有关键点,信息完整无遗漏。

          较为完整(3分):内容覆盖大部分关键点,但仍有一些遗漏。

          部分缺失(1分):仅覆盖了部分关键点,但重要信息缺失较多,完整性较差。

          严重缺失(0分):未提及参考答案中的关键点,信息完全缺失。

          相关性

          相关性是指文本内容是否与题目或问题密切相关。即使答案中有错误,只要回答的内容是围绕问题展开的,就可以认为其具有相关性。

          高相关性(5分):文本紧密围绕题目或问题展开,信息高度相关,极少或无偏离主题的冗余内容。

          中等相关性(3分):部分内容与题目或问题相关,但仍包含一定比例的无关信息或偏离主题的描述。

          低相关性(0分):文本内容与题目或问题联系微弱,大部分信息无关或完全偏离主题。

          有效性

          指生成的内容是否能够有效指导用户解决问题

          5分:生成答案能够有效指导用户运维和SLA快速闭环

          4分:生成答案能够回答用户问题,不能提升SLA,还需要用户进行多轮问答给出下一步解决方案

          3分:生成答案只有一部分对用户问题解决有帮助

          2分:生成答案对用户问题解决没有帮助

          1分:答非所问

          扣分项

          通顺性

          1.语法正确:使用的词汇搭配恰当,句式结构符合语法规则,没有错乱的现象。

          2.连贯性:各段落、句子之间过渡自然,内容衔接紧凑,读者阅读时不会感到突兀或跳跃。

          是/否(-0.5)

          风格遵从性

          1.简洁:无超出了预期的最大长度,导致回答出现截断的情况。

          2.列举:是否采用列举风格,使得信息更加清晰和条理化。

          3.具体:是否出现过于笼统的说辞

          是/否(-0.5)

          一致性

          在论述或阐述观点的过程中,整段文本需保持观点的一致性,不存在自相矛盾的地方。

          是/否(-0.5)

  • 昇腾云服务迁移适配服务
    1. 昇腾云服务迁移适配服务

      迁移适配服务-模型服务描述

      服务规格

      SKU编码

      服务内容

      适用场景

      昇腾云服务迁移适配服务-基础版

      modelarts.service.amia.basic

      包含在华为开源适配列表中的算法模型迁移适配,基于指导文档提供demo方案演示,并在用户业务自主实施过程中提供技术支持。

      适用于客户模型自主适配,华为提供指导的场景,通过远程/现场支持等形式,帮助客户掌握昇腾云服务基础适配能力。

      昇腾云服务迁移适配服务-标准版

      modelarts.service.amia.standard

      包含在华为开源适配列表中的算法模型迁移适配,根据指导文档完成方案实施,依据客户指定数据集、开源权重文件完成精度对齐、性能调优、模型部署,限定一个指定数据集和开源权重。

      适用于华为提供模型迁移适配服务场景,通过远程/现场支持等形式,帮助客户深度使用昇腾云服务产品,高效完成业务价值落地。

      昇腾云服务迁移适配服务-专业版

      modelarts.service.amia.professional

      未包含在华为开源适配列表中的算法模型迁移适配,在算子均满足的情况下,完成模型适配、精度对齐、性能调优、模型部署,限定一个指定数据集和开源或自定义权重。

      适用于华为提供模型迁移适配服务场景,通过远程/现场支持等形式,帮助客户深度使用昇腾云服务产品,高效完成业务价值落地。

      昇腾云服务AI模型迁移服务-每模型

      modelarts.service.amia.permodel

      提供由GPU迁移至昇腾云服务平台的支持服务,包含一个模型的迁移分析、适配验证以及模型部署。

      适用于多模型场景,为客户提供基础迁移服务后,需要增加其他模型适配,需与标准版捆绑售卖。

      昇腾云服务应用迁移服务-每应用

      modelarts.service.amia.perapp

      提供由GPU迁移至昇腾云服务平台的支持服务,包含一个应用的迁移分析、适配验证、部署及运维能力对接。

      适用于客户有应用迁移需求的场景,通过远程/现场支持等形式,帮助客户深度使用昇腾云服务产品,高效完成业务价值落地。

      1. 场景调研(适用于基础版、标准版、专业版、铂金版迁移服务)
        1. 目的:通过深入调研昇腾云迁移前后的硬件环境、模型相关情况以及性能基线,精准获取关键信息,明确硬件优劣、模型结构与功能以及性能基准,为模型迁移提供可靠依据,保障模型在昇腾云上稳定运行并实现性能优化。
        2. 服务内容:

          服务内容

          服务详细描述

          硬件环境调研

          深入调研昇腾云迁移前后硬件环境。细致记录芯片型号、计算能力、内存容量、存储资源等关键信息。对比分析差异,明确迁移前后硬件的优劣,为后续模型迁移提供坚实可靠的硬件基础信息,助力迁移工作顺利开展。

          模型相关调研

          全面收集模型源码、参数配置、模型权重和数据集。深入分析模型特点、依赖关系,精准确定模型结构与功能。为迁移适配提供详尽的模型基础信息,确保迁移过程有的放矢,保障模型在新环境下稳定运行。

          性能基线调研

          在原环境下对模型进行严格测试,精准记录推理精度、推理速度、训练Loss收敛情况等关键性能指标,形成性能基线。这为后续优化提供明确对比基准,助力在昇腾云上实现性能提升,确保模型迁移后性能达标。

      2. 上云评估(适用于基础版、标准版、专业版、铂金版迁移服务)
        1. 目的:通过梳理调研结果,深入分析当前业务现状与潜在需求,全面评估上云的可行性。重点考察昇腾云服务的满足度以及迁移交付方案的可操作性,确保上云过程平稳高效。
        2. 服务内容:

          服务内容

          服务详细描述

          分析现状与需求

          深入整理调研数据,剖析当前业务状况,挖掘潜在需求,为后续规划提供坚实依据,确保方向明确、目标清晰。

          上云可行性分析

          全面评估上云的可行性,深度分析昇腾云服务的满足度与迁移交付方案的可操作性,保障上云过程平稳高效。

      3. 迁移方案设计(适用于专业版、铂金版迁移服务)
        1. 目的:通过制定迁移、加速、脚本改造、优化实施及算子预检方案,全方位保障模型迁移至昇腾云的高效性、兼容性和性能优化,确保迁移过程平稳有序、模型运行流畅,实现性能提升与稳定运行目标,为后续应用提供坚实基础。
        2. 服务内容:

          服务内容

          服务详细描述

          迁移方案制定

          依据场景调研结果,精心设计模型迁移方案。综合考虑选择契合的迁移框架、工具与策略,清晰规划迁移步骤,精准把握关键要点,确保模型迁移过程平稳有序,高效推进。

          加速方案设计

          设计加速方案。运用模型结构优化、算子融合、量化等前沿技术手段,全方位挖掘性能潜力,使模型在昇腾云上运行更流畅、响应更迅速。

          脚本改造方案设计

          针对昇腾云开发环境,制定脚本改造方案。对模型代码进行深度适配性改造,确保代码无缝契合新环境,为迁移适配工作提供有力支撑。

          算子预检方案设计

          制定算子预检方案,全面检查分析模型中算子。精准确定需开发或适配的算子,提前解决兼容性问题,保障模型在昇腾云上运行顺畅。

      4. 方案交底(适用于基础版、标准版、专业版、铂金版迁移服务)
        1. 目的:通过明确交付方案、服务范围以及交付计划和验收方式,确保各方对交付成果有清晰一致的理解,避免误解和纠纷,保障交付过程顺畅高效,项目有序推进,最终实现高质量交付,满足各方预期,为项目成功实施提供有力保障。
        2. 服务内容:

          服务内容

          服务详细描述

          交付方案明确

          向相关方清晰阐述交付方案,涵盖交付内容、形式与时间节点。通过详细说明,确保各方对交付成果有精准且一致的理解,避免因信息模糊引发的沟通成本,保障交付过程顺畅高效,满足各方预期。

          服务范围明确

          在模型迁移适配过程中,清晰界定服务范围,明确提供的支持与服务内容。通过精准界定,避免因范围不清导致的误解和纠纷,确保服务高效、有序开展,提升项目整体协同性。

          交付计划及验收方式明确

          制定详尽的交付计划,明确各阶段工作内容与时间节点,确保项目有序推进。同时,明确验收方式及指标,涵盖标准、方法与流程,保障交付成果高质量、符合要求,为项目成功交付保驾护航。

      5. 迁移环境部署(适用于标准版、专业版、铂金版迁移服务)
        1. 目的:确保模型在昇腾云上高效运行,为后续开发编译工作提供稳定可靠的环境支持,保障项目顺利推进。
        2. 服务内容:

          服务内容

          服务详细描述

          开发编译环境部署

          在昇腾云上部署模型运行所需的开发编译环境。安装完备的工具链,细致配置环境参数,全方位保障开发编译工作顺畅开展,确保后续工作高效推进。

      6. 模型适配与验证(适用于专业版、铂金版迁移服务)
        1. 目的:通过加速适配、脚本改造、并行能力验证及权重与参数设置,全方位优化模型在昇腾云上的运行表现,确保其高效、稳定运行,满足业务需求,实现性能提升与无缝过渡,为模型在新环境的应用提供坚实保障。
        2. 服务内容:

          服务内容

          服务详细描述

          模型加速适配

          依据加速方案,对模型展开加速适配工作。通过模型结构优化、算子融合等技术手段,充分挖掘性能潜力,显著提升模型运行速度,让模型在新环境中更高效地运行。

          脚本改造实施

          按照脚本改造方案,对模型代码进行深度改造。使其适配昇腾云的开发环境与运行框架,确保代码具备出色的兼容性和可运行性,保障模型在新环境稳定运行。

          模型并行能力验证

          全面验证模型在昇腾云上的并行能力。在多设备、多线程等并行场景下展开测试,确保模型能够充分调用昇腾云的并行计算资源,发挥强大性能,满足业务需求。

          模型权重与参数设置

          对模型权重进行精准切分与调整,设置科学合理的参数。确保模型在昇腾云上的运行效果与原环境高度一致,保障模型迁移后的性能与稳定性,实现无缝过渡。

      7. 推理前向对齐(适用于标准版、专业版、铂金版迁移服务)
        1. 目的:通过模型权重转换、推理验证、日志采集与分析以及精度对齐,确保模型在昇腾云上推理准确、性能可靠,实现与原环境高度一致的精度,为模型迁移提供坚实保障,满足业务需求。
        2. 服务内容:

          服务内容

          服务详细描述

          模型权重转换

          将模型权重从原格式精准转换为昇腾云支持的格式,确保模型在昇腾云上能够无缝加载权重,为后续推理验证和性能优化提供坚实基础,保障模型迁移的顺利进行。

          模型推理验证

          全面开展模型推理验证,仔细检查模型在昇腾云上的推理结果是否准确,排查是否存在偏差或错误,确保模型在新环境下的推理性能可靠,满足业务需求。

          日志采集与分析

          采集模型推理过程中的后处理、logits、算子dump日志等关键信息,深入分析日志内容,精准排查问题,为精度对齐提供有力依据,助力模型优化。

          精度对齐及问题解决

          依据 日志分析 结果,对模型精度进行精细对齐,高效解决推理过程中出现的精度问题,确保模型在昇腾云上的推理精度与原环境高度一致,保障迁移效果。

      8. 训练Loss对齐(标准版、专业版、铂金版迁移服务)
        1. 目的:通过训练启动与监控、精度数据采集以及Loss精度对齐,确保模型训练过程平稳高效,训练精度与原环境高度一致,为模型迁移和优化提供有力保障,助力模型在昇腾云上顺利运行并达到预期性能。
        2. 服务内容:

          服务内容

          服务详细描述

          训练启动与监控

          启动模型训练,实时精准监控训练过程中的日志信息。及时捕捉并处理训练中出现的问题,确保训练过程平稳、高效推进,为模型的顺利迁移和优化提供有力保障。

          精度数据采集

          在训练过程中,全面采集精度数据,涵盖Loss值、准确率等关键指标,详细记录数据变化情况。为Loss对齐提供丰富、准确的数据支持,助力模型性能优化。

          Loss精度对齐

          依据采集的精度数据,对训练过程中的Loss进行精细对齐。灵活调整模型训练参数和策略,确保模型在昇腾云上的训练Loss与原环境高度一致,保障迁移后的训练效果。

      9. 推理性能优化(适用于标准版、专业版、铂金版迁移服务)
        1. 目的:通过端到端性能数据采集、性能瓶颈识别、参数配置优化、融合算子优化、KVCache优化以及ContinuousBatch优化,全方位提升模型推理性能,精准定位并解决性能问题,优化模型运行效率,确保模型在昇腾云上高效、流畅运行,满足业务需求。
        2. 服务内容:

          服务内容

          服务详细描述

          端到端性能数据采集

          全面采集模型推理过程中的端到端性能数据,涵盖推理时间、吞吐量等关键指标。深入分析性能表现,精准定位问题,为后续优化提供详实依据。

          性能瓶颈识别

          基于性能数据分析,精准识别模型推理过程中的性能瓶颈。明确优化的关键点与方向,为针对性优化提供清晰指引,推动模型性能突破。

          参数配置优化

          依据性能瓶颈分析结果,对模型参数配置进行精细优化。合理调整参数值,充分挖掘模型潜力,显著提升推理性能,实现高效运行。

          融合算子优化

          针对模型中的算子,实施融合优化。减少算子数量,降低计算复杂度,提升推理效率,为模型运行加速,优化整体性能表现。

          KVCache优化

          运用KVCache技术,对模型中的键值对存储进行优化。提高数据访问速度,减少延迟,显著提升推理性能,增强模型运行效率。

          ContinuousBatch优化

          实施ContinuousBatch优化策略,优化模型批处理过程。提高推理的连续性和效率,确保模型在昇腾云上运行更流畅,满足业务需求。

      10. 训练性能优化(适用于标准版、专业版、铂金版迁移服务)
        1. 目的:通过端到端性能数据采集、性能瓶颈识别、参数配置优化、内存优化、并行策略优化、融合算子优化以及调度优化和通信优化,全面优化模型训练性能,精准定位并解决性能瓶颈,提升训练效率,确保模型在昇腾云上高效训练,加速收敛,满足业务需求。
        2. 服务内容:

          服务内容

          服务详细描述

          端到端性能数据采集

          在模型训练过程中,全面采集端到端性能数据,涵盖训练时间、资源利用率等关键指标。深入分析性能表现,精准定位问题,优化训练性能提升。

          性能瓶颈识别

          借助性能数据分析,精准识别模型训练过程中的性能瓶颈。明确优化的关键点与方向,为后续优化提供清晰指引,推动训练性能突破瓶颈。

          参数配置优化

          依据性能瓶颈分析结果,对模型训练的参数配置进行精细优化。合理调整参数值,充分挖掘模型训练潜力,显著提升训练性能,实现高效训练。

          内存优化

          针对模型训练过程中的内存使用,实施优化措施。减少内存占用,提高内存利用率,有效避免内存瓶颈,保障训练过程顺畅高效。

          并行策略优化

          优化模型训练的并行策略,灵活调整并行模式和参数。充分发挥昇腾云强大的并行计算能力,显著提升训练效率,加速模型收敛。

          融合算子优化

          对模型训练中的算子进行融合优化,减少算子数量,降低计算复杂度。提升训练效率,为模型训练加速,优化整体性能表现。

          调度优化和通信优化

          优化模型训练的调度策略和通信机制,减少通信开销,提高任务调度效率。全方位提升训练性能,确保训练过程高效协同。

      11. 模型验收(适用于基础版、标准版、专业版、铂金版迁移服务)
        1. 目的: 通过模型精度测试、性能测试以及源码与脚本移交,确保模型在昇腾云上精度达标、性能优异,交付成果准确可靠,为模型的稳定应用和项目落地提供坚实保障,满足业务需求。
        2. 服务内容:

          服务内容

          服务详细描述

          模型精度测试

          在昇腾云上对模型精度进行全面测试,涵盖推理精度和训练精度。严格验证模型输出结果,确保其符合预期且满足业务要求,为模型的稳定应用提供精准保障。

          模型性能测试

          全面测试模型在昇腾云上的性能,包括推理性能和训练性能。精准评估模型运行效率,确保性能达到优化目标,满足业务对高效运行的需求。

          源码与脚本移交

          将优化后的模型源码和脚本完整移交给相关方,确保交付内容准确无误。保障后续工作的顺利开展,为项目落地提供有力支持。

    2. 应用迁移适配服务
      应用上云服务内容:

      服务内容

      服务详细描述

      应用现状与需求调研

      应用上云调研:采用访谈或问卷等方式进行应用上云迁移信息及模型现状调研,在各层级调研的过程中搜集客户源端业务、资源、服务等各方面的需求,为上云迁移设计提供必要的信息;模型场景调研:通过深入调研昇腾云迁移前后的硬件环境、模型相关情况以及性能基线,精准获取关键信息,明确硬件优劣、模型结构与功能以及性能基准。

      应用上云评估

      应用上云评估:基于收集到的现状和需求,从安全性、可用性、可扩展性、性能和成本等角度,给出关键发现,并技术架构维度给出优化建议;针对客户应用所涉及的云服务,从产品能力、产品规格、可靠性、资源和架构等角度评估云服务满足度,识别出迁移风险;模型迁移评估:通过梳理模型调研结果,深入分析当前业务现状与潜在需求,全面评估上云的可行性,并重点考察昇腾云服务的满足度以及迁移交付方案的可操作性。

      应用上云规划

      利用6R方法论给出上云策略,按照迁移分组规划和迁移优先级规划原则,规划上云批次,确保后续高效率的迁移。

      上云目标架构设计

      基于扩展性、高可用及容灾、性能、安全性、成本效益等原则,设计云上技术架构,输出应用上云目标技术架构方案。

      迁移方案设计

      应用上云迁移方案设计:根据云上目标技术架构,结合应用所涉及的云服务,进行云服务的迁移工具选型,输出上云迁移方案;如果涉及云服务改造,需要在迁移方案中补充改造方案。ITA协助客户制定业务测试方案,准备测试用例。结合客户切换需求(停服/不停服等)输出切换Runbook详细步骤;模型迁移方案设计:通过制定迁移、加速、脚本改造、优化实施及算子预检方案,全方位保障模型迁移至昇腾云的高效性、兼容性和性能优化,确保迁移过程平稳有序、模型运行流畅。

      环境部署

      在测试环境中,根据云上目标技术架构,ITA配合客户开通云服务资源。对于需要重新部署的业务,ITA配合客户进行业务部署,对无需重新部署可直接迁移的业务,ITA申请迁移工具云服务,打通源端到目的端的迁移环境,并实施迁移。迁移完成后,客户主导进行功能和性能测试。

      测试验证

      验证目标环境及迁移环境,在环境准备完成后,根据runbook,在测试环境进行割接和回退演练,割接演练后,进行演练复盘,根据复盘结论优化割接回退runbook;多轮切换演练,确定Runbook。

      迁移实施

      应用上云迁移实施:在生产环境中资源发放完成后,ITA配合客户进行业务部署或业务相关各原子产品的迁移实施;模型迁移实施:部署模型运行所需的开发编译环境,并进行模型适配和模型调优。

      系统切换

      基于优化后的割接runbook,正式在生产环境中切换。

      业务验证

      客户主导,ITA配合执行功能、可靠性及性能测试;模型测试。

      切换后保障

      组建割接后保障团队,覆盖PM、SRE、TAM、OPS等角色,建立初步的监控机制。

      移交

      移交相应文档,如果客户有需求,为客户提供用户培训。

  • AI平台实施服务

    服务描述:

    服务规格

    SKU编码

    服务内容

    适用场景

    AI平台实施服务-基础版

    modelarts.service.aipis.basic

    针对资源调度定制化、其他平台对接算力集群、本地化部署等场景,向客户提供架构方案实施、资源发放、云服务开通、平台部署实施、训推方案实施、调测等服务。

    MA集群规模达到64卡

    AI平台实施服务-标准版

    modelarts.service.aipis.standard

    针对资源调度定制化、其他平台对接算力集群、本地化部署等场景,向客户提供架构方案实施、资源发放、云服务开通、平台部署实施、训推方案实施、调测等服务。

    MA集群规模达到64-256卡

    AI平台实施服务-专业版

    modelarts.service.aipis.professional

    针对资源调度定制化、其他平台对接算力集群、本地化部署等场景,向客户提供架构方案实施、资源发放、云服务开通、平台部署实施、训推方案实施、调测等服务。

    MA集群规模达到64-1024卡

    AI平台实施服务-铂金版

    modelarts.service.aipis.platinum

    针对资源调度定制化、其他平台对接算力集群、本地化部署等场景,向客户提供架构方案实施、资源发放、云服务开通、平台部署实施、训推方案实施、调测等服务。

    MA集群规模达到1024以上

    训练实施服务

    modelarts.service.aitis

    1、跨地域训练方案原型设计与验证:开展跨地域训练的系统架构设计与关键技术验证,搭建测试环境,确保方案可行性。

    2、跨地域训练方案实施变更及业务验证支持:根据设计方案进行部署和技术迭代,提供业务对接,保障训练流程稳定可靠。

    3、跨地域训练方案性能验证与优化支持:通过性能测试分析系统瓶颈,优化网络通信与计算资源调度,提升训练效率与整体系统稳定性。

    训练实施服务适用于数据分散型、算力资源分布不均型企业,以及追求低延迟训练、大规模模型训练和多地域协同研发的场景,可解决数据传输、算力调配、训练效率等问题,助力企业实现高效智能训练。

    资源池实施服务

    modelarts.service.airis

    资源池实施包涵资源需求管理与交付方案设计,资源池整合方案设计,资源整合实施,资源整合重保,资源搬迁

    适用于客户有资源池整合的场景。

  • AI平台开发支持服务

    服务描述:

    服务规格

    SKU编码

    服务内容

    适用场景

    AI平台开发支持服务-基础版

    modelarts.service.platformdevelopmentsupport10

    1.SDK、API使用指导:帮助客户在本地环境调用SDK及API进行业务使用

    2.第三方模型对接:第三方模型的应用集成调测支持服务,确保模型接口稳定调用

    3.开发环境搭建指导:对于需要在云上调试代码的客户,进行云上开发环境依赖的搭建指导

    4.训练、推理过程答疑:针对在使用AI平台的训练或推理服务过程中存在问题的客户进行问题解答

    5.模型开发调测支持:基于AI平台为客户提供模型迁移、训练推理调测的技术支持,保障客户会用AI平台进行模型开发,助力客户高效开发与调测模型

    6.AI平台开发技术栈支持:围绕昇腾异构计算架构、AI框架、AI平台最佳实践以及工具链等方面,为客户提供技术保障服务

    适用于轻量开发场景的客户,涉及应用集成接口调用等相关开发场景。

    AI平台开发支持服务-标准版

    modelarts.service.platformdevelopmentsupport

    适用于中度开发场景的客户,涉及环境搭建,推理部署调测、应用集成等相关开发场景。

    AI平台开发支持服务-专业版

    modelarts.service.platformdevelopmentsupport80

    适用于中度开发场景的客户,涉及环境搭建,模型迁移、模型训练调测等相关开发场景。

    AI平台开发支持服务-铂金版

    modelarts.service.platformdevelopmentsupport150

    适用于深度开发场景的客户,涉及模型训练调测、推理部署调测、性能优化、精度对齐等相关开发场景。

    AI平台开发支持服务-旗舰版

    modelarts.service.platformdevelopmentsupport360

    适用于深度开发场景的客户,涉及开发环境搭建,模型迁移、模型训练调测、推理部署调测、应用集成、性能优化、精度对齐等相关开发场景。

    推理技术支持服务

    modelarts.service.aiits

    模型推理调测支持围绕模型量化、离线部署、在线部署及PD分离等关键场景,优化模型结构与参数,确保模型在不同部署环境下的稳定性和低延迟,保障推理服务的高效响应。模型调优支持凭借专业工具和算法,对模型进行精度对齐和性能调优,平衡模型的准确性和运行效率,使其在实际应用中实现性能最大化。

    为客户提供环境搭建、模型推理、模型调优等端到端技术支持服务,确保客户在昇腾云AI平台完成模型开发。适用于本地化部署需求的客户;央国企、政务类客户;行业场景深度定制客户。

    训练技术支持服务

    modelarts.service.aitts

    模型训练调测支持聚焦预训练和微调等环节,依据客户业务场景和数据特性,助力客户高效利用计算资源,加速模型收敛,提升模型泛化能力。模型调优支持凭借专业工具和算法,对模型进行精度对齐和性能调优,平衡模型的准确性和运行效率,使其在实际应用中实现性能最大化。

    为客户提供环境搭建、模型训练、模型调优等端到端技术支持服务,确保客户在昇腾云AI平台完成模型开发。适用于本地化部署需求的客户;央国企、政务类客户;行业场景深度定制客户。

前提条件

  • 客户应提前至少10工作日申请该服务,以便于华为云评估客户需求及协调AI专家。
  • 双方达成一致的咨询服务目标,并完成合同签订。
  • 昇腾云脑平台规划与设计服务、CloudMatrix昇腾云脑定制开发服务、智算集群规划与设计服务、应用与智能体编排服务为受限销售,具体情况请咨询售前。

服务范围

  1. 服务覆盖范围
    • AI平台场景化建模开发服务:

      昇腾云AI平台场景化建模开发服务主要面向千行百业中有行业实际场景需求,并希望通过AI相关技术去解决这些需求的客户。华为云侧将基于AI平台,结合客户业务场景,提供专业的场景化建模开发服务。能够帮助企业快速集成AI平台能力到业务应用,针对计算机视觉、机器学习、NLP、决策优化等场景;工业质检、声音质检、工艺优化、零售识别、智能调度等行业,提供场景化建模开发、部署,以及应用与智能体开发。

      • 调研客户业务场景和痛点、业务系统、数据和模型的现状,明确业务目标。
      • 基于需求及现状分析与评估结果,进行场景化建模开发方案、数据方案、模型评测方案、部署方案、应用编排方案的设计、实施,以及功能及性能测试
    • AI平台场景化建模调优服务:

      华为面向各行业AI应用的开发与研究,提供AI平台场景化建模调优服务。针对客户不同阶段的需求,提供包括从AI平台场景化建模调优的开发与实施及模型的蒸馏、微调、增训服务。能够帮助企业快速集成AI平台能力到业务应用,针对计算机视觉、机器学习、NLP、决策优化等场景;工业质检、声音质检、工艺优化、零售识别、智能调度等行业,提供场景化建模调优,以及针对DeepSeek系列模型提供蒸馏、微调、增训服务,助力企业打造有思维能力的领域或行业大模型。

    • 昇腾云服务迁移适配服务:

      华为面向各行业AI模型/应用的开发与研究,提供昇腾云服务迁移适配服务,涵盖从模型迁移、精度对齐、性能调优到模型部署的全流程支持。本服务包括开源模型和自定义模型的迁移适配、GPU迁移支持、多模型场景适配以及开发环境与样例支持,适用于客户自主适配、深度迁移适配等场景。通过远程或现场支持,华为帮助客户高效完成迁移适配,解决技术难题,实现AI解决方案的端到端落地,助力业务价值快速实现。

    • AI平台实施服务:

      华为面向各行业AI应用的开发与研究,提供AI平台实施服务。针对资源调度定制化、其他平台对接算力集群、本地化部署场景,向客户提供架构方案实施、训练实施、资源发放、云服务开通、平台部署实施、调测等服务。

    • AI平台开发支持服务:

      华为面向各行业AI应用的开发与研究,提供AI平台平台规划设计与安装实施服务。针对客户不同阶段的需求,提供SDK/API使用指导、三方模型对接、开发环境搭建、模型开发调测、训/推过程答疑、AI平台开发技术栈的支持服务。

  2. 服务不覆盖范围

    华为AI工程师只负责本工作说明书所载明的服务,提供不在服务范围内的服务需要额外付费。不在服务范围内的服务包括但不限于如下所示内容:

    • 应客户要求超出正常工作日和工作时间的相关工作(注:涉及加班工资和补助)。
    • 外购件产品。
    • 超出项目方案约定范围的客户业务相关的开发维护工作。

    AI平台开发支持服务:

    AI平台开发支持服务工程师只负责本工作说明书所载明的服务,不承接客户具体开发工作,不承诺最终模型或业务效果,不参与客户应用软件开发,不包含第三方软件,不包含外购件产品。

    提供不在服务范围内的服务根据情况需要额外付费。不在服务范围内的服务包括但不限于如下所示内容:

    • 应客户要求超出正常工作日和工作时间的相关工作(注:涉及加班工资和补助)。
    • 离开常驻工作地前往其它城市进行相关工作(注:可能涉及费用包含但不限于差旅费、住宿费、附加通讯费等)
    • 承接客户具体开发工作。
    • 参与客户应用软件开发。
    • 第三方软件,外购件产品。
    • 超出产品能力范围外的技术支持服务。
    • 超出项目方案约定范围的客户业务相关的开发支持工作。
  3. 服务区域

中国站、国际站、欧洲站(配套产品出海策略)

服务流程

  • AI平台场景化建模开发服务

    服务阶段

    服务说明

    场景调研

    明确开发、部署服务的需求范围及评估可行性。

    方案设计

    进行开发、部署服务方案设计。

    适配实施

    实施场景化建模、部署等方案。

    验收

    客户验证交付件中的内容事项,签字确认《AI平台开发与实施服务验收报告》。

    移交

    项目完成,相关交付件移交给客户。

  • AI平台场景化建模部署服务

    服务阶段

    服务说明

    环境准备

    检查、开通、部署相关资源,准备模型权重并制作推理镜像。

    环境部署

    配置推理参数、制作推理脚本并启动推理服务。

    部署验证

    进行功能、性能、精度测试。

    验收

    客户验证交付件中的内容事项,签字确认《AI平台开发与实施服务验收报告》。

    移交

    项目完成,相关交付件移交给客户。

  • 应用与智能体编排服务

    服务阶段

    服务说明

    编排需求调研

    完成业务场景调研,对齐需求规格。

    应用编排方案设计

    完成云上组件选型与确认,数据流设计和UX设计。

    编排实施

    依据应用编排技术方案,开发组件及编排实施,并完成知识库构建。

    验收上线

    完成效果验证并按需持续优化。

    移交

    项目完成,相关交付件移交给客户。

  • AI平台场景化建模调优服务

    服务步骤

    服务说明

    模型调优方案设计

    分析客户实际业务场景中的精度、性能基线,设计模型加速方案,以确保模型调优后能达到基线要求。

    模型性能调优

    使用模型性能调优工具,采集并分析框架+CANN软件栈+昇腾硬件端到端的性能数据,可视化呈现相关性能指标和调优建议,借助专家性能调优经验,优化模型性能。

    模型精度调优

    结合精度对比工具,dump下整网&各层数据,根据采集到的精度数据,定位问题API和溢出数据,通过数据归一化、数据类型调整,高精度算子适配等手段,分析原因并进行优化。

    场景验证

    验证模型训练/推理吞吐等性能指标,以及调优后的模型在实际场景中的精度表现。

    服务验收

    客户验证交付件中的内容事项,签字确认《AI平台开发与实施服务验收报告验收报告》。

  • 模型蒸馏服务

    服务步骤

    服务说明

    场景分析

    分析客户业务场景、数据状况和模型基础,明确蒸馏目标和需求,确定模型输入输出、运行环境及性能要求。

    蒸馏方案设计

    明确蒸馏目标与需求,确定模型输入输出、运行环境及性能要求,选择合适的学生模型,制定包含数据微调和强化学习的蒸馏策略。

    蒸馏数据实施

    依照蒸馏方案,挑选领域和通用数据集,用行业数据生成种子数据,借助教师模型生成并优化教师数据,最后合理配比通用数据与教师数据,为模型蒸馏准备高质量数据。

    蒸馏方案实施

    利用SFT、LoRA、RFT等技术微调模型,通过DPO、PPO、GPRO等强化学习方法优化模型性能,借助混合精度训练加速、模型量化等手段提升模型运行效率,完成模型优化与训练。

    蒸馏场景验证

    对蒸馏后的学生模型进行全面端到端测试,与蒸馏前模型对比性能、吞吐量、时延和内存占用等指标,再将其置于实际业务场景,验证模型性能与业务指标的匹配度,确保蒸馏效果满足预期。

    服务验收

    客户验证交付件中的内容事项,签字确认《模型蒸馏服务验收报告》。

  • 模型增训服务

    服务步骤

    服务说明

    增训方案设计

    明确增训的合理性和可行性,明确训练数据、模型训练、模型评测方案细节。

    增训数据方案实施

    数据获取,数据处理,数据评估,数据配比,数据安全保障。

    增训模型方案实施

    进行环境准备工作,启动增训工作流,并提供精度和性能调优服务。

    增训场景验证

    进行精度性能验证,模型评估,业务效果评估验证。

    验收

    客户验证交付件中的内容事项,签字确认《DeepSeek模型增训服务验收报告》。

    移交

    项目完成,相关交付件移交给客户。

    交付确认

    确认交付件准确性和完整性,确认项目完成。

  • 模型微调服务

    服务步骤

    服务说明

    场景方案设计

    根据客户业务需求和数据状况,选择合适的微调路线,如监督微调(SFT、LoRA、QLoRA)训练场景等。

    数据方案设计

    针对不同的微调路线,设计相应的数据方案,包括数据的采集、标注、清洗、审核等步骤。

    模型方案设计

    根据客户的需求和硬件资源情况,配置模型的超参数,如学习率、批量大小、训练轮数等。

    评测方案设计

    构建评测数据集,包括从客户实际业务中抽取的具有代表性的样本。以及指定模型评测标准,用于评估模型效果。

    数据方案实施

    数据采集:从客户的业务系统、数据库、日志文件等渠道采集相关数据。

    数据标注:按照设计的指令格式与任务要求,对采集的数据进行标注。

    数据清洗:去除重复、错误、无用的数据记录,处理缺失值等问题。

    数据蒸馏:使用基于行业的Prompt数据从模型中获取答案,并将问题与答案构建为指令数据。

    数据配比:根据客户行业数据的特点和模型训练的需求,确定行业数据与通用数据的配比。

    模型开发环境准备

    确保有适当的硬件和软件环境。可以使用昇腾云服务平台获取计算资源。安装必要的依赖库和工具。

    模型微调训练

    采用 SFT、LoRA、QLoRA 等微调训练方法,根据设计好的微调方案对模型进行训练。

    模型效果调优

    在训练过程中,密切关注模型的损失值、准确率等指标的变化,及时调整训练参数和策略。

    微调场景验证

    精度性能验证:验证模型训练吞吐等性能、训练 loss 是否收敛等指标。

    模型评估验证:基于构建的评测集,客观评估模型打分结果。

    业务效果验证:根据正确性、完整性、相关性、有效性、通顺性等标准,根据业务场景,主观对模型的生成结果或预测结果进行详细的评测。

  • 昇腾云服务迁移适配服务 – 模型迁移交付流程

    服务阶段

    服务说明

    调研评估

    进行业务场景调研和分析,分析模型迁移前后硬件环境、模型源码、参数配置、模型权重和数据集、模型精度、性能基线等,评估上云可行性,分析昇腾云服务满足度和迁移交付方案可行性。

    方案设计

    依据调研表内容,预计工作量,进行统一设计,规划AI模型迁移过程中的操作步骤,形成此次迁移计划,输出迁移方案,进行资源需求锁定;并明确交付范围、服务范围以及验收方式指标等。

    迁移实施

    协助客户进行网络/模型迁移、环境部署、适配验证等操作。

    模型调优

    针对模型推理和训练进行精度和性能调优,包括权重转换、Loss对齐等调优操作。

    模型验收

    客户对模型精度、性能进行测试验收,并移交相应脚本及报告,验证迁移报告中的内容事项签字确认《AI平台开发与实施服务验收报告》 。

  • 昇腾云服务迁移适配服务 – 应用迁移交付流程

    服务阶段

    服务说明

    应用上云调研与评估

    深入调研客户应用现状、业务架构及模型,精准把握痛点与需求,结合上云可行性评估,科学规划上云路径,确保迁移高效稳定,保障业务连续性,助力客户平稳迈向云端高效运行。

    应用和上云规划

    提供全面的上云服务,运用6R策略精准规划上云路径,结合客户意愿灵活安排批次。精心设计高并发、灾备、分层高可用的云上架构,构建高效运维与安全体系,全方位保障系统稳定运行,助力客户安心上云。

    架构和方案设计

    提供高效云上部署服务,通过高并发设计、灾备架构、分层高可用,结合运维监控与安全防护,保障系统稳定运行。同时,制定模型与应用迁移、测试方案,确保迁移到昇腾云后数据无损、性能可靠,全方位提升应用迁移质量与效率。

    目标环境部署与测试

    配合客户开通云服务资源,进行业务部署,对无需重新部署可直接迁移的业务,申请迁移工具云服务,打通源端到目的端的迁移环境,并实施迁移,迁移完成后,客户主导进行功能和性能测试。

    迁移实施

    通过模型迁移适配、调优及应用迁移适配,确保模型与应用在云端高效集成运行,保障数据一致性、完整性和可用性。同时,在NPU高效部署模型,封装安全可扩展API,平稳切换正式系统,全面验证业务功能与性能,满足业务需求,助力云端业务稳定高效运行。

    系统切换

    基于优化后的割接runbook,正式在生产环境中切换,客户主导,ITA配合执行功能、可靠性及性能测试。

    保障移交

    移交相应文档,如果客户有需求,为客户提供用户培训,验证迁移报告中的内容事项签字确认《AI平台开发与实施服务验收报告》。

  • AI平台实施服务服务

    服务阶段

    服务说明

    场景调研

    剖析客户的硬件资源及机器组网,判断和识别AI平台训练与推理在该场景中的部署方案,给出集群规模组成建议,提供业内合适成功案例作参考。

    需求分析

    基于业务场景需求分析,包含训练平台功能分析/推理平台功能分析

    方案设计

    根据需求场景分析结果,综合性能和安全的前提下,给出AI平台总体方案设计。包括:集群网络设计,集群大小评估,训练、推理平台功能规划,训练、推理平台部署实施上线等。

    部署实施

    在客户实际项目中AI平台的网络部署、架构部署,以及AI平台扩容实施。

  • AI平台开发支持服务服务

    服务阶段

    服务说明

    SDK、API使用指导

    帮助客户在本地环境调用SDK及API进行业务使用。

    第三方模型对接

    第三方模型的应用集成调测支持服务,确保模型接口稳定调用。

    开发环境搭建指导

    对于需要在云上调试代码的客户,进行云上开发环境依赖的搭建指导。

    训练、推理过程答疑

    针对在使用AI平台的训练或推理服务过程中存在问题的客户进行问题解答。

    模型开发调测支持

    基于AI平台为客户提供模型迁移、训练推理调测的技术支持,保障客户会用AI平台进行模型开发,助力客户高效开发与调测模型。

    AI平台开发技术栈支持

    围绕昇腾异构计算架构、AI框架、AI平台最佳实践以及工具链等方面,为客户提供技术保障服务。

服务交付件

  • AI平台场景化建模开发服务

    服务名称

    交付件

    AI平台场景化建模开发服务-基础版

    《基于AI平台实现的场景化建模UseCase开发手册及指导》

    《基于AI平台实现的场景化建模开发服务测试报告》

    AI平台场景化建模开发服务-标准版

    AI平台场景化建模开发服务-专业版

    AI平台场景化建模开发服务-铂金版

    AI平台场景化建模部署服务-基础版

    《基于AI平台实现的场景化建模模型使用手册》

    AI平台场景化建模部署服务-标准版

    AI平台场景化建模部署服务-专业版

    AI平台场景化建模部署服务-铂金版

    智算集群规划与设计服务

    《智算集群规划设计及安装指导》

    大模型训练平台规划与设计服务

    《大模型训练平台规划设计及安装指导》

    昇腾云脑平台规划与设计服务

    《昇腾云脑平台规划设计及安装指导》

    CloudMatrix昇腾云脑定制开发服务

    《基于昇腾云脑实现的场景化建模UseCase开发手册及指导》

    应用与智能体编排服务-标准版

    《应用与智能体编排开发报告》

    应用与智能体编排服务-专业版

  • AI平台场景化建模调优服务

    服务名称

    交付件

    AI平台场景化建模调优服务-基础版

    《基于AI平台实现的场景化建模模型优化验证结果》

    AI平台场景化建模调优服务-标准版

    AI平台场景化建模调优服务-专业版

    AI平台场景化建模调优服务-铂金版

    模型蒸馏服务-基础版

    《AI平台场景化建模调优服务-模型蒸馏服务开发报告》

    模型蒸馏服务-专业版

    模型蒸馏服务-铂金版

    模型增训服务-基础版

    《AI平台场景化建模调优服务-模型增训服务开发报告》

    模型增训服务-专业版

    模型增训服务-铂金版

    模型增训服务-基础版

    《AI平台场景化建模调优服务-模型增训服务开发报告》

    模型增训服务-专业版

    模型增训服务-铂金版

    模型微调服务-基础版

    《AI平台场景化建模调优服务-模型微调服务开发报告》

    模型微调服务-专业版

    模型微调服务-铂金版

  • 昇腾云服务迁移适配服务

    服务名称

    交付件

    昇腾云服务迁移适配服务-基础版

    《昇腾云服务使用指导》

    昇腾云服务迁移适配服务-标准版

    《昇腾云服务迁移适配服务-需求调研表》

    《昇腾云服务迁移适配服务测试报告》

    《昇腾云服务迁移指导》

    昇腾云服务迁移适配服务-专业版

    昇腾云服务AI模型迁移服务-每模型

    昇腾云服务应用迁移服务-每应用

    《昇腾云服务应用迁移指导》

  • AI平台实施服务

    服务名称

    交付件

    AI平台实施服务-基础版

    《AI训练平台交付功能清单》/《AI推理平台交付功能清单》+《AI平台功能推荐报告》

    AI平台实施服务-标准版

    AI平台实施服务-专业版

    AI平台实施服务-铂金版

    训练实施服务

    《训练实施服务开发报告》

    资源池实施服务

    《资源池实施服务清单模板》

    基于ModelArts训练平台/ ModelArts推理平台,选择对应的《AI xx平台交付功能清单》

  • AI平台开发支持服务

    服务名称

    交付件

    AI平台开发支持服务-基础版

    《XXX项目开发支持问题跟踪表》

    《AI平台开发支持专业服务报告》

    AI平台开发支持服务-标准版

    AI平台开发支持服务-专业版

    AI平台开发支持服务-铂金版

    AI平台开发支持服务-旗舰版

    推理技术支持服务

    训练技术支持服务

责任矩阵

  • 共同责任
    • 双方商定并确认具体的业务需求及目标。
    • 双方商定并确认项目管理计划。
    • 双方商定并确认方案内容并评审。
    • 完成合同签订。
  • 华为责任
    • 华为云需明确此次项目的负责人,因特殊情况导致华为人员变更,需要提前3个工作日知会客户,直至项目最终验收完成。
    • 华为云得到客户授权后,授权数据仅限用于专业服务中涉及的服务内容,不得超出限定范围。
    • 咨询前,按照客户所选服务项,制定指导计划和报价清单供客户审核确认。
    • 咨询期间,依确认后的计划为指定客户进行技术指导。
    • 咨询结束后,根据所选咨询服务项,出具交付件清单。
    • 接收用户的服务申请,协调ModelArts平台专家与客户商定详情。
  • 客户责任
    • 提供详细准确的需求和场景。
    • 提供项目实施的必须件,比如:训练数据等。
    • 审核并确认华为提供的指导计划和交付件。
    • 执行项目验收。

责任分工矩阵表

  • AI平台场景化建模开发服务

    以下为职责描述案例,可酌情修改;

    R=责任方/Responsibility

    S=协助方/Support

    备注:如果是华为提供技术支持的服务内容,实施动作责任方为客户。

    序号

    服务流程

    工作内容

    华为

    客户

    1

    需求提出

    业务场景讲解,明确需求

    S

    R

    2

    需求理解

    需求理解与关键问题定义

    R

    S

    3

    需求确认

    需求确认,验收项确认

    S

    R

    4

    方案设计

    场景建模设计

    R

    S

    5

    方案汇报

    建模方案汇报

    R

    R

    6

    方案确认

    建模方案确认

    S

    R

    7

    方案实施

    模型开发&部署,系统对接

    R

    S

    8

    方案验收

    功能&性能验收

    S

    R

    9

    项目移交

    交付件整理与交接

    R

    S

    10

    交付确认

    确认交付件准确性和完整性,确认项目完成

    S

    R

  • AI平台场景化建模调优服务

    以下为职责描述案例,可酌情修改;

    R=责任方/Responsibility

    S=协助方/Support

    备注:如果是华为提供技术支持的服务内容,实施动作责任方为客户。性能调优的特殊性,导致调优方案设计与实施的顺序可能依据具体项目情况调整。

    序号

    服务流程

    工作内容

    华为

    客户

    1

    需求提出

    业务场景讲解,明确优化需求

    S

    R

    2

    需求理解

    需求理解与关键问题定义

    R

    S

    3

    需求确认

    需求确认,验收项确认(关键指标)

    S

    R

    4

    方案设计

    优化方案设计

    R

    S

    5

    方案汇报

    优化方案汇报

    R

    R

    6

    方案确认

    优化方案确认

    S

    R

    7

    方案实施

    优化方案实施

    R

    S

    8

    方案验收

    优化性能验收

    S

    R

    9

    项目移交

    交付件整理与交接

    R

    S

    10

    交付确认

    确认交付件准确性和完整性,确认项目完成

    S

    R

  • 昇腾云服务迁移适配服务 – 模型迁移

    以下为职责描述案例,可酌情修改;

    R=责任方/Responsibility

    S=协助方/Support

    备注:如果是华为提供技术支持的服务内容,实施动作责任方为客户。

    序号

    服务流程

    工作内容

    华为

    客户

    1

    调研评估

    业务场景讲解,明确迁移需求,理解需求与关键问题定义,并评估上云可行性

    R

    S

    2

    方案设计

    模型迁移、模型加速、脚本改造、算子预检方案设计,明确交付方案、服务范围、交付计划及验收方式及指标

    R

    S

    3

    迁移实施

    协助客户进行网络/模型迁移、环境部署、适配验证等操作

    R

    S

    4

    模型调优

    针对模型推理和训练进行精度和性能调优,包括权重转换、Loss对齐等调优操作

    R

    S

    5

    模型验收

    模型精度、性能测试进行验收

    S

    R

    6

    项目移交

    交付件整理与交接

    R

    S

    7

    交付确认

    确认交付件准确性和完整性,确认项目完成

    S

    R

  • 昇腾云服务迁移适配服务 – 应用迁移

    以下为职责描述案例,可酌情修改;

    R=责任方/Responsibility

    S=协助方/Support

    备注:如果是华为提供技术支持的服务内容,实施动作责任方为客户。

    序号

    服务流程

    工作内容

    华为

    客户

    1

    应用上云调研与评估

    业务场景讲解,明确迁移需求,理解需求与关键问题定义,并评估上云可行性。

    R

    S

    2

    应用上云规划

    运用6R策略及依据客户上云意愿和优先级规划上云批次,实现高效、有序的上云迁移。

    R

    S

    3

    架构和方案设计

    通过高并发设计、灾备架构、分层高可用,结合运维监控与安全防护,同时,制定模型与应用迁移、测试方案。

    R

    S

    4

    目标环境部署与测试

    配合客户开通云服务资源,进行业务部署,对无需重新部署可直接迁移的业务,申请迁移工具云服务,打通源端到目的端的迁移环境,并实施迁移,迁移完成后,客户主导进行功能和性能测试。

    R

    S

    5

    迁移实施

    模型迁移适配、调优及应用迁移适配,在NPU高效部署模型,封装安全可扩展API,平稳切换正式系统,全面验证业务功能与性能。

    R

    S

    6

    系统切换

    基于优化后的割接runbook,正式在生产环境中切换,客户主导,ITA配合执行功能、可靠性及性能测试。

    R

    S

    7

    保障移交

    交付件整理与交接,如果客户有需求,为客户提供用户培训。

    R

    S

    8

    交付确认

    确认交付件准确性和完整性,确认项目完成。

    S

    R

  • AI平台实施服务

    以下为职责描述案例,可酌情修改;

    R=责任方/Responsibility

    S=协助方/Support

    备注:如果是华为提供技术支持的服务内容,实施动作责任方为客户。

    序号

    服务流程

    工作内容

    华为

    客户

    1

    需求提出

    业务场景讲解,明确需求

    S

    R

    2

    需求理解

    需求理解与关键问题定义

    R

    S

    3

    需求确认

    需求确认,验收项确认

    S

    R

    4

    方案设计

    完成业务场景调研,明确客户业务痛点,输出基于ModelArts平台的设计说明书

    R

    S

    5

    方案实施

    提供约定由AI平台输出的部署方案,约定由AI平台输出的集群规模

    R

    S

    6

    项目验收

    客户验收

    S

    R

    7

    项目移交

    交付件整理与交接

    R

    S

    8

    交付确认

    确认交付件准确性和完整性,确认项目完成

    S

    R

  • AI平台开发支持服务

    以下为职责描述案例,可酌情修改;

    R=责任方/Responsibility

    S=协助方/Support

    备注:如果是华为提供技术支持的服务内容,实施动作责任方为客户。

    序号

    服务流程

    工作内容

    华为

    客户

    1

    需求调研

    业务场景讲解,明确需求

    R

    S

    2

    开发支持

    SDK/API使用指导、三方模型对接、开发环境搭建、模型开发调测、训/推过程答疑、AI平台开发技术栈

    R

    S

    3

    验收交付

    输出交付件,并确认交付件准确性和完整性,确认交付完成

    R

    R

验收标准

华为按各服务子项提交“服务交付件”章节所述标准交付件,客户在华为云官网Console点击确认验收,或线下签字盖章《AI平台开发与实施服务验收报告》作为服务验收通过依据。

  • AI平台场景化建模开发服务

    服务名称

    交付件

    验收报告

    AI平台场景化建模开发服务-基础版

    《基于AI平台实现的场景化建模UseCase开发手册及指导》

    《基于AI平台实现的场景化建模开发服务测试报告》

    《AI平台开发与实施服务验收报告》

    AI平台场景化建模开发服务-标准版

    AI平台场景化建模开发服务-专业版

    AI平台场景化建模开发服务-铂金版

    AI平台场景化建模部署服务-基础版

    《基于AI平台实现的场景化建模模型使用手册》

    AI平台场景化建模部署服务-标准版

    AI平台场景化建模部署服务-专业版

    AI平台场景化建模部署服务-铂金版

    智算集群规划与设计服务

    《智算集群规划设计及安装指导》

    大模型训练平台规划与设计服务

    《大模型训练平台规划设计及安装指导》

    昇腾云脑平台规划与设计服务

    《昇腾云脑平台规划设计及安装指导》

    CloudMatrix昇腾云脑定制开发服务

    《基于昇腾云脑实现的场景化建模UseCase开发手册及指导》

    应用与智能体编排服务-标准版

    《应用与智能体编排开发报告》

    应用与智能体编排服务-专业版

  • AI平台场景化建模调优服务

    服务名称

    交付件

    验收报告

    AI平台场景化建模调优服务-基础版

    《基于AI平台实现的场景化建模模型优化验证结果》

    《AI平台开发与实施服务验收报告》

    AI平台场景化建模调优服务-标准版

    AI平台场景化建模调优服务-专业版

    AI平台场景化建模调优服务-铂金版

    模型蒸馏服务-基础版

    《AI平台场景化建模调优服务-模型蒸馏服务开发报告》

    模型蒸馏服务-专业版

    模型蒸馏服务-铂金版

    模型增训服务-基础版

    《AI平台场景化建模调优服务-模型增训服务开发报告》

    模型增训服务-专业版

    模型增训服务-铂金版

    模型增训服务-基础版

    《AI平台场景化建模调优服务-模型增训服务开发报告》

    模型增训服务-专业版

    模型增训服务-铂金版

    模型微调服务-基础版

    《AI平台场景化建模调优服务-模型微调服务开发报告》

    模型微调服务-专业版

    模型微调服务-铂金版

  • 昇腾云服务迁移适配服务

    服务名称

    交付件

    验收报告

    昇腾云服务迁移适配服务-基础版

    《昇腾云服务使用指导》

    《AI平台开发与实施服务验收报告》

    昇腾云服务迁移适配服务-标准版

    《昇腾云服务迁移适配服务-需求调研表》

    《昇腾云服务迁移适配服务测试报告》

    《昇腾云服务迁移指导》

    昇腾云服务迁移适配服务-专业版

    昇腾云服务AI模型迁移服务-每模型

    昇腾云服务应用迁移服务-每应用

    《昇腾云服务应用迁移指导》

  • AI平台实施服务

    服务名称

    交付件

    验收报告

    AI平台实施服务-基础版

    《AI训练平台交付功能清单》/

    《AI推理平台交付功能清单》+

    《AI平台功能推荐报告》

    《AI平台开发与实施服务验收报告》

    AI平台实施服务-标准版

    AI平台实施服务-专业版

    AI平台实施服务-铂金版

    训练实施服务

    《训练实施服务开发报告》

    资源池实施服务

    《资源池实施服务清单模板》

  • AI平台开发支持服务

    服务名称

    交付件

    验收报告

    AI平台开发支持服务-基础版

    《XXX项目开发支持问题跟踪表》

    《AI平台开发支持专业服务报告》

    《AI平台开发与实施服务验收报告》

    AI平台开发支持服务-标准版

    AI平台开发支持服务-专业版

    AI平台开发支持服务-铂金版

    AI平台开发支持服务-旗舰版

    推理技术支持服务

    训练技术支持服务

ai模型开发常见问题

更多常见问题 >>
  • 模型转换,即将开源框架的网络模型(如Caffe、TensorFlow等),通过ATC(Ascend Tensor Compiler)模型转换工具,将其转换成昇腾AI处理器支持的离线模型。

  • 近年来越来越多的行业采用AI技术提升效率、降低成本,然而AI落地的过程确并不容易,AI在具体与业务结合时常常依赖于业务数据的采集、处理、模型训练、调优、编排、部署和运维等很多环节。华为云ModelArts是全流程AI开发平台,包含了AI应用的开发、部署和分享交易,通过解决AI开发各个环节所遇到的核心问题,ModelArts有效解决了AI落地难的问题,将极大促进AI技术的普惠。本议题将分享ModelArts的主要关键技术和应用案例。

  • 本次Serverless应用中心上线文生图应用,用户无需下载源代码、了解各种安装部署知识、安装复杂的依赖,通过华为云Serverless应用中心即可一键创建AI文生图应用,体验 “0” 构建门槛、“0” 资源闲置并具备极致弹性的Serverless AI绘图能力。

  • 华为云Serverless技术极大的优化了AI应用开发过程,一键部署AI应用、提升开发团队工作效率。让AI团队可以更关注业务实现,而无需关注底层技术细节。

  • AI开发的基本流程通常可以归纳为几个步骤:确定目的、准备数据、训练模型、评估模型、部署模型。

  • 盘古大模型致力于深耕行业,打造金融、政务、制造、矿山、气象、铁路等领域行业大模型和能力集,将行业知识know-how与大模型能力相结合,重塑千行百业,成为各组织、企业、个人的专家助手。