华为云用户手册

  • 应用场景 当前,基于Agent开发平台可以构建两种类型的Agent(智能体),一种是针对文本生成、文本检索的知识型Agent,如搜索问答助手、代码生成助手等,执行主体在大模型;另一种是针对复杂工作流场景的流程型Agent,如金融分析助手、网络检测助手等。 应用:以大模型为任务执行核心,用户通过配置Prompt、知识库、插件等信息,实现工具自主规划与调用,优点是可零码开发,对话过程更为智能,缺点是当大模型受到输入限制,难以执行链路较长且复杂的流程。 应用场景: 智能客服 场景:电商售前咨询、售后问题解答。 应用方式:通过配置Prompt和知识库,大模型直接理解用户问题(如退货政策、商品参数查询),调用插件获取订单信息,快速生成自然语言回复。 优势:无需复杂流程设计,能处理开放式提问,对话体验更接近真人。 教育辅导 场景:个性化学习答疑、知识点讲解。 应用方式:结合学科知识库和大模型推理能力,学生通过对话提问(如数学题解析),模型实时生成解题步骤并反馈。 优势:零代码快速覆盖多学科需求,灵活适应不同提问方式。 医疗咨询 场景:症状初步分析、健康建议。 应用方式:用户描述症状后,模型基于医学知识库生成可能病因,调用插件获取药品信息或推荐就医科室。 优势:交互自然,可快速迭代更新知识库以适配最新医疗指南。 工作流:以工作流为任务执行核心,用户通过在画布上对节点进行“拖拉拽”即可搭建出任务流程,场景的节点包括大模型节点、意图识别节点、提问器节点、插件节点、判断节点、代码节点、消息节点,优点是可扩展能力强,用户适当使用低码开发,缺点是对话交互智能度不高,复杂场景下分支多,难以维护。 应用场景 金融风控 场景:贷款审批、反欺诈审核。 工作流设计:通过节点串联实现多步骤审核(如调用征信接口→大模型分析收入证明→判断节点触发人工复核)。 优势:流程透明可控,分支条件清晰(如不同额度触发不同审批路径),避免大模型幻觉干扰关键决策。 供应链管理 场景:库存预警与自动补货、物流异常处理。 工作流设计:通过代码节点对接ERP系统,判断节点识别库存阈值,触发补货插件或邮件通知节点。 优势:复杂规则(如供应商优先级、物流延迟策略)可通过分支节点精准实现,稳定性高于纯模型驱动。 政务审批 场景:企业资质申报、惠民补贴发放。 工作流设计:串联意图识别节点(分类用户需求)、提问器节点(补全材料)、代码节点(验证数据合规性),最终由消息节点反馈结果。 优势:标准化流程减少人为错误,分支节点可覆盖政策差异化要求(如不同地区补贴标准)。 父主题: Agent开发平台介绍
  • MCP服务节点配置MCP服务节点配置 拖动左侧“MCP服务”节点至画布中如图1,在添加MCP服务窗口选择“个人服务”或“预置服务”页签,单击“添加”,将MCP服务添加至画布中。 图1 添加MCP服务节点 图2 添加 添加MCP服务后,将MCP服务节点与相关节点进行连接。 单击画布中已添加的“MCP服务”节点,在“工具”下拉选项中选择所需的工具如图3,完成MCP服务节点的配置。 图3 配置MCP服务节点
  • 对话型工作流、任务型工作流区别 工作流包含两种类型: 对话型工作流。面向多轮交互的开放式问答场景,基于用户对话内容提取关键信息,输出最终结果。适用于客服助手、工单助手、娱乐互动等场景。 任务型工作流。面向自动化处理场景,基于输入内容直接输出结果,无中间的对话交互过程。适用于内容生成、批量翻译、数据分析等场景。 任务型工作流不支持配置输入节点、消息节点和提问器节点。 表1 区别说明 差异项 对话型工作流 任务型工作流 适用场景 客服助手、工单助手、娱乐互动等场景。 内容生成、批量翻译、数据分析等场景。 节点 支持输入节点、消息节点、提问器节点。 不支持输入节点、消息节点、提问器节点。 试运行方式 试运行界面与任务型工作流不同。 若“开始”节点有多个参数,先对除query参数外的参数进行配置,然后再以对话窗口的形式进行试运行。 若“开始”节点有多个参数,在试运行时,需要对多个输入参数同时进行配置。
  • 使用流程 如何玩转Agent,使用Agent平台创建应用,使用流程分为以下六步: 熟悉平台,Agent平台预置了应用百宝箱,可在百宝箱中体验和熟悉各种应用,当然您也可以参考帮助文档学习相关内容; 创建前准备,在创建Agent之前您可以先创建需要使用到的插件、知识库等,接入需要使用的模型,并可以使用prompt工程提前写好prompt模板; 开始创建,应用分为两种,一种为零代码应用,一种为低代码(工作流)应用,零代码应用可以基于创建的插件、知识库等直接进行添加;低代码应用支持通过拖拉拽节点的方式自定义编排应用; 发布应用,创建好应用或编排好工作流支持直接发布成应用或工作流至个人空间或广场; 通过API调用支持使用我们创建的Agent; 配置与管理,通过调用详情查看Agent应用使用情况并根据实际情况做相应的优化。 父主题: Agent开发平台介绍
  • 医学NLP大模型训练流程介绍 医学NLP大模型的训练分为两个关键阶段:预训练和微调。 预训练阶段:在这一阶段,模型通过学习大规模通用数据集来掌握语言的基本模式和语义。这一过程为模型提供了处理各种语言任务的基础,如阅读理解、文本生成和情感分析,但它还未能针对特定任务进行优化。 针对预训练阶段,还可以继续进行训练,这一过程称为增量预训练。增量预训练是在已经完成的预训练的基础上继续训练模型。增量预训练旨在使模型能够适应新的领域或数据需求,保持其长期的有效性和准确性。 微调阶段:基于预训练的成果,微调阶段通过在特定领域的数据集上进一步训练,使模型能够更有效地应对具体的任务需求。这一阶段使模型能够精确执行如文案生成、代码生成和专业问答等特定场景中的任务。在微调过程中,通过设定训练指标来监控模型的表现,确保其达到预期的效果。完成微调后,将对用户模型进行评估并进行最终优化,以确保满足业务需求,然后将其部署和调用,用于实际应用。 针对微调阶段,微调后的模型可以直接部署,也可以继续进行强化学习(DPO)训练,以进一步对齐任务场景下的用户偏好,例如模型回答的风格、模型的价值观等。注意,目前盘古NLP大模型仅支持对N4系列进行DPO微调训练。
  • NLP大模型训练类型选择建议 平台针对NLP大模型提供了三种训练类型,包括预训练、微调、强化学习(DPO),三者区别详见表3。 表3 预训练、微调训练类型区别 训练方式 训练目的 训练数据 模型效果 应用场景举例 预训练 关注通用性:预训练旨在让模型学习广泛的通用知识,建立词汇、句法和语义的基础理解。通过大规模的通用数据训练,模型可以掌握丰富的语言模式,如语言结构、词义关系和常见的句型。 使用大规模通用数据:通常使用海量的无监督数据(如文本语料库、百科文章),这些数据覆盖广泛的领域和语言表达方式,帮助模型掌握广泛的知识。 适合广泛应用:经过预训练后,模型可以理解自然语言并具备通用任务的基础能力,但还没有针对特定的业务场景进行优化。预训练后的模型主要用于多个任务的底层支持。 通过使用海量的互联网文本语料对模型进行预训练,使模型理解人类语言的基本结构。 微调 关注专业性:微调是对预训练模型的参数进行调整,使其在特定任务中达到更高的精度和效果。微调的核心在于利用少量的特定任务数据,使模型的表现从通用性向具体任务需求过渡。 使用小规模的特定任务数据:微调通常需要小规模但高质量的标注数据,直接与目标任务相关。通过这些数据,模型可以学习到任务特定的特征和模式。 在特定任务上具有更高的准确性:微调后的模型在具体任务中表现更优。相较于预训练阶段的通用能力,微调能使模型更好地解决细分任务的需求。 在一个客户服务问答系统中,可以用特定领域(如电商、保险)的对话数据对预训练模型进行微调,使其更好地理解和回答与该领域相关的问题。 此外,针对微调训练任务,平台提供了两种微调方式: 全量微调:适合有充足数据并关注特定任务性能的场景。在全量微调中,模型的所有参数都会调整,以适应特定任务的需求。这种方式适合样本量较大、对推理效果要求较高的任务。例如,在特定领域(如金融、医疗)中,若拥有大量标注数据,且需要更高的特定任务推理精度,则全量微调是优先选择。 LoRA微调:适用于数据量较小、侧重通用任务的情境。LoRA(Low-Rank Adaptation)微调方法通过调整模型的少量参数,以低资源实现较优结果,适合聚焦于领域通用任务或小样本数据情境。例如,在针对通用客服问答的场景中,样本量少且任务场景广泛,选择LoRA微调既能节省资源,又能获得较好的效果。 微调方式选择建议: 若项目中数据量有限或任务场景较为广泛,可以选择LoRA微调以快速部署并保持较高适用性。 若拥有充足数据且关注特定任务效果,选择全量微调有助于大幅提升在特定任务上的模型精度。
  • 设置plog日志 登录承载租户账户后,在左侧菜单页选择平台配置模块,并切换至运维配置页签。 点击添加按钮,在添加弹窗中将模块设置为训练,名称(config_key)设置为plog_level。 设置项目ID,其默认状态下是defalut,此默认状态表示为所有的项目设置plog日志级别,该字段支持填写项目id为其单独设置plog日志级别。 设置资源池,该项选择全局,表示为所有资源池设置plog日志级别;选择单个后,需要输入资源池ID,用于对资源池单独设置plog日志级别。 上述设置完成后,设置plog日志级别,详细说明参考获取训练日志。 完成设置后,查看plog日志并基于日志内容排查训练问题参考 表8 设置plog日志 参数类别 参数名称 说明 高级设置 plog日志 开启后plog日志功能,会记录模型训练过程中的执行过程、状态、错误等信息,盘古技术支持人员可通过plog日志定位模型训练问题。训练任务开始后可以在承载租户的OBS桶中查看。plog日志分级如下: DEBUG:记录模型训练过程中代码的执行流、变量状态、参数的变化等。 INFO:记录模型训练过程中的运行信息,通常包括一些重要的状态变化、执行的关键步骤、模型训练进度等。 WARNING:记录模型训练过程中的告警信息,可用于识别潜在的问题或异常情况。 ERROR:记录模型训练过程中的执行错误信息。
  • 通用参数 表7 科学计算大模型训练通用参数 参数分类 参数名称 参数说明 模型输出控制参数 训练轮数 表示完成全部训练数据集训练的次数。每个轮次都会遍历整个数据集一次。取值范围:[1-1000]。 损失类型 用来衡量模型预测结果与真实结果之间的差距的函数,提供MAE(平均绝对误差)、MSE(均方误差)两种损失函数。 MSE对于异常值非常敏感,因为它会放大较大的误差。因此,如果您数据中没有异常值,或者希望模型对大的误差给予更大的惩罚,可选择MSE。 如果数据中存在异常值,或者希望模型对所有的误差都一视同仁,可选择MAE。 正则化参数 路径删除概率 用于定义路径删除机制中的删除概率。路径删除是一种正则化技术,它在训练过程中随机删除一部分的网络连接,以防止模型过拟合。这个值越大,删除的路径越多,模型的正则化效果越强,但同时也可能会降低模型的拟合能力。取值范围:[0,1)。 特征删除概率 用于定义特征删除机制中的删除概率。特征删除(也称为特征丢弃)是另一种正则化技术,它在训练过程中随机删除一部分的输入特征,以防止模型过拟合。这个值越大,删除的特征越多,模型的正则化效果越强,但同时也可能会降低模型的拟合能力。取值范围:[0,1)。 给输入数据加噪音的概率 定义了给输入数据加噪音的概率,定义了给输入数据加噪音的概率。加噪音是一种正则化技术,它通过在输入数据中添加随机噪音来增强模型的泛化能力。取值范围:[0,1]。 给输入数据加噪音的尺度 给输入数据加噪音的尺度,定义了给输入数据加噪音的尺度。这个值越大,添加的噪音越强烈,模型的正则化效果越强,但同时也可能会降低模型的拟合能力。取值范围:[0,1]。 给输出数据加噪音的概率 给输出数据加噪音的概率,定义了给输出数据加噪音的概率。加噪音是一种正则化技术,它通过在模型的输出中添加随机噪音来增强模型的泛化能力。取值范围:[0,1]。 给输出数据加噪音的尺度 给输出数据加噪音的尺度,定义了给输出数据加噪音的尺度。这个值越大,添加的噪音越强烈,模型的正则化效果越强,但同时也可能会降低模型的拟合能力。取值范围:[0,1]。 优化器参数 优化器种类 优化器种类。优化器是用于更新模型参数的算法,目前支持ADAM优化器。 第一个动量矩阵的指数衰减率(beta1) 数据加噪音的尺度。这个值越大,添加的噪音越强烈,模型的正则化效果越强,但同时也可能会降低模型的拟合能力。取值范围:[0,1]。 第二个动量矩阵的指数衰减率(beta_2) 用于定义ADAM优化器中的二阶矩估计的指数衰减率。二阶矩估计相当于 RMS Prop,可以调整学习率。取值范围:(0,1)。 权重衰减系数 通过在损失函数中加入与模型权重大小相关的惩罚项,鼓励模型保持较小的权重,防止过拟合或模型过于复杂,取值需≥0。 学习率 学习率决定每次训练中模型参数更新的幅度。 选择合适的学习率至关重要: 如果学习率过大,模型可能无法收敛。 如果学习率过小,模型的收敛速度将变得非常慢。 预训练时,默认值为:0.00001,范围为[0, 0.001]。 学习率调整策略 用于选择学习率调度器的类型。学习率调度器可以在训练过程中动态地调整学习率,以改善模型的训练效果。目前支持CosineDecayLR调度器。
  • CV大模型训练流程介绍 目前,CV大模型支持微调训练。 预训练阶段:通过在大规模通用数据集上训练,使模型学习到通用视觉特征,使得模型在面对不同类型的图像数据时,能够快速捕捉到关键信息,提升了模型的训练效率和泛化能力。 微调阶段:微调阶段通过在特定领域的数据集上进一步训练,使模型能够更有效地应对具体的任务需求。在微调过程中,通过设定训练指标来监控模型的表现,确保其达到预期的效果。完成微调后,将对用户模型进行评估并进行最终优化,以确保满足业务需求,然后将其部署和调用,用于实际应用。
  • CV大模型选择建议 选择合适的CV大模型类型有助于提升训练任务的准确程度。您可以根据模型适用场景,选择合适的模型,从而提高模型的整体效果,详见表1。 表1 CV大模型的类型 模型名称 适用场景 说明 Pangu-CV-物体检测-S-2.1.0 盘古计算机视觉物体检测大模型,该模适用的任务是找出图像中所有感兴趣的目标,确定它们的位置和类别。适用于如积水检测、占道经营检测、人员离岗检测、动植物检测、工业缺陷检测等任务。 S模型特点是小参数量,适合在资源有限的环境中使用,提供较快的检测速度和合理的精度。支持全量微调,在线推理,边缘推理,1卡起训,1卡部署。 Pangu-CV-物体检测-N-2.1.0 该模型属于物体检测模型,旨在识别图像中的所有感兴趣目标,定位其位置并确定其类别。适用于各种任务,如:积水检测、占道经营检测、人员离岗检测、动植物检测、工业缺陷检测等。 2024年12月发布的版本,支持全量微调、在线推理。 物体检测-N模型为中参数量模型,在保证计算效率的同时,具备较强的特征识别能力,提供高效的性能表现。 Pangu-CV-图像分类-2.1.0 盘古计算机视觉图像分类大模型,根据在图像信息中所反映的不同特征,把不同类别的图像区分开来的图像处理方法,利用计算机视觉技术对图像进行定量分析,把图像划归为若干个类别中的一种或多种。适用于动植物分类、车辆类型分类、车牌分类、废钢定级、零部件分类等任务。 支持全量微调,在线推理,边缘推理,1卡起训,1卡部署。
  • 使用“体验中心”调用NLP大模型 体验中心功能支持用户调用预置或训练后的NLP大模型。使用该功能前,请完成模型的部署操作,步骤详见创建NLP大模型部署任务。 使用“体验中心”调用NLP大模型可实现文本对话能力,即在输入框中输入问题,模型将基于问题输出相应的回答,具体步骤如下: 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。 图1 我的空间 在左侧导航栏中选择“体验中心”,单击“文本对话”页签。 选择需要调用的服务。可从“预置服务”或“我的服务”中选择。 填写系统人设。如“你是一个AI助手”,若不填写,将使用系统默认人设。 在页面右侧配置参数,具体参数说明见表1。 表1 NLP大模型体验中心参数说明 参数 说明 温度 用于控制生成文本的多样性和创造力。调高温度会使得模型的输出更多样性和创新性。 核采样 控制生成文本多样性和质量。调高核采样可以使输出结果更加多样化。 最大口令限制 用于控制聊天回复的长度和质量。 话题重复度控制 用于控制生成文本中的重复程度。调高参数模型会更频繁地切换话题,从而避免生成重复内容。 词汇重复度控制 用于调整模型对频繁出现的词汇的处理方式。调高参数会使模型减少相同词汇的重复使用,促使模型使用更多样化的词汇进行表达。 输出最大TOKEN长度 用于控制模型生成回复的长度,一般来说,较大的max_tokens值可以生成较完整的回复,但也可能增加生成无关或重复内容的风险。较小的max_tokens值可以生成较简洁的回复,但也可能导致生成不完整或不连贯的内容,请根据场景选择合适的值。 如图2,输入对话,单击“生成”,模型将输出相应的回答。 图2 调测NLP大模型 父主题: 调用NLP大模型
  • 预测大模型训练常见报错与解决方案 预测大模型训练常见报错及解决方案请详见表1。 表1 预测大模型训练常见报错与解决方案 常见报错 问题现象 原因分析 解决方案 训练后推理服务部署失败,报错“KeyError” 训练后推理报错“KeyError”: KeyError: '0.0' 训练类别特征列选择为数值类型列。 类别特征列需要填字符串的特征或者是需要特征编码的列名,不能填数值类型列。 训练任务报错“ValueError: could not convert string to float” 训练任务报错“ValueError: could not convert string to float”: ValueError: could not convert string to float: '2016/6/27 1:55 训练时选择的特征列包含了非数值类型列。 训练时选择的特征列只能选择数值类型列,非数值类型列需要放到非特征列。 训练日志提示“ValueError: label_map not match” 训练日志中提示“ValueError: label_map not match”,并打印出标签数据,例如: ValueError: label_map not match. {1:'apple', 2:'orange', 3:'banana', 4:'pear'} & {1:'apple', 2:'orange', 3:'banana'} 训练集中的标签个数与验证集中的个数不一致,导致该错误发生。 例如,训练集中的标签共有4个,验证集中的标签只有3个。 请保持数据中训练集和验证集的标签数量一致。 训练后推理服务部署失败,报错NPU不可用 推理服务启动失败,报错NPU不可用: get device count of NPU failed,torch.npu.is_available() is False NPU卡未及时释放或者被其他应用占用,导致推理服务器上无推理卡可用。 释放推理服务器上的NPU卡。 父主题: 训练预测大模型
  • 在工作流中使用插件 插件让工作流更强大、更智能、更自动化,用户无需开发完整功能,只需选择合适的插件即可快速实现需求。 插件节点配置步骤如下: 拖动左侧“插件”节点至画布中,在“个人插件”或“预置插件”页签单击“”,将插件添加至画布中。 添加插件后,将插件节点与相关节点进行连接。 单击画布中已添加的“插件”节点,在“个人插件”或“预置插件”页面选择所需的插件,完成插件节点的配置。 图1 配置插件节点 父主题: 插件开发与配置
  • NLP大模型训练常见报错与解决方案 NLP大模型训练常见报错及解决方案请详见表1和表2。 表1 NLP大模型训练常见报错与解决方案 常见报错 问题现象 原因分析 解决方案 创建训练任务时,数据集列表为空。 创建训练任务时,数据集选择框中显示为空,无可用的训练数据集。 数据集未发布。 请提前创建与大模型对应的训练数据集,并完成数据集发布操作。 训练日志提示“root: XXX valid number is 0” 日志提示“root: XXX valid number is 0”,表示训练集/验证集的有效样本量为0,例如: INFO: root: Train valid number is 0. 该日志表示数据集中的有效样本量为0,可能有如下原因: 数据未标注。 标注的数据不符合规格。 请检查数据是否已标注或标注是否符合算法要求。 训练日志提示“ValueError: label_map not match” 训练日志中提示“ValueError: label_map not match”,并打印出标签数据,例如: ValueError: label_map not match. {1:'apple', 2:'orange', 3:'banana', 4:'pear'} & {1:'apple', 2:'orange', 3:'banana'} 训练集中的标签个数与验证集中的个数不一致,导致该错误发生。 例如,训练集中的标签共有4个,验证集中的标签只有3个。 请保持数据中训练集和验证集的标签数量一致。 表2 NLP大模型训练常见错误码和建议解决方法 错误码 错误信息 说明 建议解决方法 model.50010001 当前驱动 {0} 不满足指定的驱动版本 {1}。 当前驱动 {0} 不满足指定的驱动版本 {1}。 联系oncall检查宿主机上的驱动,若不符合要求,则需要oncall重新升级驱动到错误信息中指定的版本。 model.50010002 当前固件 {0} 不满足指定的驱动版本 {1}。 当前固件 {0} 不满足指定的驱动版本 {1}。 联系oncall检查宿主机上的固件,若不符合要求,则需要oncall重新升级驱动到错误信息中指定的版本。 model.50010003 当前磁盘空间大小不满足要求。 当前磁盘空间大小不满足要求。 联系oncall扩容宿主机上的磁盘,要求挂载到/cache目录上的空间大于等于19T。 model.50010101 Obs文件下载错误。 Obs文件下载错误。 请检查OBS服务是否正常,如果正常请联系技术支持。 model.50010104 Obs文件上传错误。 Obs文件上传错误。 请检查OBS服务是否正常,如果正常请联系技术支持。 model.50010106 文件删除错误,OBS服务不可用。 文件删除错误,OBS服务不可用。 请检查OBS服务是否正常,如果正常请联系技术支持。 model.50010107 文件上传错误,HDFS服务不可用。 文件上传错误,HDFS服务不可用。 请检查HDFS服务是否正常,如果正常请联系技术支持。 model.50010108 文件下载错误,HDFS服务不可用。 文件下载错误,HDFS服务不可用。 请检查HDFS服务是否正常,如果正常请联系技术支持。 model.50010109 文件删除错误,HDFS服务不可用。 文件删除错误,HDFS服务不可用。 请检查HDFS服务是否正常,如果正常请联系技术支持。 model.50010110 列举文件夹下文件错误,HDFS服务不可用。 列举文件夹下文件错误,HDFS服务不可用。 请检查HDFS服务是否正常,如果正常请联系技术支持。 父主题: 训练NLP大模型
  • 设置plog日志 登录承载租户账户后,在左侧菜单页选择平台配置模块,并切换至运维配置页签。 点击添加按钮,在添加弹窗中将模块设置为训练,名称(config_key)设置为plog_level。 设置项目ID,其默认状态下是defalut,此默认状态表示为所有的项目设置plog日志级别,该字段支持填写项目id为其单独设置plog日志级别。 设置资源池,该项选择全局,表示为所有资源池设置plog日志级别;选择单个后,需要输入资源池ID,用于对资源池单独设置plog日志级别。 上述设置完成后,设置plog日志级别,详细说明参考获取训练日志。 完成设置后,查看plog日志并基于日志内容排查训练问题参考 表4 设置plog日志 参数类别 参数名称 说明 高级设置 plog日志 开启后plog日志功能,会记录模型训练过程中的执行过程、状态、错误等信息,盘古技术支持人员可通过plog日志定位模型训练问题。训练任务开始后可以在承载租户的OBS桶中查看。plog日志分级如下: DEBUG:记录模型训练过程中代码的执行流、变量状态、参数的变化等。 INFO:记录模型训练过程中的运行信息,通常包括一些重要的状态变化、执行的关键步骤、模型训练进度等。 WARNING:记录模型训练过程中的告警信息,可用于识别潜在的问题或异常情况。 ERROR:记录模型训练过程中的执行错误信息。
  • 查看模型训练状态 在模型训练列表中查看训练任务的状态,各状态说明详见表1。 表1 训练状态说明 训练状态 训练状态含义 初始化 模型训练任务正在进行初始化配置,准备开始训练。 排队中 模型训练任务正在排队,请稍等。 运行中 模型正在训练中,训练过程尚未结束。 停止中 模型训练正在停止中。 已停止 模型训练已被用户手动停止。 失败 模型训练过程中出现错误,需查看日志定位训练失败原因。 已完成 模型训练已完成。
  • 查看训练指标 对于已完成训练,训练状态是“训练完成”状态的任务,单击任务名称,可在“训练结果”页面查看训练指标,不同模型的训练指标介绍请参见表2。 图1 查看训练指标 表2 训练指标说明 模型 训练指标 指标说明 科学计算大模型 Loss 训练损失值是一种衡量模型预测结果和真实结果之间的差距的指标,通常情况下越小越好。这里代表高空Loss(深海Loss)和表面Loss(海表Loss)的综合Loss。 一般来说,一个正常的Loss曲线应该是单调递减的,即随着训练的进行,Loss值不断减小,直到收敛到一个较小的值。 高空Loss(深海Loss) 高空Loss(深海Loss)是衡量模型在高空层次变量或在深海变量预测结果与真实结果之间差距的指标。该值越小,表示模型在高空(深海)变量的预测精度越高。 表面Loss(海表Loss) 表面Loss(海表Loss)是衡量模型在表面层次变量或在海表变量预测结果与真实结果之间差距的指标。该值越小,表示模型在表面(海表)变量的预测精度越高。 RMSE 均方根误差,衡量预测值与真实值之间差距的指标。它是所有单个观测的平方误差的平均值的平方根。该值越小,代表模型性能越好。 MAE 平均绝对误差,衡量预测值与真实值之间差距的指标。它是所有单个观测的绝对误差的平均值。该值越小,代表模型性能越好。 ACC ACC(异常相关系数,距平相关系数,Anomaly Correlation Coefficient)是一个重要的统计指标,用于衡量预报系统的质量。它通过计算预报值与观测值之间的相关性来评估预报的准确性。ACC的计算涉及到预报值、观测值和气候平均值的差异,其值范围从-1到+1,值越接近+1表示预报与观测的一致性越好,值为0表示没有相关性,而负值则表示反向相关。 RQE 衡量预测值与真实值之间差距的指标。它是所有单个观测的相对误差的平方和。该值越小,代表模型性能越好。
  • 获取训练日志 单击训练任务名称,可以在“日志”页面查看训练过程中产生的日志。对于训练异常或失败的任务也可以通过训练日志定位训练失败的原因。典型训练报错和解决方案请参见科学计算大模型训练常见报错与解决方案。 训练日志可以按照不同的节点(训练阶段)进行筛选查看。分布式训练时,任务被分配到多个工作节点上进行并行处理,每个工作节点负责处理一部分数据或执行特定的计算任务。日志也可以按照不同的工作节点(如worker-0表示第一个工作节点)进行筛选查看。 图2 获取训练日志
  • DeepSeek-R1 DeepSeek-R1满血版671B参数模型,在数学、代码、自然语言处理能力比肩OpenAI o1正式版。DeepSeek-R1-32K-0.0.1版本支持推理部署。 平台已预置推理服务,用户可通过体验中心或者API调用该推理服务。 直接部署模型时,已预置最优模型,无需进行压缩后再部署。 表1 推理特性 推理精度 INT8 序列长度 32K 起推规格(推理单元) 16 并发 256
  • 修改盘古子用户权限 当需要修改空间内某个子用户权限时可以按如下步骤操作: 登录ModelArts Studio大模型开发平台。 进入需要修改子用户权限的空间,在空间内单击左侧导航栏“空间管理”,在“角色管理”页签,可以查看各角色名称及其权限的描述。 图10 角色管理 单击进入“成员管理”页签。 如图,以授权子用户“模型开发工程师”权限为例。单击用户列表操作栏的“编辑”,勾选需要赋予用户的角色,单击“确认”。 图11 授权子用户“模型开发工程师”权限
  • 创建用户组 管理员可以创建用户组,并给用户组授予策略或角色,然后将用户加入用户组,使得用户组中的用户获得相应的权限。 创建用户组的步骤如下: 使用主账号登录 IAM 服务控制台。 左侧导航栏中,选择“用户组”页签,单击右上方的“创建用户组”。 图1 创建用户组 在“创建用户组”页面,输入“用户组名称”,单击“确定”,创建用户组。 返回用户组列表,单击操作列的“授权”。 图2 用户组授权 参考表1,在搜索框中搜索授权项,为用户组设置权限,选择后单击“下一步”。 表1 授权项 授权项 说明 Agent Operator 拥有该权限的用户可以切换角色到委托方账号中,访问被授权的服务。 Tenant Administrator 全部云服务管理员(除IAM管理权限)。 Security Administrator 统一身份认证 服务(除切换角色外)所有权限。 图3 添加用户组权限 设置最小授权范围。 根据授权项策略,系统会自动推荐授权范围方案。 可以选择“所有资源”,即用户组内的IAM用户可以基于设置的授权项使用账号中所有的企业项目、区域项目、全局服务资源。 可以选择“指定区域项目资源”,如指定“西南-贵阳一”区域,即用户组内的IAM用户仅可使用该区域项目中的资源。 可以选择“全局服务资源”,即服务部署时不区分区域,访问全局级服务,不需要切换区域,全局服务不支持基于区域项目授权。如 对象存储服务 (OBS)、内容分发网络(CDN)等。 选择完成后,单击“确定”。 图4 设置最小授权范围 单击“完成”,完成用户组授权。 图5 完成授权
  • 创建盘古子用户 创建盘古子用户步骤如下: 使用主账号登录IAM服务控制台。 左侧导航窗格中,选择“用户”页签,单击右上方的“创建用户”。 图6 创建用户 配置用户基本信息,单击“下一步”。 配置用户信息时,需要勾选“编程访问”,如果未勾选此项,会导致IAM用户无法使用盘古服务API、SDK。 图7 配置用户基本信息 将用户添加至创建用户组步骤中创建的用户组,单击“创建用户”,完成IAM用户的创建。 图8 加入用户组
  • 添加盘古子用户至工作空间 在添加盘古子用户至工作空间前,请先完成创建盘古子用户。 登录ModelArts Studio大模型开发平台。 进入需要添加子用户的空间,在空间内单击左侧导航栏“空间管理”,并进入“成员管理”页签。 如图,以添加子用户为“模型开发工程师”角色为例。在搜索框中搜索子用户名称,在“请选择角色”选项栏中设置用户角色,设置完成后单击右侧“添加”,将该用户添加至本空间。 图9 添加成员为“模型开发工程师”角色
  • 变量赋值节点配置说明 变量赋值节点,将特定的值赋给变量,可以实现数据的动态更新和传递,使工作流能够根据实时数据做出相应的处理和决策;变量设置节点也支持在循环节点内部使用,通过变量设置节点,将特定的值赋给中间变量,可以实现循环过程中数据的动态更新和传递。 变量赋值节点配置步骤如下: 拖动左侧“变量赋值”节点至画布中,单击该节点以打开节点配置页面。 连接变量赋值节点和其他节点。 参照表1,完成变量赋值节点的配置。 表1 变量赋值节点配置说明 配置类型 参数名称 参数说明 循环节点外变量赋值节点配置 变量赋值 变量赋值节点变量名称仅支持全局配置中记忆变量引用,值可支持引用或者输入两种。 类型、值:支持“引用”和“输入”两种类型。 引用:支持用户选择工作流中已包含的前置节点的输出变量值以及全局配置的中的记忆变量。 输入:支持用户自定义取值。 循环节点中变量赋值配置 变量赋值 变量赋值节点支持在循环体内部引用,只支持更改循环体中间变量的值,被赋值变量仅支持选择中间变量,值可支持引用或输入两种。适用于循环过程中动态更新中间变量,自定义循环逻辑中进行参数传递的场景。 类型、值:支持“引用”和“输入”两种类型。 引用:中间变量的值需要引用上游节点输出时勾选此项,支持用户选择工作流中已包含的前置节点的输出变量值以及循环体内置变量,包括index、item(数组循环)以及中间变量,适用于循环过程中修改中间变量的值为变量的场景。 输入:支持用户自定义取值,适用于循环过程中修改中间变量的值为固定值场景。 图1 变量赋值节点配置示例 图2 变量赋值节点在循环节点中配置示例 节点配置完成后,单击“确定”。 连接变量赋值节点和其他节点。
  • 使用“体验中心”调用科学计算大模型 体验中心功能支持用户调用预置或训练后的科学计算大模型。使用该功能前,请完成模型的部署操作,步骤详见创建科学计算大模型部署任务。 使用“体验中心”调用科学计算大模型可实现包括全球中期天气要素预测、全球中期降水预测、全球海洋要素、区域海洋要素、全球海洋生态、全球海浪高度场景的预测能力。具体步骤如下: 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。 图1 我的空间 在左侧导航栏中选择“体验中心”,单击“科学计算”页签。 选择部署的服务。 完成页面参数配置。请参考表1 科学计算大模型体验中心参数说明。 表1 科学计算大模型体验中心参数说明 参数 说明 结果存储路径 用于存放模型推理结果的OBS路径。 输入数据 支持根据不同的模型选择相应的OBS文件路径。例如:天气模型选择ERA5数据,海洋模型选择深海数据文件夹,污染物模型选择污染物观测数据文件夹等。 预报天数 支持选择以起报时间点为开始,进行预报的天数,范围为1~30天。 起报时间 支持选择多个起报时间作为推理作业的开始时间,每个起报时间需为输入数据中存在的时间点。 图片输出 用于选择是否输出图片结果。 集合预报 用于选择是否开启集合预报。 在气象预报中,集合预报是指对初始场加入一定程序的扰动,使其生成一组由不同初始场预报的天气预报结果,从而提供对未来天气状态的概率信息。这种方法可以更好地表达预报的不确定性,从而提高预报的准确性和可靠性。 集合成员数 用于选择生成预报的不同初始场的数量,取值为2~10。 扰动类型 用于选择生成集合预报初始场的扰动类型,仅支持perlin加噪方式。 Peilin噪音通过对输入数据(比如空间坐标)进行随机扰动,让模拟出的天气接近真实世界中的变化。 集合预报的Perlin加噪 scale 用于选择集合预报的Perlin加噪强度。 集合预报的Perlin加噪x 用于选择集合预报的Perlin加噪x经度方向的尺度。 集合预报的Perlin加噪octave 用于选择集合预报的Perlin加噪octave。Perlin噪音的octave指的是噪音的频率,在生成Perlin噪音时,可以将多个不同频率的噪音叠加在一起,以增加噪音的复杂度和细节。每个频率的噪音称为一个octave,而叠加的octave数越多,噪音的复杂度也就越高。 集合预报的Perlin加噪y 用于选择集合预报的Perlin加噪y纬度方向的尺度。 图2 科学计算参数设置1 图3 科学计算参数设置2 父主题: 调用科学计算大模型
  • 知识检索节点 知识检索节点可以基于用户的输入,从指定知识库内召回匹配的信息,并将匹配结果以列表形式返回。该节点支持选择用户创建的知识库,创建步骤请详见创建知识库。 知识检索节点配置步骤如下: 拖动左侧“知识检索”节点至画布中,单击该节点以打开节点配置页面。 连接知识检索节点和其他节点。 参照表1,完成大模型节点的配置。 表1 知识检索节点配置说明 配置类型 参数名称 参数说明 参数配置 输入参数 参数名称:输入参数固定只有1个,参数名称为query且不可修改,类型是字符串,表示待知识检索的问题。 类型、值:支持“引用”和“输入”两种类型。 引用:支持用户选择工作流中已包含的前置节点的输出变量值,限制String类型,适用于需要从前置节点输出中获取知识检索问题的场景。 输入:支持用户自定义输入问题,适用于知识检索问题固定的场景。 知识库 支持选择用户所创建的知识库。 相关度阈值 得分低于相关度阈值的搜索结果会被过滤,可以参考知识库命中测试的相关度分值调整该阈值。 取值范围为0.01~0.99。 topk召回数量 从知识库中召回的最大切片数量,如topk召回数量为5,则得分不在前5的切片将被过滤。 取值范围为1~6。 输出参数 - 知识检索节点的输出是一个对象数组,参数名是output_list,表示所有满足检索要求的知识切片。数组中对象有三个属性: document_name,知识切片所在的知识文档名称。 content,知识切片的内容。 score,知识切片的匹配度得分,output_list中的元素按照得分由高到低排序。 后续节点引用该输出参数,可以引用output_list,此时将获取全量的检索结果,包括文档名、切片内容和分数。也可以直接引用切片的属性,比如content,此时将获取output_list中第一条记录的切片内容。 图1 知识检索节点配置示例 节点配置完成后,单击“确定”。 父主题: 工作流节点配置参考
  • 快速部署 本章节帮助用户高效地部署“快速体验智能问数”解决方案。一键部署该解决方案时,参照本章节中的步骤和说明进行操作,即可完成快速部署。 表1 参数说明(云服务器单机部署) 参数名称 类型 是否可选 参数解释 默认值 vpc_name string 必填 虚拟私有云名称,该模板使用新建VPC,不允许重名。取值范围:1-57个字符,支持数字、字母、中文、_(下划线)、-(中划线)、.(点)。 intelligent-data-insight_demo secgroup_name string 必填 安全组名称,该模板使用新建安全组。请参考安全组规则修改进行配置。取值范围:1-64个字符,支持数字、字母、中文、_(下划线)、-(中划线)、.(点)。 intelligent-data-insight_demo rds_name string 必填 云数据库RDS名称,不支持重名。取值范围:实例名称长度最小为4字符,最大为64个字符且不超过64字节(注意:一个中文字符占用3个字节),必须以字母或中文开头,区分大小写,可以包含字母、数字、中划线、下划线或中文,不能包含其他特殊字符。 intelligent-data-insight_demo db_type string 必填 云数据库RDS引擎,取值:MySQL、PostgreSQL。 MySQL rds_flavor string 必填 云数据库RDS规格,该方案默认创建单机版。RDS for MySQL默认rds.mysql.n1.large.2(2U4G)。RDS for PostgreSQL默认rds.pg.n1.large.2(2U4G)。其他规格参考请参考: RDS for MySQ L实例 规格 RDS for PostgreSQL实例规格 rds.mysql.n1.large.2 rds_port number 必填 云数据库RDS连接端口,RDS for MySQL数据库端口范围为1024~65535(不包括12017和33071,该端口被RDS系统占用,不能使用)。默认值为3306。RDS for PostgreSQL数据库端口范围为2100-9500。默认值为5432。 3306 rds_volume_size number 必填 云数据库RDS实例存储空间大小,默认存储盘类型为SSD云盘,取值范围:40-4,000,必须为10的整数倍。 40 rds_password string 必填 云数据库RDS登录密码,初始密码为该密码。取值范围:8-32个字符,包含大小写字母、数字和特殊字符(~!@#%^*-_=+?)。 空 db_account_name string 必填 云数据库RDS自定义只读用户名称,不支持重名。取值范围:实例名称长度最小为4字符,最大为64个字符且不超过64字节(注意:一个中文字符占用3个字节),必须以字母或中文开头,区分大小写,可以包含字母、数字、中划线、下划线或中文,不能包含其他特殊字符。 readonly_user db_account_password string 必填 云数据库RDS自定义只读用户登录密码。取值范围:8-32个字符,必须至少包含大写字母、小写字母、数字和特殊字符(~!@#%^*-_=+?,)中的其中三种。 空 db_name string 必填 数据库名称。由字母、数字和下划线组成,长度为1~63个字符。不能以pg或数字开头,且不能与RDS for PostgreSQL模板库名称相同。RDS for PostgreSQL的模板库包括postgres、template0和template1。 business_db dify_version string 必填 Dify应用开发平台社区版版本,支持v1.1.3、v0.15.3及v0.15.2。 0.15.3 dify_ecs_name string 必填 Dify平台云服务器名称,不允许重名。取值范围:1-54个字符组成,包括字母、数字、下划线 (_)、连字符 (-) 和句点 (.)。 intelligent-data-insight_dify_ecs_demo dify_ecs_flavor string 必填 Dify平台云服务器实例规格,支持弹性云服务器 E CS 及华为云Flexus 云服务器X实例。Flexus 云服务器X实例规格ID命名规则为x1.?u.?g,例如2vCPUs4GiB规格ID为x1.2u.4g,具体华为云Flexus 云服务器X实例规格请参考控制台。弹性云服务器规格名称,具体请参考官网弹性云服务器规格清单。 x1.8u.16g dify_password string 必填 Dify平台云服务器密码,长度为8-26位,密码至少必须包含大写字母、小写字母、数字和特殊字符(!@$%^-_=+[{}]:,./?)中的三种。修改密码,请参考重置云服务器密码登录ECS控制台修改密码。管理员账户默认root。 空 dify_system_disk_size number 必填 Dify平台云服务器系统盘大小,磁盘类型默认为高IO,单位:GB,取值范围为40-1,024,不支持缩盘。 100 dify_eip_size number 必填 Dify平台云服务器弹性公网带宽大小,该模板计费方式为按流量计费。单位:Mbit/s,取值范围:1-300Mbit/s。 300 db_query_ecs_name string 必填 数据库接口云服务器名称,不允许重名。取值范围:1-54个字符组成,包括字母、数字、下划线 (_)、连字符 (-) 和句点 (.)。 intelligent-data-insight_db_query_demo db_query_ecs_flavor_id string 必填 数据库接口云服务器实例规格,支持弹性云服务器 ECS及华为云Flexus 云服务器X实例。Flexus 云服务器X实例规格ID命名规则为x1.?u.?g,例如2vCPUs4GiB规格ID为x1.2u.4g,具体华为云Flexus 云服务器X实例规格请参考控制台。弹性云服务器规格名称,具体请参考官网弹性云服务器规格清单。 x1.2u.4g db_query_password number 必填 数据库接口云服务器密码,长度为8-26位,密码至少必须包含大写字母、小写字母、数字和特殊字符(!@$%^-_=+[{}]:,./?)中的三种。修改密码,请参考重置云服务器密码登录ECS控制台修改密码。管理员账户默认root。 空 db_query_eip_size number 必填 数据库接口云服务器弹性公网带宽大小,该模板计费方式为按流量计费。单位:Mbit/s,取值范围:1-300Mbit/s 300 charging_mode string 必填 计费模式,默认自动扣费,取值为prePaid(包年包月)或postPaid(按需计费)。 postPaid charge_period_unit string 必填 计费周期单位,当计费方式设置为prePaid,此参数是必填项。有效值为:month(包月)和year(包年)。 month charge_period number 必填 计费周期,当计费模式设置为prePaid,此参数是必填项。可选值为:1-3(year)、1-9(month)。 1 登录华为云解决方案实践,选择“快速体验智能问数”,支持区域下拉选择部署的区域(以北京四区域为例),单击“一键部署”,跳转至解决方案创建资源栈界面。 图1 解决方案实施库 在选择模板界面中,单击“下一步”。 图2 选择模板 在配置参数界面中,参考表1 参数填写说明完成自定义参数填写,单击“下一步”。 图3 配置参数 (可选,如果使用华为主账号或admin用户组下的IAM子账户可不选委托)在资源设置界面中,在权限委托下拉框中选择“rf_admin_trust”委托,单击“下一步”。 图4 委托设置 在配置确认界面中,单击“创建执行计划”。 图5 配置确认 在弹出的创建执行计划框中,自定义填写执行计划名称,单击“确定”。 图6 创建执行计划 单击“部署”,并且在弹出的执行计划确认框中单击“执行”。 图7 执行计划 图8 执行计划确认 (可选)如果计费模式选择“包年包月”,在余额不充足的情况下(所需总费用请参考资源和成本规划中对应一键部署云服务所需的包年包月费用表)请及时登录费用中心,手动完成待支付订单的费用支付。 待“事件”中出现“Apply required resource success”,表示该解决方案已经部署完成。 图9 部署完成 刷新页面,在“输出”中查看访问链接(Dify-LLM应用开发平台访问链接、后端数据库查询链接)和 导入Dify工作流DSL文件链接,堆栈部署成功后,约等待5-10分钟左右(受网络波动影响)即可登录Dify平台。 图10 说明 父主题: 实施步骤
    AI
  • 数据库导入数据并测试 进入云数据库 RDS控制台,选择一键部署时创建的RDS for MySQL数据库,选择“登录”。 图12 登录数据库 图13 使用root用户登录MySQL数据库 如果选择PostgreSQL数据库引擎,需要给readonly_user用户赋予只读权限,如果选择MySQL数据库引擎,跳过该步骤即可。 图14 将用户readonly_user的默认事务设置为只读模式 图15 确认是否做了root权限优化,以下sql不报错说明已优化 图16 执行如下操作 提前准备的sql文件导入预设的数据库business_db。点击“导入·导出”,选择“导入”,点击“新建任务”,选择已有的SQL文件或OBS桶中的SQL文件,导入SQL文件。(说明:也可以通过DRS工具往数据库传输数据) 图17 点击“导入·导出”,选择“导入” 图17 导入选择SQL文件 图19 数据导入成功 测试数据库连接,在dify工作流http节点进行测试。点击http节点测试运行按钮。 图20 点击http节点测试运行按钮 图21 输入测试sql语句并运行 创建数据分析LLM节点,配置回复节点内容,完成整个智能问数工作流的搭建。 图22 创建LLM节点 图23 配置回复节点,选择数据分析LLM节点的输出结果 发布工作流,即可运行智能问数对话页面。 图24 发布工作流 图25 运行智能问数
  • Dify平台连接数据库 创建http请求节点,并输入快速部署步骤10数据库服务端暴露的API地址。 图10 创建http请求节点 填写数据库服务端API信息,API请求类型选择“POST”,URL链接为数据库服务端暴露的API地址,HEADERS添加键为“Content-Type”,值为“application/json”,BODY选择“JSON”,并如图11填写JSON信息。 图11 配置http请求节点
  • 安全组规则修改(可选) 该解决方案使用80端口用来访问Dify,默认全放通,请参考修改安全组规则,配置IP地址白名单。 该解决方案使用22端口用来以SSH方式远程登录云服务器,若需远程登录云服务器,请参考修改安全组规则,配置IP地址白名单,以便能正常访问服务。 该解决方案部署成功后,环境初始化预计5分钟左右,受网络、带宽影响,部署时间会有波动部署完成之后方可正常访问。 安全组实际是网络流量访问策略,包括网络流量入方向规则和出方向规则,通过这些规则为安全组内具有相同保护需求并且相互信任的云服务器、云容器、云数据库等实例提供安全保护。 如果您的实例关联的安全组策略无法满足使用需求,比如需要添加、修改、删除某个TCP端口,请参考以下内容进行修改。 添加安全组规则:根据业务使用需求需要开放某个TCP端口,请参考添加安全组规则添加入方向规则,打开指定的TCP端口。 修改安全组规则:安全组规则设置不当会造成严重的安全隐患。您可以参考修改安全组规则,来修改安全组中不合理的规则,保证云服务器等实例的网络安全。 删除安全组规则:当安全组规则入方向、出方向源地址/目的地址有变化时,或者不需要开放某个端口时,您可以参考删除安全组规则进行安全组规则删除。
共100000条
提示

您即将访问非华为云网站,请注意账号财产安全