了解详情 湘钢人工智能大模型价值评估报告 了解详情 大模型混合云十大创新技术 了解详情 矿山产业集群大模型运营最佳实践 了解详情 矿山大模型最佳实践白皮书 了解详情 政企AI平台架构及应用实践 湘钢人工智能大模型价值评估报告 大模型混合云十大创新技术 了解详情 矿山产业集群大模型运营最佳实践
行业大模型 行业大模型 行业大模型 行业大模型 面向B端提供5个基础大模型,包括LLM大模型、多模态大模型、视觉大模型、预测大模型、气象大模型等 面向B端提供5个基础大模型,包括LLM大模型、多模态大模型、视觉大模型、预测大模型、气象大模型等 专家咨询 文档 五大基础模型 夯实行业大模型能力
盘古大模型 盘古大模型 盘古NLP大模型 盘古NLP大模型 优秀的模型结构,完善的工程化能力,最贴合行业落地的NLP大模型 超大参数规模,最贴合行业落地的NLP大模型 重磅发布盘古NLP 718B深度思考模型,多专家+大稀疏比的MOE新架构,昇腾亲和设计,高效训推 专家咨询 ModelArts
文档与学习成长 盘古大模型 盘古大模型 什么是盘古大模型 盘古预测大模型能力与规格 盘古大模型快速入门 如何调用盘古大模型API 查看全部 AI Gallery百模千态社区 AI Gallery百模千态社区 优质昇腾云AI模型专区 几行代码自由部署AI应用 丰富多样的AI训练数据集 场景化AI案例,助力AI赋能千行百业
定区域模型 速度快 气象大模型单卡可推,分钟级预报,提速百倍 多种部署形态 支持公有云、混合云、边缘多种形态,满足不同需求 文档与学习成长 盘古大模型 盘古大模型 什么是盘古大模型 盘古科学计算大模型能力与规格 盘古大模型用户指南 如何调用盘古大模型API 查看全部 AI Gallery百模千态社区
广汽借助华为云盘古多模态大模型,打造业界首个支持点云生成的大模型,为其端到端仿真高效迭代提供强有力支撑。 文档与学习成长 盘古大模型 盘古大模型 什么是盘古大模型 盘古多模态大模型能力与规格 用户指南 如何调用盘古大模型API 查看全部 AI Gallery百模千态社区 AI Gallery百模千态社区
大模型混合云TOP N 场景 大模型混合云TOP N 场景 1对1咨询 了解华为云Stack 大模型行业场景落地三要素 大模型行业场景落地三要素 场景是大模型行业落地的关键所在,而在场景落地过程中,数据、经验和生态是核心要素,数据的数量和质量决定模型效果上限;经验就像“名师指导”
盘古大模型 盘古大模型 大模型开发平台ModelArts Studio 大模型开发平台ModelArts Studio 支持百模千态的大模型工具链平台,构建规模化可复制的行业大模型解决方案,深入行业解决行业难题 支持百模千态的大模型工具链平台,构建规模化可复制的行业大模型解决方案,深入行业解决行业难题
大模型安全护栏 ModelArts Guard 大模型安全护栏 ModelArts Guard 大模型安全护栏(ModelArts Guard),做配套大模型的内容安全防线 大模型安全护栏(ModelArts Guard),做配套大模型的安全防线,开放兼容,适用盘古大模型和三方大模型
《互联网信息服务算法推荐管理规定》明确,具有舆论属性或者社会动员能力的算法推荐服务提供者应当在提供服务之日起十个工作日内通过互联网信息服务算法备案系统填报服务提供者的名称、服务形式、应用领域、算法类型、算法自评估报告、拟公示内容等信息 方便
湘江鲲鹏目前在人工智能大模型领域拥有算力、数据、算法三大关键要素的经验积累,构建了大模型三个方面的差异化竞争力,盘古大模型AI专业服务覆盖从前期咨询、规划设计,到数据工程、模型训练,再到应用工程及模型运维的完整流程。基于华为盘古提供的AI专业服务包,致力于为企业提供一站式人工智能解决方案
angChain等流行的大模型开发框架,构建企业级AI应用;团队拥有成熟的软件工程技术和管理能力。6. 大模型使用的技术支持,用户使用大模型平台,解答用户使用过程遇到的问题;大模型与应用对接集成,以及进行日常巡检、故障处理、模型升级等服务。4. 工业数据模型(CAD模型、CAE模
太杉天尊大模型AIGC场景解决方案是以AI场景解决方案为核心的全栈Maas综合方案,助力政企客户灵活部署(可公有可私有部署)。具备自研的行业模型能力,主要用于政府/公安/教育等行业的数据处理、文本处理以及多模态处理等多场景。太杉天尊大模型AIGC场景解决方案,是一款专为满足政府企
公司集成了世界领先的底层大模型,具备打通跨模型和工具链的平台,提供从需求分析、数据收集、模型设计、训练优化、评估、系统集成、用户界面设计、部署维护、合规性检查、技术支持、性能监控、扩展性设计、定制服务到持续研发一站式AI大模型定制研发服务。光启慧语是一家围绕大模型全栈开展技术研发和产
数据质量。4. 模型训练:设计调优方案,实施模型训练,并进行模型评测。熟悉盘古大模型工作流和云服务操作,确保模型效果优化。5. 应用工程:提供基于大模型能力的Agent开发和应用对接服务。具备良好的软件开发和沟通能力,实现大模型与应用的无缝对接。6. 模型运维: 提供技
. 模型更新后,将新模型部署至相应环境。 十一、模型评测1. 设计模型评测方案,对大模型各类指标进行评测。2. 能够按评测标准对大模型各项能力进行打分,输出大模型评测报告。 十二、Agent开发1. 基于场景,设计并开发Agent工具。2. 基于langchain等大模型框架,完
天尊大模型AIGC场景解决方案配套服务是太杉AIGC解决方案的人工服务,是以AI应用解决方案为核心的全栈Maas综合方案,助力政企客户灵活部署(可公有可私有部署)。主要用于政府/公安/教育等行业的数据处理、文本处理以及多模态处理等多场景。天尊大模型AIGC场景解决方案配套服务是太
出门问问大模型“序列猴子”是一款具备多模态生成能力的大语言模型,模型以语言为核心的能力体系涵盖“知识、对话、数学、逻辑、推理、规划”六个维度,能够同时支持文字生成、图片生成、3D内容生成、语言生成和语音识别等不同任务。出门问问大模型“序列猴子”是一款具备多模态生成能力的大语言模型,模
本地准备模型包 ModelArts支持本地准备模型包,编写模型配置文件和模型推理代码,将准备好的模型包上传至对象存储服务OBS,从OBS导入模型创建为AI应用。 制作模型包,则需要符合一定的模型包规范。模型包里面必须包含“model”文件夹,“model”文件夹下面放置模型文件,模型配置文件,模型推理代码文件。
ModelArts模型训练 ModelArts模型训练简介 ModelArts模型训练,俗称“建模”,指通过分析手段、方法和技巧对准备好的数据进行探索分析,从中发现因果关系、内部联系和业务规律,为商业目的提供决策参考。训练模型的结果通常是一个或多个机器学习或深度学习模型,模型可以应用到新的数据中,得到预测、评价等结果。
免费AI客服电话-云蝠智能AI客户联络中心 免费AI客服电话-云蝠智能AI客户联络中心 “云蝠智能”企业提供AI客户联络中心,包含智能语音电话机器人、智能语音呼叫、短信分发及企业微信SCRM的业务体系。通过提供AI会员回访、通知、精准营销的系统进行产品服务和赋能。 “云蝠智能”企
端口。 高斯数据库模型-应用场景 金融核心交易 ERP/CRM 政企OA/办公 金融核心交易 金融核心交易 适用于各类银行核心交易系统分布式改造,数据库的原生分布式能力可以极大的降低改造和迁移工作量。两地三中心等极致高可用能力,可以为核心业务保驾护航。 优势 大容量高扩展:支持T
.email域名注册 什么是.email域名注册? 域名注册(Domain Registration)是用户付费获取Internet上某一域名一段时间使用权的过程。华为云域名注册服务提供域名的注册、购买、实名认证以及管理功能。 华为云的域名注册服务与新网合作,因此通过华为云注册的
简单拖拽、自由组合、预置丰富的样式、组件和大屏模板,实时预览,轻松搭建大屏。业务人员和运营人员也可基于需求快速配置大屏。 简单拖拽、自由组合、预置丰富的样式、组件和大屏模板,实时预览,轻松搭建大屏。业务人员和运营人员也可基于需求快速配置大屏。 自定义大屏模板 大屏模板作为资产沉淀,可在项目中快速复用。 大屏模板作为资产沉淀,可在项目中快速复用。
人工智能学习入门 人工智能课程学习,动手实验,在线考试认证,掌握人工智能技能 人工智能知识图谱 在线课程 01 AI基础、技术领域、应用场景、华为云EI AI基础、技术领域、应用场景、华为云EI 动手实验 02 包括初级、中级实验 包括初级、中级实验 AI基础 AI基础 AI基础课程--概览
人工智能学习入门 人工智能课程学习,动手实验,在线考试认证,掌握人工智能技能 人工智能知识图谱 在线课程 01 AI基础、技术领域、应用场景、华为云EI AI基础、技术领域、应用场景、华为云EI 动手实验 02 包括初级、中级实验 包括初级、中级实验 AI基础 AI基础 AI基础课程--概览
这些DeepSeek模型在多项能力上与OpenAI的o1-mini相当,为开发者提供了强大的AI能力。 在MaaS平台上,DeepSeek-R1蒸馏模型已经部署上线,开发者可以通过在线体验或API调用来使用这些模型。为了帮助开发者快速验证和开发创新的AI应用,平台还提供了200
ai大模型怎么做
在智能体开发的早期,最常见的做法是“开发-预览-发布”模式:开发者编写好提示词(Prompt),挂载了知识库和各类工具,在预览聊天框中手动输入5~10个典型问题。如果AI回答得不错,便认为开发完成,直接发布上下。
然而面对真实的业务场景,需要长期稳定运行的智能体而言,这种“抽样聊天”的人工测试存在致命的局限性,往往很快就会遇到这些崩溃时刻:
- 昨天还好好的,今天怎么突然变笨了?
“只是为了优化一句语气词微调了Prompt,结果智能体怎么突然忘记怎么调用知识库了,难道每次改几个字,都要手动重新测试几百个问题吗?”智能体的开发是一个高度敏捷、持续迭代的过程。假设您为了修复“场景A”中的问题,微调了系统提示词。如何确保这一修改没有破坏原本运行完美的“场景B”?如果依靠人工,每次修改一句话,都要把历史的几百个测试用例重新手打一遍,这在人力和时间上是完全不现实的,最终必然导致越改越乱。
- 它竟然当着客户的面瞎编政策!
“遇到知识库没写的问题,不但不拒绝回答,反而自己编造了一个新的答案,到底那条数据触发了它的幻觉?”人工测试通常只覆盖了“理想状态”。当真实用户输入知识库中不存在的偏门问题,或者使用模糊、甚至对抗性的语言提问时,智能体会如何反应?它是否会为了迎合用户而“一本正经地胡说八道”?人工抽测的极低覆盖率,根本无法探测到智能体的能力边界和安全底线。
- 工具看似调用成功了,但是参数对吗?
“让它去查机票,结果转了半天返回无票。是选错了查询工具?还是把明天的日期提取成了今天?完全是个黑盒……”智能体往往包含复杂的执行过程。它可能需要先检索知识库,再调用外部工具查询数据,最后综合输出。单纯看最终输出的文本,您无法知道:它是真的理解了业务逻辑,还是歪打正着;它在调用插件、MCP工具时,是否提取了错误的参数,导致中间步骤失败?
靠人工聊天测试,永远无法科学量化AI的真实能力。我们需要从“手工坊”走向“工业化流水线”,为了打破这种“黑盒”状态,AgentArts全新上线了智能体评估功能。
传统手工测试 VS 自动化评估
为了直观理解AgentArts评估功能带来的效能飞跃,可以通过以下矩阵对比两者的差异:
| 维度 | 传统人工抽样测试 | AgentArts自动化评估 |
|---|---|---|
| 测试规模 | 每次5~10条,人工输入问题观察结果。 | 每次数百条,自动化执行评测任务。 |
| 评判标准 | 开发者主观感受(看着还行)。 | 提供标准化的评估器,使用大模型作为裁判,提供量化打分(0~1分)将主观感受转化为客观的数据。 |
| 评估维度 | 仅关注答的对不对。 | 内置30+细分维度(幻觉、AI味、工具参数正确性、格式检查等)的评估器,全方位对智能体进行评估检查。 |
| 迭代保障 | 无法回归,越改越怕。 | 通过评估建立数据基线,分数对比一目了然,提示词调整、智能体优化有据可依。 |
智能体评估要素
让智能体由黑盒变得透明非常简单。在AgentArts中可以将“智能体评估”的过程,形象地类比为AI举办的一场“模拟考试”。在这场自动化模考中,包含三大核心要素(分别对应AgentArts平台上的三大核心功能):
- 要素一:评测集,定义考卷与标准答案
您想考察智能体的哪些能力,评测集就是包含了上百条测试用例的结构化数据表。一张优秀的考卷,绝不能只有“送分题”(常见问题),它必包括:
- 正向用例:测试基础业务能力。
- 边界用例:测试模糊提问,上下文衔接能力。
- 对抗用例(陷阱题):如故意询问知识库外的信息,测试其拒答能力。
在平台中,需要给评测集设计数据字段,包含基础的input(输入问题)和reference_output(预期答案),并可基于实际测试要求增加额外的字段。
- 要素二:评估器,挑选阅卷者和评分标准
考卷做完了,用什么标准来打分?AgentArts预置了30+不同专业领域的“阅卷官”,针对同一份回答,它们有不同的审视视角。
- 正确性评估器:只核对核心事实和关键数据是否与参考答案一致。
- 幻觉现象评估器:拿着参考资料(Context)逐句排查,只要AI输出了不相干的内容,直接判定为0分。
- 工具参数正确性评估器:不看文本,专盯Trace轨迹,检查AI调用的API参数字段类型和数值是否全部正确。
评估器不是越多越好,创建评估任务时,您需要根据业务痛点,合理地选择评估器,组合使用。
- 要素三:评估任务,组织自动化模考并发放成绩单
评估任务本质是将评测集发给智能体,并由评估器打分的过程。在配置好评测集、评估器后,只需创建评估任务,系统将在后台高并发地运行所有题目,追踪每一次智能体的调用数据,并最终汇总生成多维度的评估报告。
量化评估到针对性调优
许多新手开发者最大的误区是“拿到高分评估报告,就认为工作结束了”。事实上“为了找到缺陷并证明优化有效”才是评估的最终价值。在AgentArts评估智能体工程中,强烈建议将以下评估方法论融入到评估动作中。
- 阶段一:基线摸底
智能体初版完成后,立即使用包含30~50条黄金数据的评测集跑一次“基线测试”。并通过评估报告查看“能力洼地”。例如,某企业IT助手的总分有85分,但“幻觉现象”这一项得分极低,仅有40分。这明确了第一阶段的优化目标是“防止编造”。
- 阶段二:抓取BadCase、人工标注校准数据
- 下钻寻根:在报告的数据明细列表中,按得分进行升序排列,过滤出那些被打0分或低分的“不及格”测试用例。对比“用户原始问题”、“智能体实际输出”与“标准参考答案”的差异。查看中间流转节点的输出:是知识库检索为空导致它开始瞎编?还是插件工具的API返回了复杂JSON它没能正确解析?
- 人工改分(建立真值):大模型“阅卷官”虽然高效但并非100%完美。如果您在复核时发现评估器打分过于严苛或存在误判,可以直接修改该条测试的得分。修改后的分数将作为权威的“真值”保存,让统计更加精准。
- 打标签(错题归类):为正例打上标签,也可以为查明病因的BadCase打上标签(例如:Prompt约束弱、知识库缺失、API提参问题)。这个动作将冷冰冰的报告变成了一本结构化的“错题本”,为下一步的批量调优指明方向。
- 阶段三:精准微调
带着明确的“病因”返回智能体编辑界面,进行针对性干预。常见的干预手段包括:
- 修改Prompt:如果病因是发生幻觉,在系统提示词中追加强约束,例如:“【重要指令】当知识库检索结果为空时,必须明确回复‘抱歉,内部知识库暂无相关指南’,严禁根据模型自有知识进行解答。”
- 修改插件/MCP描述:如果病因是参数提取错误,去修改对应工具的描述字段,把原本模糊的“date”描述修改为“请提取用户提问中的时间,并必须转换为YYYY-MM-DD格式”。
- 补充知识库:如果病因确实是源文件中缺少这部分知识,则去维护底层的知识库内容。
- 阶段四:回归验证
智能体调整完成后,使用同一份评测集执行一次评估,观察评分是否得到改善。如果“幻觉现象”的分数从0分跃升到了1分,并且其他维度的分数没有下降(没有发生回归灾难),那么恭喜您,您的优化动作被数据科学地证明是成功的!
评估实践
建立好上述的“评估”认知后,您已经跨越了初级开发者的凭感觉调参,掌握了高阶评估的核心思维论。接下来,请根据您的实际开发进度,查阅为您准备的具体场景实战指南,开始您的智能体评估之旅:
- 如何准备高质量的测试数据?请阅读:评测集设计实践
- 面对多种评估器不知道该怎么选?请阅读:评估器最优组合实践
- 想看一个真实的端到端调优案例?请阅读:企业知识问答助手(RAG)智能体评估
ai大模型怎么做常见问题
更多常见问题 >>-
模型转换,即将开源框架的网络模型(如Caffe、TensorFlow等),通过ATC(Ascend Tensor Compiler)模型转换工具,将其转换成昇腾AI处理器支持的离线模型。
-
本次Serverless应用中心上线文生图应用,用户无需下载源代码、了解各种安装部署知识、安装复杂的依赖,通过华为云Serverless应用中心即可一键创建AI文生图应用,体验 “0” 构建门槛、“0” 资源闲置并具备极致弹性的Serverless AI绘图能力。
-
在自然语言处理(NLP)领域中,使用语言模型预训练方法在多项NLP任务上都获得了不错的提升,广泛受到了各界的关注。本课程将简单介绍一下预训练的思想,几个代表性模型和它们之间的关系。
-
华为云Serverless技术极大的优化了AI应用开发过程,一键部署AI应用、提升开发团队工作效率。让AI团队可以更关注业务实现,而无需关注底层技术细节。
-
知识图谱(KG)和大语言模型(LLM)都是知识的表示形式。KG是符号化的知识库,具备一定推理能力,且结果可解释性较好。但存在构建成本高、泛化能力不足、更新难等不足。
-
AI一站式开发平台ModelArts横空出世,零基础AI开发人员的福音。学习本课程,带你了解AI模型训练,不会编程、不会算法、不会高数,一样可以构建出自己专属的AI模型。
更多相关专题
增值电信业务经营许可证:B1.B2-20200593 | 域名注册服务机构许可:黔D3-20230001 | 代理域名注册服务机构:新网、西数