华为云首页用户手册

AI开发平台MODELARTS-语言模型推理性能测试:单条请求性能测试

AI开发平台MODELARTS-语言模型推理性能测试:单条请求性能测试

时间：2025-04-09 09:16:18

AI开发平台MODELARTS 推理性能测试

单条请求性能测试

针对openai的/v1/completions以及/v1/chat/completions两个非流式接口，请求体中可以添加可选参数"return_latency"，默认为false，若指定该参数为true，则会在相应请求的返回体中返回字段"latency"，返回内容如下：

prefill_latency（首token时延）：请求从到达服务开始到生成首token的耗时
model_prefill_latency（模型计算首token时延）：服务从开始计算首token到生成首token的耗时
avg_decode_latency（平均增量token时延）：服务计算增量token的平均耗时
time_in_queue（请求排队时间）：请求从到达服务开始到开始被调度的耗时
request_latency（请求总时延）：请求从到达服务开始到结束的耗时

以上指标单位均是ms，保留2位小数。

上一篇：AI开发平台MODELARTS-语言模型推理性能测试:动态benchmark

下一篇：AI开发平台MODELARTS-语言模型推理性能测试:动态benchmark

新客秒杀 L实例 2核1G 2M

29元/年

企业专享 X实例 2核4G 5M

198元/年

域名建站 com域名 1元

立即前往

免费体验 90+云产品免费体验

立即前往

AI开发平台MODELARTS-语言模型推理性能测试:单条请求性能测试

意见反馈

0/200

提交成功！非常感谢您的反馈，我们会继续努力做到更好反馈提交失败！请稍后重试！

推荐文章

解决方案
相关专题