AI开发平台MODELARTS-语言模型推理性能测试:单条请求性能测试
单条请求性能测试
针对openai的/v1/completions以及/v1/chat/completions两个非流式接口,请求体中可以添加可选参数"return_latency",默认为false,若指定该参数为true,则会在相应请求的返回体中返回字段"latency",返回内容如下:
- prefill_latency(首token时延):请求从到达服务开始到生成首token的耗时
- model_prefill_latency(模型计算首token时延):服务从开始计算首token到生成首token的耗时
- avg_decode_latency(平均增量token时延):服务计算增量token的平均耗时
- time_in_queue(请求排队时间):请求从到达服务开始到开始被调度的耗时
- request_latency(请求总时延):请求从到达服务开始到结束的耗时
以上指标单位均是ms,保留2位小数。