LLM推理相关指标

(1)Time To First Token(TTFT)

生成第一个token的时间,衡量的是在用户输入问题或者查询后,LLMs开始响应的速度,关系到实时交互。

(2)Time Per Output Token(TPOT)

每秒输出标记的时间,生成每个输出token所需的时间,10 tokens / second是一个阈值,低于这个阈值系统会觉得卡顿。

(3)Latency = TTFT + TPOT * 生成的token的数量

生成所有tokens的总时间

(4)Throughput

推理服务器在所有请求中每秒生成的tokens数量

优化目标:

(1)最小化TTFT,最大化Throughput,减少TPOT

(2)平衡Throughput和TPOT,并发处理多个请求会增加Throughput,但是会增加每个用户的TPOT。

模型评估的关键参数:

(1)输出长度Output Length:决定延迟

(2)输出长度Input Length:对性能影响较小,但是对硬件要求较高

(3)模型尺寸:更大的模型有更高的延迟,延迟和模型尺寸不成正比,Llama-70B 是 Llama-13B的两倍。

你可能感兴趣的:(cuda,transformer)