模型压力测试工具调研
- 内容介绍
- 文章标签
- 相关推荐
问题描述:
网友解答:
--【壹】--:
--【贰】--:
--【叁】--:
--【肆】--:
--【伍】--:
--【陆】--:
--【柒】--:
老板让调研一下业界有什么模型压力测试工具,我整理了一些,佬友们有无从事相关方向工作的?
| 类别 | 工具名称 | 核心支持指标 | 适配后端 / 推理框架 | 支持模型类型 | 归属 / 维护方 | 官方榜单 |
|---|---|---|---|---|---|---|
| 框架原生 | vLLM Benchmark | 首字速度、生成速度、总时延、吞吐量、并发能力 | vLLM 原生,也能测 OpenAI 兼容接口 | 主流 LLM,部分 pooling 场景 | vLLM 官方 | 无 |
| 框架原生 | GuideLLM | 更偏生产视角的压测;看 TTFT、ITL、总时延、吞吐拐点、SLO/SLA 是否达标 | OpenAI 兼容服务、vLLM-native | 主流 LLM,也支持多模态输入数据 | vLLM 项目 | 无 |
| 框架原生 | SGLang Bench | 单批/服务压测、延迟、吞吐、Profiling 分析 | SGLang 原生 | LLM、VLM/多模态 | SGLang 官方 | 无 |
| 框架原生 | GenAI-bench | 高并发下的 token 级性能测试;看吞吐、延迟、并发表现 | OpenAI 兼容接口,常用于 SGLang 等服务 | 主流 LLM | sgl-project 社区 | 无 |
| 框架原生 | TGI Benchmark | TGI 服务的吞吐、时延、不同 batch 配置下的性能变化 | Hugging Face TGI | HF 生态生成模型 | Hugging Face 官方 | 无 |
| 框架原生 | LMDeploy Benchmark | 首 token 延迟、token 吞吐、P50/P95/P99、显存占用、动态吞吐 | LMDeploy / TurboMind / PyTorch backend | 主流开源 LLM | LMDeploy / OpenMMLab / InternLM 生态 | 无 |
| 社区工具 | ollama-benchmark | 本地 Ollama 模型跑得快不快;常看 tokens/s、响应速度、简单负载 | Ollama | 本地 LLM、Embedding 等(视具体实现) | 社区项目,非 Ollama 官方 | 无 |
| 通用压测 | inference-perf | 面向生产部署的通用压测;可统一比较不同推理服务 | 模型服务无关;支持 vLLM、SGLang、TGI 等,也适合 K8s 场景 | GenAI / LLM 服务 | Kubernetes SIGs 社区 | 无 |
| 通用压测 | LLMPerf | 传统 API 压测工具;看 TTFT、ITL、正确性/稳定性;但项目已归档 | 各类 LLM API | LLM API 服务 | Ray 项目(已归档) | 无 |
| 通用压测 | LMeterX | 一站式 API 压测平台;支持结果对比和 AI 总结,更偏平台化 | LLM 服务、HTTP API、网关等 | LLM、VLM、通用 API | MigoXLab 社区 | 无 |
| 评测+压测一体 | EVALScope | 不只测性能,还能测模型效果;适合“精度+性能”一起看 | OpenCompass、VLMEvalKit、RAGEval 等,也可做压力测试 | LLM、VLM、Embedding、Reranker、AIGC | ModelScope 社区 | 无 |
| 评测+压测一体 | AISBench | 基于 OpenCompass,兼顾精度评测和服务化性能压测,支持真实业务流量模拟 | OpenCompass 兼容,本地模型、服务化模型、vLLM/Triton 等 | 文本、多模态模型 | AISBench 社区/国内团队 | 无 |
| 基准体系 | GCBS-AI | 面向 AI 芯片、服务器、集群的综合测试套件,覆盖基础算力、训练、推理 | 更偏系统级/整机级平台 | AI 芯片、AI 服务器、AI 集群 | 工业和信息化部电子第五研究所 | 有相关排行榜 (STF Monthly) |
| 基准体系 | MLPerf | 国际最知名 AI 基准之一,测训练/推理系统性能 | 多厂商硬件与软件栈 | 训练、推理、多任务模型 | MLCommons | 有 (GitHub) |
| 基准体系 | AIPerf500 | 面向 AI 算力平台/超算的排行榜,偏系统级 AI 算力表现 | 智算中心、AI 集群、平台级系统 | 训练、推理、算力系统 | AIPerf 相关组织/国内高校科研团队推动 | 有 (aiperf.org) |
--【壹】--:
api测压?这么刺激?天价账单?
--【贰】--:
本地的,目的是用来测试GPU卡子
--【叁】--:
我是一般用 vllm serve bench,最近试了一下 evalscope 的压测,感觉测出来的 tpot 会高一点
--【肆】--:
非模型这个口的 平时都是用 api 爱莫能助大佬
--【伍】--:
前两天服务器直接被 2 了,模型套壳成 claude 被卖
--【陆】--:
有感兴趣的佬友可以交流交流啊
--【柒】--:
还没使用过Evalscope,佬有没有使用过AISBench
问题描述:
网友解答:
--【壹】--:
--【贰】--:
--【叁】--:
--【肆】--:
--【伍】--:
--【陆】--:
--【柒】--:
老板让调研一下业界有什么模型压力测试工具,我整理了一些,佬友们有无从事相关方向工作的?
| 类别 | 工具名称 | 核心支持指标 | 适配后端 / 推理框架 | 支持模型类型 | 归属 / 维护方 | 官方榜单 |
|---|---|---|---|---|---|---|
| 框架原生 | vLLM Benchmark | 首字速度、生成速度、总时延、吞吐量、并发能力 | vLLM 原生,也能测 OpenAI 兼容接口 | 主流 LLM,部分 pooling 场景 | vLLM 官方 | 无 |
| 框架原生 | GuideLLM | 更偏生产视角的压测;看 TTFT、ITL、总时延、吞吐拐点、SLO/SLA 是否达标 | OpenAI 兼容服务、vLLM-native | 主流 LLM,也支持多模态输入数据 | vLLM 项目 | 无 |
| 框架原生 | SGLang Bench | 单批/服务压测、延迟、吞吐、Profiling 分析 | SGLang 原生 | LLM、VLM/多模态 | SGLang 官方 | 无 |
| 框架原生 | GenAI-bench | 高并发下的 token 级性能测试;看吞吐、延迟、并发表现 | OpenAI 兼容接口,常用于 SGLang 等服务 | 主流 LLM | sgl-project 社区 | 无 |
| 框架原生 | TGI Benchmark | TGI 服务的吞吐、时延、不同 batch 配置下的性能变化 | Hugging Face TGI | HF 生态生成模型 | Hugging Face 官方 | 无 |
| 框架原生 | LMDeploy Benchmark | 首 token 延迟、token 吞吐、P50/P95/P99、显存占用、动态吞吐 | LMDeploy / TurboMind / PyTorch backend | 主流开源 LLM | LMDeploy / OpenMMLab / InternLM 生态 | 无 |
| 社区工具 | ollama-benchmark | 本地 Ollama 模型跑得快不快;常看 tokens/s、响应速度、简单负载 | Ollama | 本地 LLM、Embedding 等(视具体实现) | 社区项目,非 Ollama 官方 | 无 |
| 通用压测 | inference-perf | 面向生产部署的通用压测;可统一比较不同推理服务 | 模型服务无关;支持 vLLM、SGLang、TGI 等,也适合 K8s 场景 | GenAI / LLM 服务 | Kubernetes SIGs 社区 | 无 |
| 通用压测 | LLMPerf | 传统 API 压测工具;看 TTFT、ITL、正确性/稳定性;但项目已归档 | 各类 LLM API | LLM API 服务 | Ray 项目(已归档) | 无 |
| 通用压测 | LMeterX | 一站式 API 压测平台;支持结果对比和 AI 总结,更偏平台化 | LLM 服务、HTTP API、网关等 | LLM、VLM、通用 API | MigoXLab 社区 | 无 |
| 评测+压测一体 | EVALScope | 不只测性能,还能测模型效果;适合“精度+性能”一起看 | OpenCompass、VLMEvalKit、RAGEval 等,也可做压力测试 | LLM、VLM、Embedding、Reranker、AIGC | ModelScope 社区 | 无 |
| 评测+压测一体 | AISBench | 基于 OpenCompass,兼顾精度评测和服务化性能压测,支持真实业务流量模拟 | OpenCompass 兼容,本地模型、服务化模型、vLLM/Triton 等 | 文本、多模态模型 | AISBench 社区/国内团队 | 无 |
| 基准体系 | GCBS-AI | 面向 AI 芯片、服务器、集群的综合测试套件,覆盖基础算力、训练、推理 | 更偏系统级/整机级平台 | AI 芯片、AI 服务器、AI 集群 | 工业和信息化部电子第五研究所 | 有相关排行榜 (STF Monthly) |
| 基准体系 | MLPerf | 国际最知名 AI 基准之一,测训练/推理系统性能 | 多厂商硬件与软件栈 | 训练、推理、多任务模型 | MLCommons | 有 (GitHub) |
| 基准体系 | AIPerf500 | 面向 AI 算力平台/超算的排行榜,偏系统级 AI 算力表现 | 智算中心、AI 集群、平台级系统 | 训练、推理、算力系统 | AIPerf 相关组织/国内高校科研团队推动 | 有 (aiperf.org) |
--【壹】--:
api测压?这么刺激?天价账单?
--【贰】--:
本地的,目的是用来测试GPU卡子
--【叁】--:
我是一般用 vllm serve bench,最近试了一下 evalscope 的压测,感觉测出来的 tpot 会高一点
--【肆】--:
非模型这个口的 平时都是用 api 爱莫能助大佬
--【伍】--:
前两天服务器直接被 2 了,模型套壳成 claude 被卖
--【陆】--:
有感兴趣的佬友可以交流交流啊
--【柒】--:
还没使用过Evalscope,佬有没有使用过AISBench

