模型压力测试工具调研

2026-04-11 14:121阅读0评论SEO资讯
  • 内容介绍
  • 文章标签
  • 相关推荐
问题描述:

老板让调研一下业界有什么模型压力测试工具,我整理了一些,佬友们有无从事相关方向工作的?

类别 工具名称 核心支持指标 适配后端 / 推理框架 支持模型类型 归属 / 维护方 官方榜单
框架原生 vLLM Benchmark 首字速度、生成速度、总时延、吞吐量、并发能力 vLLM 原生,也能测 OpenAI 兼容接口 主流 LLM,部分 pooling 场景 vLLM 官方
框架原生 GuideLLM 更偏生产视角的压测;看 TTFT、ITL、总时延、吞吐拐点、SLO/SLA 是否达标 OpenAI 兼容服务、vLLM-native 主流 LLM,也支持多模态输入数据 vLLM 项目
框架原生 SGLang Bench 单批/服务压测、延迟、吞吐、Profiling 分析 SGLang 原生 LLM、VLM/多模态 SGLang 官方
框架原生 GenAI-bench 高并发下的 token 级性能测试;看吞吐、延迟、并发表现 OpenAI 兼容接口,常用于 SGLang 等服务 主流 LLM sgl-project 社区
框架原生 TGI Benchmark TGI 服务的吞吐、时延、不同 batch 配置下的性能变化 Hugging Face TGI HF 生态生成模型 Hugging Face 官方
框架原生 LMDeploy Benchmark 首 token 延迟、token 吞吐、P50/P95/P99、显存占用、动态吞吐 LMDeploy / TurboMind / PyTorch backend 主流开源 LLM LMDeploy / OpenMMLab / InternLM 生态
社区工具 ollama-benchmark 本地 Ollama 模型跑得快不快;常看 tokens/s、响应速度、简单负载 Ollama 本地 LLM、Embedding 等(视具体实现) 社区项目,非 Ollama 官方
通用压测 inference-perf 面向生产部署的通用压测;可统一比较不同推理服务 模型服务无关;支持 vLLM、SGLang、TGI 等,也适合 K8s 场景 GenAI / LLM 服务 Kubernetes SIGs 社区
通用压测 LLMPerf 传统 API 压测工具;看 TTFT、ITL、正确性/稳定性;但项目已归档 各类 LLM API LLM API 服务 Ray 项目(已归档)
通用压测 LMeterX 一站式 API 压测平台;支持结果对比和 AI 总结,更偏平台化 LLM 服务、HTTP API、网关等 LLM、VLM、通用 API MigoXLab 社区
评测+压测一体 EVALScope 不只测性能,还能测模型效果;适合“精度+性能”一起看 OpenCompass、VLMEvalKit、RAGEval 等,也可做压力测试 LLM、VLM、Embedding、Reranker、AIGC ModelScope 社区
评测+压测一体 AISBench 基于 OpenCompass,兼顾精度评测和服务化性能压测,支持真实业务流量模拟 OpenCompass 兼容,本地模型、服务化模型、vLLM/Triton 等 文本、多模态模型 AISBench 社区/国内团队
基准体系 GCBS-AI 面向 AI 芯片、服务器、集群的综合测试套件,覆盖基础算力、训练、推理 更偏系统级/整机级平台 AI 芯片、AI 服务器、AI 集群 工业和信息化部电子第五研究所 有相关排行榜 (STF Monthly)
基准体系 MLPerf 国际最知名 AI 基准之一,测训练/推理系统性能 多厂商硬件与软件栈 训练、推理、多任务模型 MLCommons 有 (GitHub)
基准体系 AIPerf500 面向 AI 算力平台/超算的排行榜,偏系统级 AI 算力表现 智算中心、AI 集群、平台级系统 训练、推理、算力系统 AIPerf 相关组织/国内高校科研团队推动 有 (aiperf.org)
网友解答:
--【壹】--:

api测压?这么刺激?天价账单?


--【贰】--:

本地的,目的是用来测试GPU卡子


--【叁】--:

我是一般用 vllm serve bench,最近试了一下 evalscope 的压测,感觉测出来的 tpot 会高一点


--【肆】--:

非模型这个口的 平时都是用 api 爱莫能助大佬


--【伍】--:

前两天服务器直接被 2 了,模型套壳成 claude 被卖


--【陆】--:

有感兴趣的佬友可以交流交流啊


--【柒】--:

还没使用过Evalscope,佬有没有使用过AISBench

标签:人工智能
问题描述:

老板让调研一下业界有什么模型压力测试工具,我整理了一些,佬友们有无从事相关方向工作的?

类别 工具名称 核心支持指标 适配后端 / 推理框架 支持模型类型 归属 / 维护方 官方榜单
框架原生 vLLM Benchmark 首字速度、生成速度、总时延、吞吐量、并发能力 vLLM 原生,也能测 OpenAI 兼容接口 主流 LLM,部分 pooling 场景 vLLM 官方
框架原生 GuideLLM 更偏生产视角的压测;看 TTFT、ITL、总时延、吞吐拐点、SLO/SLA 是否达标 OpenAI 兼容服务、vLLM-native 主流 LLM,也支持多模态输入数据 vLLM 项目
框架原生 SGLang Bench 单批/服务压测、延迟、吞吐、Profiling 分析 SGLang 原生 LLM、VLM/多模态 SGLang 官方
框架原生 GenAI-bench 高并发下的 token 级性能测试;看吞吐、延迟、并发表现 OpenAI 兼容接口,常用于 SGLang 等服务 主流 LLM sgl-project 社区
框架原生 TGI Benchmark TGI 服务的吞吐、时延、不同 batch 配置下的性能变化 Hugging Face TGI HF 生态生成模型 Hugging Face 官方
框架原生 LMDeploy Benchmark 首 token 延迟、token 吞吐、P50/P95/P99、显存占用、动态吞吐 LMDeploy / TurboMind / PyTorch backend 主流开源 LLM LMDeploy / OpenMMLab / InternLM 生态
社区工具 ollama-benchmark 本地 Ollama 模型跑得快不快;常看 tokens/s、响应速度、简单负载 Ollama 本地 LLM、Embedding 等(视具体实现) 社区项目,非 Ollama 官方
通用压测 inference-perf 面向生产部署的通用压测;可统一比较不同推理服务 模型服务无关;支持 vLLM、SGLang、TGI 等,也适合 K8s 场景 GenAI / LLM 服务 Kubernetes SIGs 社区
通用压测 LLMPerf 传统 API 压测工具;看 TTFT、ITL、正确性/稳定性;但项目已归档 各类 LLM API LLM API 服务 Ray 项目(已归档)
通用压测 LMeterX 一站式 API 压测平台;支持结果对比和 AI 总结,更偏平台化 LLM 服务、HTTP API、网关等 LLM、VLM、通用 API MigoXLab 社区
评测+压测一体 EVALScope 不只测性能,还能测模型效果;适合“精度+性能”一起看 OpenCompass、VLMEvalKit、RAGEval 等,也可做压力测试 LLM、VLM、Embedding、Reranker、AIGC ModelScope 社区
评测+压测一体 AISBench 基于 OpenCompass,兼顾精度评测和服务化性能压测,支持真实业务流量模拟 OpenCompass 兼容,本地模型、服务化模型、vLLM/Triton 等 文本、多模态模型 AISBench 社区/国内团队
基准体系 GCBS-AI 面向 AI 芯片、服务器、集群的综合测试套件,覆盖基础算力、训练、推理 更偏系统级/整机级平台 AI 芯片、AI 服务器、AI 集群 工业和信息化部电子第五研究所 有相关排行榜 (STF Monthly)
基准体系 MLPerf 国际最知名 AI 基准之一,测训练/推理系统性能 多厂商硬件与软件栈 训练、推理、多任务模型 MLCommons 有 (GitHub)
基准体系 AIPerf500 面向 AI 算力平台/超算的排行榜,偏系统级 AI 算力表现 智算中心、AI 集群、平台级系统 训练、推理、算力系统 AIPerf 相关组织/国内高校科研团队推动 有 (aiperf.org)
网友解答:
--【壹】--:

api测压?这么刺激?天价账单?


--【贰】--:

本地的,目的是用来测试GPU卡子


--【叁】--:

我是一般用 vllm serve bench,最近试了一下 evalscope 的压测,感觉测出来的 tpot 会高一点


--【肆】--:

非模型这个口的 平时都是用 api 爱莫能助大佬


--【伍】--:

前两天服务器直接被 2 了,模型套壳成 claude 被卖


--【陆】--:

有感兴趣的佬友可以交流交流啊


--【柒】--:

还没使用过Evalscope,佬有没有使用过AISBench

标签:人工智能