claw vibe代替human vibe,3小时把softmax较torch.softmax性能提高到3倍以上!(N=2048)
- 内容介绍
- 文章标签
- 相关推荐
问题描述:
按
先看对比表(4060ti平台)
按 N 聚合后的中位 speedup(candidate vs torch)
| 场景 | N=128 | 256 | 512 | 1024 | 2048 | 4096 |
|---|---|---|---|---|---|---|
fp16 / none |
0.38x | 0.55x | 0.27x | 1.41x | 2.87x | 1.02x |
bf16 / none |
0.39x | 0.55x | 0.48x | 1.40x | 2.39x | 1.03x |
fp16 / pad |
0.78x | 1.13x | 2.00x | 3.07x | 3.72x | 2.40x |
bf16 / pad |
0.80x | 1.18x | 2.00x | 3.04x | 3.38x | 2.44x |
在我开发的全自动交付平台上,这是我的设置,我仅仅给了一句话的要求:
梳理目前softmax优化版本的sota,设计能超过当前sota的softmax优化版本,你自己运行并给出结果的对比。
问题描述:
按
先看对比表(4060ti平台)
按 N 聚合后的中位 speedup(candidate vs torch)
| 场景 | N=128 | 256 | 512 | 1024 | 2048 | 4096 |
|---|---|---|---|---|---|---|
fp16 / none |
0.38x | 0.55x | 0.27x | 1.41x | 2.87x | 1.02x |
bf16 / none |
0.39x | 0.55x | 0.48x | 1.40x | 2.39x | 1.03x |
fp16 / pad |
0.78x | 1.13x | 2.00x | 3.07x | 3.72x | 2.40x |
bf16 / pad |
0.80x | 1.18x | 2.00x | 3.04x | 3.38x | 2.44x |
在我开发的全自动交付平台上,这是我的设置,我仅仅给了一句话的要求:
梳理目前softmax优化版本的sota,设计能超过当前sota的softmax优化版本,你自己运行并给出结果的对比。

