[开源推广]:我用 600M 参数小模型,在关键词提取上碾压了 Gemini:性能高 14%,速度快 500 倍
- 内容介绍
- 文章标签
- 相关推荐
本帖使用社区开源推广,符合推广要求。我申明并遵循社区要求的以下内容:
- 我的帖子已经打上 开源推广 标签: 是
- 我的开源项目完整开源,无未开源部分: 是
- 我的开源项目已链接认可 LINUX DO 社区: 是
- 我帖子内的项目介绍,AI生成、润色内容部分已截图发出: 是
- 以上选择我承诺是永久有效的,接受社区和佬友监督: 是
以下为项目介绍正文内容,AI生成、润色内容已使用截图方式发出
从[开源推广]一个基于Attention机制的关键词摘出-KeyATTEN继续
继续迭代了一个月,提出了一个崭新的思路:QKLORA。
现在我很荣幸的宣布,在当前的中文新闻上,我做到了在抽取式关键词提取全面碾压领先闭源模型。
这个方法天生能输出权重,对于某些需要权重排布的任务十分友好。
本项目基于qwen3-embedding 0.6B,参数仅需600M。
在新闻领域的R@10上,超越第二名 +30.0%
该项目的应用前景:文章新闻索引、打tag
不过该模型在需要提炼关键词的情况下,表现中庸。
零训练路线已在中英文 7 个数据集上验证;QK LoRA 微调目前仅使用中文数据微调并只验证中文场景
在ShenCeCup新闻集中:每篇500token左右
| 维度 | QK LoRA (600M) | Gemini 3flash-lite (LLM) |
|---|---|---|
| 性能 | F1@10=0.3292, R@10=0.7325 | F1@10=0.2894, R@10=0.5973 |
| 成本 | 本地推理,0 API 费用 | API 调用,按 token 计费 |
| 速度 | ~0.02s/篇 | ~11s/篇(500× 慢) |
| ——(5060ti16G显卡下的参数) |
image932×879 54.1 KB
但是目前长token会导致性能问题,暂未优化解决。
GitHub: GitHub - Qingfeng-233/KeyAtten: KeyAtten: Attention-based Zero-Shot Keyword & Keyphrase Extraction · GitHub
(如果有 NLP 方向的研究者对这个工作感兴趣,
网友解答:
--【壹】--:
能根据语义把关键词弄出来吗?比如会把饿了=想吃东西 对应起来提取出来
--【贰】--:
KeyAtten 是抽取式关键词提取,暂时做不到这种语义推理
--【叁】--:
这大模型怎么酝酿的啊?只用过yolo,没玩过大的,硬件达不到
--【肆】--:
老哥不写个 arxiv 挂着吗, 有趣的
--【伍】--:
才高中,过不去注册 ,这是我课余时间写的。arxiv要么高校邮箱要么推荐人
--【陆】--:
有测试过复杂的情况吗,例如文本中夹杂大量的符号和数学公式,以及专业领域的。
如果是普通领域的可能只是过拟合了
--【柒】--:
我不懂医学看不出什么东西,你可以试试量子化学领域的文章,这个是我熟悉的领域
--【捌】--:
image1365×1192 227 KB
image558×800 41.6 KB
QK LoRA 训练数据是 CSL(学术摘要)+ ShenCeCup(新闻),微调时没有任何关于这种医学的文章。事实上测试过之后还是有不错的效果。
--【玖】--:
attention系列方法是gte_small模型,33M参数
最好的QK LORA是qwen3-embedding 0.6b,600M参数,我微调过
本帖使用社区开源推广,符合推广要求。我申明并遵循社区要求的以下内容:
- 我的帖子已经打上 开源推广 标签: 是
- 我的开源项目完整开源,无未开源部分: 是
- 我的开源项目已链接认可 LINUX DO 社区: 是
- 我帖子内的项目介绍,AI生成、润色内容部分已截图发出: 是
- 以上选择我承诺是永久有效的,接受社区和佬友监督: 是
以下为项目介绍正文内容,AI生成、润色内容已使用截图方式发出
从[开源推广]一个基于Attention机制的关键词摘出-KeyATTEN继续
继续迭代了一个月,提出了一个崭新的思路:QKLORA。
现在我很荣幸的宣布,在当前的中文新闻上,我做到了在抽取式关键词提取全面碾压领先闭源模型。
这个方法天生能输出权重,对于某些需要权重排布的任务十分友好。
本项目基于qwen3-embedding 0.6B,参数仅需600M。
在新闻领域的R@10上,超越第二名 +30.0%
该项目的应用前景:文章新闻索引、打tag
不过该模型在需要提炼关键词的情况下,表现中庸。
零训练路线已在中英文 7 个数据集上验证;QK LoRA 微调目前仅使用中文数据微调并只验证中文场景
在ShenCeCup新闻集中:每篇500token左右
| 维度 | QK LoRA (600M) | Gemini 3flash-lite (LLM) |
|---|---|---|
| 性能 | F1@10=0.3292, R@10=0.7325 | F1@10=0.2894, R@10=0.5973 |
| 成本 | 本地推理,0 API 费用 | API 调用,按 token 计费 |
| 速度 | ~0.02s/篇 | ~11s/篇(500× 慢) |
| ——(5060ti16G显卡下的参数) |
image932×879 54.1 KB
但是目前长token会导致性能问题,暂未优化解决。
GitHub: GitHub - Qingfeng-233/KeyAtten: KeyAtten: Attention-based Zero-Shot Keyword & Keyphrase Extraction · GitHub
(如果有 NLP 方向的研究者对这个工作感兴趣,
网友解答:
--【壹】--:
能根据语义把关键词弄出来吗?比如会把饿了=想吃东西 对应起来提取出来
--【贰】--:
KeyAtten 是抽取式关键词提取,暂时做不到这种语义推理
--【叁】--:
这大模型怎么酝酿的啊?只用过yolo,没玩过大的,硬件达不到
--【肆】--:
老哥不写个 arxiv 挂着吗, 有趣的
--【伍】--:
才高中,过不去注册 ,这是我课余时间写的。arxiv要么高校邮箱要么推荐人
--【陆】--:
有测试过复杂的情况吗,例如文本中夹杂大量的符号和数学公式,以及专业领域的。
如果是普通领域的可能只是过拟合了
--【柒】--:
我不懂医学看不出什么东西,你可以试试量子化学领域的文章,这个是我熟悉的领域
--【捌】--:
image1365×1192 227 KB
image558×800 41.6 KB
QK LoRA 训练数据是 CSL(学术摘要)+ ShenCeCup(新闻),微调时没有任何关于这种医学的文章。事实上测试过之后还是有不错的效果。
--【玖】--:
attention系列方法是gte_small模型,33M参数
最好的QK LORA是qwen3-embedding 0.6b,600M参数,我微调过

![[开源推广]:我用 600M 参数小模型,在关键词提取上碾压了 Gemini:性能高 14%,速度快 500 倍](/imgrand/J4athQLB.webp)