[开源推广]:我用 600M 参数小模型,在关键词提取上碾压了 Gemini:性能高 14%,速度快 500 倍

2026-04-11 10:501阅读0评论SEO问题
  • 内容介绍
  • 文章标签
  • 相关推荐
问题描述:

本帖使用社区开源推广,符合推广要求。我申明并遵循社区要求的以下内容:

  • 我的帖子已经打上 开源推广 标签:
  • 我的开源项目完整开源,无未开源部分:
  • 我的开源项目已链接认可 LINUX DO 社区:
  • 我帖子内的项目介绍,AI生成、润色内容部分已截图发出:
  • 以上选择我承诺是永久有效的,接受社区和佬友监督:

以下为项目介绍正文内容,AI生成、润色内容已使用截图方式发出


从[开源推广]一个基于Attention机制的关键词摘出-KeyATTEN继续

继续迭代了一个月,提出了一个崭新的思路:QKLORA。
现在我很荣幸的宣布,在当前的中文新闻上,我做到了在抽取式关键词提取全面碾压领先闭源模型。
这个方法天生能输出权重,对于某些需要权重排布的任务十分友好。
本项目基于qwen3-embedding 0.6B,参数仅需600M。
在新闻领域的R@10上,超越第二名 +30.0%
该项目的应用前景:文章新闻索引、打tag

不过该模型在需要提炼关键词的情况下,表现中庸。

零训练路线已在中英文 7 个数据集上验证;QK LoRA 微调目前仅使用中文数据微调并只验证中文场景

在ShenCeCup新闻集中:每篇500token左右

维度 QK LoRA (600M) Gemini 3flash-lite (LLM)
性能 F1@10=0.3292, R@10=0.7325 F1@10=0.2894, R@10=0.5973
成本 本地推理,0 API 费用 API 调用,按 token 计费
速度 ~0.02s/篇 ~11s/篇(500× 慢)
——(5060ti16G显卡下的参数)

image932×879 54.1 KB

但是目前长token会导致性能问题,暂未优化解决。
GitHub: GitHub - Qingfeng-233/KeyAtten: KeyAtten: Attention-based Zero-Shot Keyword & Keyphrase Extraction · GitHub
(如果有 NLP 方向的研究者对这个工作感兴趣, 网友解答:


--【壹】--:

能根据语义把关键词弄出来吗?比如会把饿了=想吃东西 对应起来提取出来


--【贰】--:

KeyAtten 是抽取式关键词提取,暂时做不到这种语义推理


--【叁】--:

这大模型怎么酝酿的啊?只用过yolo,没玩过大的,硬件达不到


--【肆】--:

老哥不写个 arxiv 挂着吗, 有趣的


--【伍】--:

才高中,过不去注册 ,这是我课余时间写的。arxiv要么高校邮箱要么推荐人


--【陆】--:

有测试过复杂的情况吗,例如文本中夹杂大量的符号和数学公式,以及专业领域的。

如果是普通领域的可能只是过拟合了


--【柒】--:

我不懂医学看不出什么东西,你可以试试量子化学领域的文章,这个是我熟悉的领域


--【捌】--:

image1365×1192 227 KB

image558×800 41.6 KB

QK LoRA 训练数据是 CSL(学术摘要)+ ShenCeCup(新闻),微调时没有任何关于这种医学的文章。事实上测试过之后还是有不错的效果。


--【玖】--:

attention系列方法是gte_small模型,33M参数
最好的QK LORA是qwen3-embedding 0.6b,600M参数,我微调过

问题描述:

本帖使用社区开源推广,符合推广要求。我申明并遵循社区要求的以下内容:

  • 我的帖子已经打上 开源推广 标签:
  • 我的开源项目完整开源,无未开源部分:
  • 我的开源项目已链接认可 LINUX DO 社区:
  • 我帖子内的项目介绍,AI生成、润色内容部分已截图发出:
  • 以上选择我承诺是永久有效的,接受社区和佬友监督:

以下为项目介绍正文内容,AI生成、润色内容已使用截图方式发出


从[开源推广]一个基于Attention机制的关键词摘出-KeyATTEN继续

继续迭代了一个月,提出了一个崭新的思路:QKLORA。
现在我很荣幸的宣布,在当前的中文新闻上,我做到了在抽取式关键词提取全面碾压领先闭源模型。
这个方法天生能输出权重,对于某些需要权重排布的任务十分友好。
本项目基于qwen3-embedding 0.6B,参数仅需600M。
在新闻领域的R@10上,超越第二名 +30.0%
该项目的应用前景:文章新闻索引、打tag

不过该模型在需要提炼关键词的情况下,表现中庸。

零训练路线已在中英文 7 个数据集上验证;QK LoRA 微调目前仅使用中文数据微调并只验证中文场景

在ShenCeCup新闻集中:每篇500token左右

维度 QK LoRA (600M) Gemini 3flash-lite (LLM)
性能 F1@10=0.3292, R@10=0.7325 F1@10=0.2894, R@10=0.5973
成本 本地推理,0 API 费用 API 调用,按 token 计费
速度 ~0.02s/篇 ~11s/篇(500× 慢)
——(5060ti16G显卡下的参数)

image932×879 54.1 KB

但是目前长token会导致性能问题,暂未优化解决。
GitHub: GitHub - Qingfeng-233/KeyAtten: KeyAtten: Attention-based Zero-Shot Keyword & Keyphrase Extraction · GitHub
(如果有 NLP 方向的研究者对这个工作感兴趣, 网友解答:


--【壹】--:

能根据语义把关键词弄出来吗?比如会把饿了=想吃东西 对应起来提取出来


--【贰】--:

KeyAtten 是抽取式关键词提取,暂时做不到这种语义推理


--【叁】--:

这大模型怎么酝酿的啊?只用过yolo,没玩过大的,硬件达不到


--【肆】--:

老哥不写个 arxiv 挂着吗, 有趣的


--【伍】--:

才高中,过不去注册 ,这是我课余时间写的。arxiv要么高校邮箱要么推荐人


--【陆】--:

有测试过复杂的情况吗,例如文本中夹杂大量的符号和数学公式,以及专业领域的。

如果是普通领域的可能只是过拟合了


--【柒】--:

我不懂医学看不出什么东西,你可以试试量子化学领域的文章,这个是我熟悉的领域


--【捌】--:

image1365×1192 227 KB

image558×800 41.6 KB

QK LoRA 训练数据是 CSL(学术摘要)+ ShenCeCup(新闻),微调时没有任何关于这种医学的文章。事实上测试过之后还是有不错的效果。


--【玖】--:

attention系列方法是gte_small模型,33M参数
最好的QK LORA是qwen3-embedding 0.6b,600M参数,我微调过