还有做知识库的吗?利用飞书aily、知识库,搭建问答小助手,欢迎进来调优!
- 内容介绍
- 文章标签
- 相关推荐
一、背景介绍
目前所在公司是传统制造业信息化,其中涉及到管理、营销、生产相关软件较多。其中包含sass系统、自研系统等,例如:OA、HR、ERP、CRM 等共计39个系统的功能使用方面的知识问答。
搭建出来的agent主要是解决企业内员工在系统/软件使用上的问题。
二、接手上任留下来的坑
半途入手,我是在上一任知识库搭建者的基础上进行调优。上任很暴力的把知识库分成了三大类:{管理、营销、日常运维};
工作流搭建的也很简单:开始->意图识别->知识问答->LLM调优->判断有无答案->结束;
最终因为问答效率慢、准确率不高导致下任…(这准确率能高的话,那 AIGC 就真出世了..)
三、重构设计
在接手上任的坑后,我花将近一周熟悉了下飞书 aily 的官方文档,发现他们其实都将可用到的功能都封装好成了每一个节点功能,直接搭建工作流就OK,针对于检索、召回并不能做很多开发上的设置或调配。所以我主要对工作流、知识内容做了调整。下图附上工作流设计图(注:欢迎大佬来回复调优!!)
image1565×1196 54.5 KB
四、现状
已针对高频使用率的知识库完成了搭建测试,(自测效率和token量都降了不少,还没有批量调用的数据可用~待批量测试或部生产观察一段时间后我再作更新)
目前正在完成剩余工作流的搭建和知识内容结构调整,包括术语、意图识别的keyword调优…
飞书踩坑
- 对话日志收集
飞书aily应用包含了日志自动收集,使用该应用对话的日志会自动收集并同步到一张飞书多维表格当中,飞书表格也是自动创建到该应用权限所有人下。然后坑就来了,如果该应用转移了作者,那么该飞书表格不会跟着一起转移…也就是说,原有日志仍可使用,但如果一旦关闭同步再次开启,那么会再创建一个新的多维表格,且仅支持同步近7天的日志记录!然后历史记录虽不会丢失,但也只能搭建一个工作流做同步,因为多维表格导出的话是全量的,导入时限制文件大小20MB。
另外一坑:我是因为对话日志同步多维表格时报错,所以想着关闭下同步再开启复现下问题,结果就很悲催了~因为当时存在同步错误,然后更重点的来了,如果报错时不保留错误信息,提工单找技术支持原因也是不可查的!另外,未同步多维表格的历史数据也是不可补录的!!!企业级应用就这么着丢日志了… - 飞书多维表格
目前企业版一张飞书多维表格上限50000行;超过5W行,只允许再新建一张; - 飞书目前企业版单一应用仅支持关联10个知识空间!
PS:因为我们企业内上线的系统/应用已40+,so 如果飞书那边不支持增加上限的话,可能就要重新设计知识库的结构了。
img_v3_0210c_5bea1abe-8f7b-4c2c-8d20-303346eb54cg1255×1065 122 KB
--【壹】--:
看完agentic search,好像不太适用目前这个项目。
主要是知识边界,该应用仅支持问答企业内已上线系统/软件的问题,不支持联网,还有要解决大模型的幻觉问题。当然,也增加兜底策略:当下反馈用户无答案或提IT工单处理,后续用户即时反馈不满意/企业内部IT工单/badcase分析,以此达到不断迭代优化的一个过程。
不过agentic search 对我另外一个项目有深度启发,感谢佬~
--【贰】--:
目前倒没有迷茫,但总感觉这套流程设计还缺点什么
--【叁】--:
是了,飞书搭建知识库用来作检索的话对知识格式还有结构化比较严格。不然会影响召回。
首次推广不顺利就是因为知识内容不充足 + 问答准确率不高,所以目前没有大批量的使用起来,不过我认为这是一个不断迭代优化的过程,目前看来,知识库搭建、管理规范时间占用比重很大,另外就是架构一定要能够不断迭代形成一套自动化的体系。
--【肆】--:
佬的背景跟我司的好相似,最难的可能是收集部门资料和培养用户使用知识库
--【伍】--:
mark一下 等准备好了 用一下
--【陆】--:
mark下,向大佬学习,用之前用的coze搭的工作流,太垃圾了
--【柒】--:
可以试试claude的思路,简单对知识分层分类,然后建个索引放CLAUDE.md里,直接问claude,你可以对比看看结果,claude官方叫做agentic search
--【捌】--:
互相学习,一起进步~
--【玖】--:
我擦 和我现在任务好像 我也在迷茫中
--【拾】--:
佬厉害,正好我们也要做,学习一下
--【拾壹】--:
嗯嗯,这应该会比按系统分类会更优,一开始重构时有考虑过,不过这对知识结构要求会更严格,所以我就按系统进行了分类想先看看效果,如果按系统分类不满足要求的话,下一步打算就这么做。
另外对用户增加追问澄清环节,如果未识别到用户问的问题是有关哪个系统的话增加追问,会提高准确率。
--【拾贰】--:
mark一下,记录一下
一、背景介绍
目前所在公司是传统制造业信息化,其中涉及到管理、营销、生产相关软件较多。其中包含sass系统、自研系统等,例如:OA、HR、ERP、CRM 等共计39个系统的功能使用方面的知识问答。
搭建出来的agent主要是解决企业内员工在系统/软件使用上的问题。
二、接手上任留下来的坑
半途入手,我是在上一任知识库搭建者的基础上进行调优。上任很暴力的把知识库分成了三大类:{管理、营销、日常运维};
工作流搭建的也很简单:开始->意图识别->知识问答->LLM调优->判断有无答案->结束;
最终因为问答效率慢、准确率不高导致下任…(这准确率能高的话,那 AIGC 就真出世了..)
三、重构设计
在接手上任的坑后,我花将近一周熟悉了下飞书 aily 的官方文档,发现他们其实都将可用到的功能都封装好成了每一个节点功能,直接搭建工作流就OK,针对于检索、召回并不能做很多开发上的设置或调配。所以我主要对工作流、知识内容做了调整。下图附上工作流设计图(注:欢迎大佬来回复调优!!)
image1565×1196 54.5 KB
四、现状
已针对高频使用率的知识库完成了搭建测试,(自测效率和token量都降了不少,还没有批量调用的数据可用~待批量测试或部生产观察一段时间后我再作更新)
目前正在完成剩余工作流的搭建和知识内容结构调整,包括术语、意图识别的keyword调优…
飞书踩坑
- 对话日志收集
飞书aily应用包含了日志自动收集,使用该应用对话的日志会自动收集并同步到一张飞书多维表格当中,飞书表格也是自动创建到该应用权限所有人下。然后坑就来了,如果该应用转移了作者,那么该飞书表格不会跟着一起转移…也就是说,原有日志仍可使用,但如果一旦关闭同步再次开启,那么会再创建一个新的多维表格,且仅支持同步近7天的日志记录!然后历史记录虽不会丢失,但也只能搭建一个工作流做同步,因为多维表格导出的话是全量的,导入时限制文件大小20MB。
另外一坑:我是因为对话日志同步多维表格时报错,所以想着关闭下同步再开启复现下问题,结果就很悲催了~因为当时存在同步错误,然后更重点的来了,如果报错时不保留错误信息,提工单找技术支持原因也是不可查的!另外,未同步多维表格的历史数据也是不可补录的!!!企业级应用就这么着丢日志了… - 飞书多维表格
目前企业版一张飞书多维表格上限50000行;超过5W行,只允许再新建一张; - 飞书目前企业版单一应用仅支持关联10个知识空间!
PS:因为我们企业内上线的系统/应用已40+,so 如果飞书那边不支持增加上限的话,可能就要重新设计知识库的结构了。
img_v3_0210c_5bea1abe-8f7b-4c2c-8d20-303346eb54cg1255×1065 122 KB
--【壹】--:
看完agentic search,好像不太适用目前这个项目。
主要是知识边界,该应用仅支持问答企业内已上线系统/软件的问题,不支持联网,还有要解决大模型的幻觉问题。当然,也增加兜底策略:当下反馈用户无答案或提IT工单处理,后续用户即时反馈不满意/企业内部IT工单/badcase分析,以此达到不断迭代优化的一个过程。
不过agentic search 对我另外一个项目有深度启发,感谢佬~
--【贰】--:
目前倒没有迷茫,但总感觉这套流程设计还缺点什么
--【叁】--:
是了,飞书搭建知识库用来作检索的话对知识格式还有结构化比较严格。不然会影响召回。
首次推广不顺利就是因为知识内容不充足 + 问答准确率不高,所以目前没有大批量的使用起来,不过我认为这是一个不断迭代优化的过程,目前看来,知识库搭建、管理规范时间占用比重很大,另外就是架构一定要能够不断迭代形成一套自动化的体系。
--【肆】--:
佬的背景跟我司的好相似,最难的可能是收集部门资料和培养用户使用知识库
--【伍】--:
mark一下 等准备好了 用一下
--【陆】--:
mark下,向大佬学习,用之前用的coze搭的工作流,太垃圾了
--【柒】--:
可以试试claude的思路,简单对知识分层分类,然后建个索引放CLAUDE.md里,直接问claude,你可以对比看看结果,claude官方叫做agentic search
--【捌】--:
互相学习,一起进步~
--【玖】--:
我擦 和我现在任务好像 我也在迷茫中
--【拾】--:
佬厉害,正好我们也要做,学习一下
--【拾壹】--:
嗯嗯,这应该会比按系统分类会更优,一开始重构时有考虑过,不过这对知识结构要求会更严格,所以我就按系统进行了分类想先看看效果,如果按系统分类不满足要求的话,下一步打算就这么做。
另外对用户增加追问澄清环节,如果未识别到用户问的问题是有关哪个系统的话增加追问,会提高准确率。
--【拾贰】--:
mark一下,记录一下

