把一堆乱七八糟的笔记,变成一个会自己生长的知识库-Karpathy
- 内容介绍
- 文章标签
- 相关推荐
Karpathy 最近发了一篇文章,推上到处都在转发,推荐大家看一下 https://x.com/karpathy/status/2039805659525644595?s=20
大意是他在用 LLM 给自己建一个私人知识库,把你平常收藏的文章帖子统统扔进一个文件夹,然后让 AI 把它们整理成一个结构化的 wiki
先给大家介绍下这一套是怎么运行的:
佬们把平常收集到的帖子,文章直接爬下来直接扔到一个文件夹,然后 AI 负责整理,分类,建立联系。你只是一个采集者和提问者,AI 就像是图书管理员
这个知识库会随着时间不断复利增长,存得越多,整个知识库就越聪明
怎么搭建
1.建三个文件夹
建一个项目文件夹,里面放三个子文件夹:
my-knowledge-base/
raw/ ← 原始资料放这里
wiki/ ← AI 整理后的 wiki 放这里
outputs/ ← AI 回答问题的结果放这里
就这三个
raw/
是你的原始素材堆。文章,帖子随手记下来的想法往里扔就行,不用整理
wiki/
是 AI帮你整理之后的成果,里面每个话题一个
.md
文件,互相有链接
outputs/
是你问 AI 问题之后,它给你写的那些分析和报告
2.开始往raw/里扔东西
eg:
你在微信里转发给自己的文章,复制进来变成一个.md文件就行
Obsidian有一个叫Web Clipper的浏览器插件,可以一键把网页转成markdown 存下来,非常好用,具体可以看我这篇文章 Obsidian+Claude太强了:拯救你吃灰的收藏夹
3.写一个 schema 文件
这一步很重要
在你的根目录下,新建一个叫 CLAUDE.md 的文件(你用别的 AI 工具,叫AGENTS.md 或者 README.md之类的豆行)。这个文件是给 AI 看的说明书,告诉它你的知识库是关于什么的、wiki应该有哪些规则要遵守
给大家看看一个基础模板长啥样:
# 项目定义
[写你的主题,比如:AI产品设计、自媒体、行业研究]
# 组织结构
-raw/ 包含未处理的原始素材。切勿修改此类文件。
-wiki/ 包含整理后的维基百科。完全由 AI 进行维护。
-outputs/ 包含生成的报告、回答和分析结果。
# wiki 的规则
-每个主题在 wiki/ 目录下拥有独立的 .md 文件。
-每个维基文件开头须包含一段摘要。
-使用 [[主题名称]] 格式链接相关主题。
-在 wiki/ 目录下维护一个 INDEX.md 索引文件,列出所有主题及其单行简介。
-当有新的原始素材(raw sources)加入时,须同步更新相关的维基文章。
# 我关注的方向
[列出 3-5 个你希望该知识库重点关注的领域]
4.让 AI 编辑你的 wiki
打开cc让他读你的 raw/ 文件夹,然后按照上面规则,在 wiki/里建一套完整的 wiki
你可以这样说:
先阅读 raw/ 中的所有原始内容,然后按照 CLAUDE.md 中的规则在 wiki/ 目录下编译一个 wiki。首先创建 INDEX.md,然后为每个主要主题创建一个 .md 文件。链接相关主题,并对每个来源进行总结。
然后整杯咖啡等着就行了
有一点比较重要,不要手动编辑wiki中的内容,别碰,那是你cc小秘书的工作
5.开始提问
wiki 有10篇以上的文章,就可以开始提问
比如:“用知识库里的内容,给我写一篇关于 某个话题 的500字简报”
把好的回答存到 outputs/ 或者让 AI 直接更新对应的wiki页面。你的每一次提问与回答,都将完善的的知识库
6.定期检查
没隔一段时间比如一周让AI 对wiki做一次检查:
检查整个 wiki/ 目录。找出页面之间有没有矛盾的说法;找出被提到但没有独立页面的话题;找出有哪些说法在 raw/ 里找不到来源;建议 3 个新文章方向来填补空白。
如果有一个错误信息存进去,会一直传递,定期检查可以避免
关于是否用 Obsidian
不需要,但我还是想用~
Karpathy 原话说他想让这套系统”尽量简单和扁平”
也确实是,一堆md文件加上一个schema,比小红书那一群七八十个插件配置上坑小白的自媒体好多了
知识库大了之后的检索问题
一两百篇文章后 光靠INDEX.md来定位相关页面会开始吃力
这里我还没发现很好的方法,希望各位佬给点思路~
没想到这么快就有人做出来!
GitHub - safishamsi/graphify: AI coding assistant skill (Claude Code, Codex,...
AI coding assistant skill (Claude Code, Codex, OpenCode, OpenClaw). Turn any folder of code, docs, papers, or images into a queryable knowledge graph
这个厉害了,它能把代码、文档、PDF、截图这些东西一起读,整理成一张关系网。可以让AI更快地读懂项目结构,还有你的项目为什么这么设计,同时能更省上下文。
附加价值
整个知识库就是一堆.md文件。扔进git仓库 你就有了完整的历史记录,可以对比改动、甚至还可以协作
最后的话
这一套就是我一直在找的知识库解法。在AI时代之前知识库的维护成本太高,现在开始逐渐有了解法
Vannevar Bush在1945年提出过一个叫 Memex 的想法:一个私人的主动策划的知识存储,文档之间有关联路径,比简单归档更接近人类联想的方式
他当时没有解决的问题是:谁来做维护?现在这个问题有答案了
三个文件夹,一个说明文件,一个 AI。
就这些。
网友解答:--【壹】--:
不错的idea,值得一试
--【贰】--:
确实是生长
--【叁】--:
感觉ai就是需要自己成长/生长,毕竟我们已经把脑给他了。
--【肆】--:
不能本地嘛
--【伍】--:
不错不错
--【陆】--:
这么强,还会生长
--【柒】--:
我都不想看,直接丢给codex执行
--【捌】--:
Typo:945
--【玖】--:
我感觉这个跟obsidian现在进化的方向类似,不过还不同,之前的知识库成本太高了
--【拾】--:
如果量级大了,可以使用一个东西,那就是 llm 进行向量检索
--【拾壹】--:
感谢纠正~
--【拾贰】--:
管理笔记这件事,本来就应该交给AI
--【拾叁】--:
感谢分享
--【拾肆】--:
我觉得这也是大模型发展的方向
这个方法胜在成本低,个人的易用性
--【拾伍】--:
这就去看看
--【拾陆】--:
哈哈哈,也行~
再给个Readme
--【拾柒】--:
这就开始学习,非常需要
--【拾捌】--:
成长还是生长? 哈哈, 有点龙虾帝国那味了, 我去品一品
--【拾玖】--:
能不能解决精确检索的问题,之前上下文导致了不能把所有的信息都检索出来,不如数据库可靠
Karpathy 最近发了一篇文章,推上到处都在转发,推荐大家看一下 https://x.com/karpathy/status/2039805659525644595?s=20
大意是他在用 LLM 给自己建一个私人知识库,把你平常收藏的文章帖子统统扔进一个文件夹,然后让 AI 把它们整理成一个结构化的 wiki
先给大家介绍下这一套是怎么运行的:
佬们把平常收集到的帖子,文章直接爬下来直接扔到一个文件夹,然后 AI 负责整理,分类,建立联系。你只是一个采集者和提问者,AI 就像是图书管理员
这个知识库会随着时间不断复利增长,存得越多,整个知识库就越聪明
怎么搭建
1.建三个文件夹
建一个项目文件夹,里面放三个子文件夹:
my-knowledge-base/
raw/ ← 原始资料放这里
wiki/ ← AI 整理后的 wiki 放这里
outputs/ ← AI 回答问题的结果放这里
就这三个
raw/
是你的原始素材堆。文章,帖子随手记下来的想法往里扔就行,不用整理
wiki/
是 AI帮你整理之后的成果,里面每个话题一个
.md
文件,互相有链接
outputs/
是你问 AI 问题之后,它给你写的那些分析和报告
2.开始往raw/里扔东西
eg:
你在微信里转发给自己的文章,复制进来变成一个.md文件就行
Obsidian有一个叫Web Clipper的浏览器插件,可以一键把网页转成markdown 存下来,非常好用,具体可以看我这篇文章 Obsidian+Claude太强了:拯救你吃灰的收藏夹
3.写一个 schema 文件
这一步很重要
在你的根目录下,新建一个叫 CLAUDE.md 的文件(你用别的 AI 工具,叫AGENTS.md 或者 README.md之类的豆行)。这个文件是给 AI 看的说明书,告诉它你的知识库是关于什么的、wiki应该有哪些规则要遵守
给大家看看一个基础模板长啥样:
# 项目定义
[写你的主题,比如:AI产品设计、自媒体、行业研究]
# 组织结构
-raw/ 包含未处理的原始素材。切勿修改此类文件。
-wiki/ 包含整理后的维基百科。完全由 AI 进行维护。
-outputs/ 包含生成的报告、回答和分析结果。
# wiki 的规则
-每个主题在 wiki/ 目录下拥有独立的 .md 文件。
-每个维基文件开头须包含一段摘要。
-使用 [[主题名称]] 格式链接相关主题。
-在 wiki/ 目录下维护一个 INDEX.md 索引文件,列出所有主题及其单行简介。
-当有新的原始素材(raw sources)加入时,须同步更新相关的维基文章。
# 我关注的方向
[列出 3-5 个你希望该知识库重点关注的领域]
4.让 AI 编辑你的 wiki
打开cc让他读你的 raw/ 文件夹,然后按照上面规则,在 wiki/里建一套完整的 wiki
你可以这样说:
先阅读 raw/ 中的所有原始内容,然后按照 CLAUDE.md 中的规则在 wiki/ 目录下编译一个 wiki。首先创建 INDEX.md,然后为每个主要主题创建一个 .md 文件。链接相关主题,并对每个来源进行总结。
然后整杯咖啡等着就行了
有一点比较重要,不要手动编辑wiki中的内容,别碰,那是你cc小秘书的工作
5.开始提问
wiki 有10篇以上的文章,就可以开始提问
比如:“用知识库里的内容,给我写一篇关于 某个话题 的500字简报”
把好的回答存到 outputs/ 或者让 AI 直接更新对应的wiki页面。你的每一次提问与回答,都将完善的的知识库
6.定期检查
没隔一段时间比如一周让AI 对wiki做一次检查:
检查整个 wiki/ 目录。找出页面之间有没有矛盾的说法;找出被提到但没有独立页面的话题;找出有哪些说法在 raw/ 里找不到来源;建议 3 个新文章方向来填补空白。
如果有一个错误信息存进去,会一直传递,定期检查可以避免
关于是否用 Obsidian
不需要,但我还是想用~
Karpathy 原话说他想让这套系统”尽量简单和扁平”
也确实是,一堆md文件加上一个schema,比小红书那一群七八十个插件配置上坑小白的自媒体好多了
知识库大了之后的检索问题
一两百篇文章后 光靠INDEX.md来定位相关页面会开始吃力
这里我还没发现很好的方法,希望各位佬给点思路~
没想到这么快就有人做出来!
GitHub - safishamsi/graphify: AI coding assistant skill (Claude Code, Codex,...
AI coding assistant skill (Claude Code, Codex, OpenCode, OpenClaw). Turn any folder of code, docs, papers, or images into a queryable knowledge graph
这个厉害了,它能把代码、文档、PDF、截图这些东西一起读,整理成一张关系网。可以让AI更快地读懂项目结构,还有你的项目为什么这么设计,同时能更省上下文。
附加价值
整个知识库就是一堆.md文件。扔进git仓库 你就有了完整的历史记录,可以对比改动、甚至还可以协作
最后的话
这一套就是我一直在找的知识库解法。在AI时代之前知识库的维护成本太高,现在开始逐渐有了解法
Vannevar Bush在1945年提出过一个叫 Memex 的想法:一个私人的主动策划的知识存储,文档之间有关联路径,比简单归档更接近人类联想的方式
他当时没有解决的问题是:谁来做维护?现在这个问题有答案了
三个文件夹,一个说明文件,一个 AI。
就这些。
网友解答:--【壹】--:
不错的idea,值得一试
--【贰】--:
确实是生长
--【叁】--:
感觉ai就是需要自己成长/生长,毕竟我们已经把脑给他了。
--【肆】--:
不能本地嘛
--【伍】--:
不错不错
--【陆】--:
这么强,还会生长
--【柒】--:
我都不想看,直接丢给codex执行
--【捌】--:
Typo:945
--【玖】--:
我感觉这个跟obsidian现在进化的方向类似,不过还不同,之前的知识库成本太高了
--【拾】--:
如果量级大了,可以使用一个东西,那就是 llm 进行向量检索
--【拾壹】--:
感谢纠正~
--【拾贰】--:
管理笔记这件事,本来就应该交给AI
--【拾叁】--:
感谢分享
--【拾肆】--:
我觉得这也是大模型发展的方向
这个方法胜在成本低,个人的易用性
--【拾伍】--:
这就去看看
--【拾陆】--:
哈哈哈,也行~
再给个Readme
--【拾柒】--:
这就开始学习,非常需要
--【拾捌】--:
成长还是生长? 哈哈, 有点龙虾帝国那味了, 我去品一品
--【拾玖】--:
能不能解决精确检索的问题,之前上下文导致了不能把所有的信息都检索出来,不如数据库可靠

