2026年初,Clawdbot迅速出圈,引发了广泛的社会和市场反响,其实我很早就想研究部署这么个玩意了,但因为上班+懒狗双重Debuff,导致一直到春节假期我才开始了解它,简单介绍一下Clawdbot,准确来说Clawdbot现在的名字是OpenClaw。
OpenClaw 的发展历程充满戏剧性,其名称变更直接引发了一场金融事件,
起源:项目最初由奥地利开发者 Peter Steinberger 于 2025 年底开源,名为 Clawdbot。
更名风波:2026 年初,因名称与 AI 公司 Anthropic 的产品“Claude”相似,面临商标侵权诉讼。项目先后更名为 Moltbot,最终定名为 OpenClaw。
“10 秒钟惨案”:在旧名称(Clawdbot)的 GitHub 账号和社交媒体句柄被弃用、新名称(OpenClaw)尚未注册的约 10 秒空窗期内,币圈机器人抢注了原账号,并发售了名为 $CLAWD 的代币,市值瞬间冲至 1600 万美元后又“跑路”归零,成为 2026 年初科技圈的重大事件。
我觉得想要真正的了解Clawdbot是什么,就需要知道一下几个概念,LLM、Memory、RAG、MCP、Skills。
LLM
LLM 是 Large Language Model 的缩写,中文叫“大语言模型”。也就是现在的各大推理模型,DeepSeek等等,LLM是如何训练的?1. 预训练(Pretraining):在海量文本上训练“预测下一个词”。2. 微调(Fine-tuning)用人工标注数据让模型更符合人类期望。很多模型还加了RLHF(人类反馈强化学习)和对齐训练(Alignment)。
发展历史:从统计模型到生成式AI
LLM的发展经历了四个关键阶段:
1. 技术起源(1950s-1980s):统计语言模型
1950s:图灵测试提出,探索机器对人类语言的理解;
1970s:N-gram模型(如二元模型、三元模型)成为主流,通过统计连续N个Token的频率,预测下一个Token(如“我吃”后面接“饭”的概率);
局限:数据稀疏(如“我吃月球”的概率为0)、无法捕捉长距离依赖(如“猫坐在沙发上,它很舒服”中的“它”指“猫”)。
2. 雏形阶段(1990s-2010s):神经语言模型
1990s:神经网络开始应用于语言建模(如循环神经网络RNN、长短期记忆网络LSTM),解决长距离依赖问题;
2013:Word2Vec模型提出,将单词映射到低维向量空间(如“国王”的向量减去“男人”加上“女人”等于“女王”),捕捉语义关系;
2017:Transformer架构提出,取代RNN/LSTM成为LLM的基础,解决了并行计算问题(RNN无法并行处理序列,Transformer可通过自注意力并行计算所有Token)。
3. GPT模型问世(2018-2020):生成式预训练模型
2018:Google发布BERT(双向Transformer),通过MLM任务学习上下文表示,在11项NLP任务中取得 state-of-the-art 结果;
2018:OpenAI发布GPT-1(生成式预训练Transformer),采用单向Transformer(仅关注左侧上下文),用于文本生成;
2019:GPT-2发布,参数规模达15亿,具备零样本学习能力(如无需训练即可完成翻译、摘要);
2020:GPT-3发布,参数规模达1750亿,开启“大模型时代”,在少样本学习中表现突出(如用10个例子即可学会写代码)。
4. 进阶突破(2021至今):对齐与多模态
2022:ChatGPT发布,基于GPT-3.5,通过RLHF对齐人类价值观,实现流畅的对话生成,引发全球关注;
2023:GPT-4发布,参数规模达1.8万亿(采用专家混合模型MoE,即16个专家网络,每个专家负责不同任务),支持多模态输入(文本+图像);
2024:Llama 3、Claude 3等开源模型发布,参数规模达数百亿,性能接近GPT-4,推动LLM的普及;
2025:DeepSeek-R1、文心一言4.0等国内模型发布,强调本地化与合规性(如数据驻留、敏感词过滤),在金融、政务等场景落地。
LLM不是数据库,它不是存答案,而是一个高维概率函数,你问问题时,它不是去“查资料”,而是在概率空间里生成最可能合理的回答。这也是为什么会出现“幻觉(Hallucination)”。它追求概率最大,不是真实性最大。它本质是统计机器,不是意识体。
Memory
Memory是LLM的一套机制,模型本体其实没有“长期记忆”。它只是在当前输入里看到什么,就基于那些内容做概率预测。那为什么我们在AI聊天页面里,明显感觉它能“记得”我们之前的对话呢?
一、最基础层:上下文记忆(Context Memory)
这是 LLM 最核心、最原始的“记忆”。模型一次推理时,会看到一整段输入文本(叫 context)。包括:系统提示、历史对话、当前问题,它并没有“存储历史”,而是每次都把历史重新输入进去。本质是:重新阅读,而不是回忆。这是一种“瞬时记忆”。限制在哪里?上下文长度是有限的(例如 8k、32k、128k tokens)。超过长度,旧内容就会被截断。这就是为什么:对话久了模型会“忘记前面”以及长文档会丢信息,记忆容量 = 上下文窗口大小。
二、会话级记忆(Session Memory)
这是系统层面的。很多 AI 应用会把对话历史存到数据库里,然后每次请求时把相关部分再拼接进 prompt。模型本体不知道这是“记忆”。它只看到一段更长的文本。这属于:记忆外包。
三、长期记忆(Persistent Memory)
更高级的系统会做结构化存储,比如:用户偏好、角色设定、关键事实、过往任务总结。然后在新对话时:1. 通过检索找到相关记忆,2. 注入到 prompt,3. 再生成回答。这就是 RAG(Retrieval-Augmented Generation,检索增强生成)。这才是接近“长期记忆”的形态。但本质仍然是:数据库存储 + 检索 + 拼接,模型本体仍然没有自发记忆能力。
四、向量记忆(Vector Memory)
这是目前最常见的“高级记忆”实现方式。步骤:1. 把文本转成向量(embedding),2. 存入向量数据库,3. 新问题也转向量,4. 找最相似的历史内容,5. 插入 prompt。优点:可扩展、支持语义检索、不需要精确匹配。这就是为什么很多 AI 系统可以“记住你以前说过的话”。但它不是主动回忆,而是相似度匹配。
五、模型内部“记忆”是什么?
模型内部确实“记住”了大量知识。但那是参数记忆(Parameter Memory)。LLM 的参数是经过海量文本训练后的权重。知识被编码进权重矩阵。这叫:权重记忆(Weight Memory)特点:静态、不可编辑、不可针对个人更新。除非重新训练或微调。
知道了Memory,我们也就明白了为什么LLM会“忘记”,因为它没有真正的状态保存机制,每次调用都是一次独立运算,它不像人脑有连续的神经活动,当前的LLM是“无状态生成器”,它像一个超级聪明的计算器,但没有自我时间轴。LLM的Memory本质不是“记住”,而是“重新看到”。
记忆,是AI从工具走向真正智能体的关键缺口。
RAG
RAG 是 Retrieval-Augmented Generation,中文一般叫“检索增强生成”。RAG是一种结合信息检索与文本生成的人工智能框架,旨在通过引用外部权威知识库,解决大型语言模型(LLM)的“幻觉”(编造虚假信息)、“知识过时”(无法获取最新信息)、“不可追溯”(回答无来源依据)等固有缺陷。RAG的核心理念是“教会模型查资料”:在回答用户问题时,系统先从外部知识源(如文档数据库、网页、知识图谱)中检索与问题最相关的信息片段,再将这些“证据”与原始问题一同提交给LLM,指示模型基于证据生成答案。这如同学者撰写论文时先查阅文献再引用,而非仅凭记忆,使回答更具可信度。
RAG的典型流程可概括为“索引-检索-增强-生成”四个阶段
索引阶段:构建外部知识库
输入:企业内部文档、产品手册、项目报告、网页信息等非结构化/半结构化数据。
处理:
分块:将长文档拆分为适合LLM处理的短片段(如512-1024 tokens),避免信息过载;
清洗:去除噪声(如广告、重复内容)、统一格式(如PDF转文本);
向量化:使用嵌入模型(如Sentence-BERT、OpenAI Embeddings)将文本转换为高维向量(嵌入向量),捕捉语义信息;
存储:将嵌入向量存入向量数据库(如Chroma、Pinecone、Milvus),构建索引以支持快速检索。
检索阶段:获取相关证据
输入:用户查询(如“2025年华为云新产品发布会时间”)。
处理:
查询向量化:使用与索引阶段相同的嵌入模型,将用户查询转换为向量;
相似度检索:在向量数据库中查找与查询向量“距离”最近的K个文档片段(如K=3),常用相似度 metric 包括余弦相似度、欧氏距离;
结果过滤:去除低相关度结果(如相似度低于阈值0.7),保留最相关的证据。
增强阶段:构造增强提示
输入:用户查询、检索到的证据片段。
处理:
提示工程:将证据与查询整合为结构化的提示(Prompt),例如:
“请根据以下信息回答问题:
信息1:[2025年华为云新产品发布会将于3月15日在深圳举行]
信息2:[发布会将推出新一代GPU服务器]
问题:2025年华为云新产品发布会的时间是什么时候?”
目标:引导LLM聚焦于证据,避免“脱离上下文”的生成。
生成阶段:输出准确答案
输入:增强后的提示。
处理:
LLM基于提示中的证据,生成符合要求的答案;
输出要求:答案需基于证据(如引用信息1中的时间)、简洁明了(如直接回答“3月15日”)、可追溯(如标注信息来源)。
相较于传统LLM,RAG的优势主要体现在以下四个方面:
减少幻觉,提升准确性
LLM的“幻觉”源于其“参数化记忆”(训练数据中的噪声或知识冲突),而RAG通过外部证据约束生成过程,使回答更具事实依据。例如,在医疗领域,RAG可基于最新的临床指南回答患者问题,避免因训练数据过时导致的错误建议。
实时更新知识,突破“知识天花板”
LLM的训练数据是静态的(如GPT-4的知识截止到2023年10月),无法获取2023年之后的最新信息(如2025年的政策、事件)。RAG通过动态更新外部知识库(如定期同步最新文档、网页),使模型能回答“2025年的新问题”,突破模型参数的“知识天花板”。
增强可追溯性,提升用户信任
RAG的答案标注了信息来源(如“根据2025年华为云官方公告”),用户可通过来源核实答案的准确性。这种“透明性”大幅提升了用户对AI系统的信任,尤其在金融、医疗等高风险领域具有重要意义。
降低成本,提高效率
相较于“微调”(重新训练LLM以适应特定领域),RAG的成本更低、效率更高:无需重新训练:只需更新外部知识库,即可让模型掌握新领域知识;快速迭代:知识库的更新可在数小时内完成,而微调需数天甚至数周;资源消耗少:向量数据库的存储与检索成本远低于LLM的训练成本。
说了这么多优点,那缺点呢?RAG目前的关键难点是:检索质量决定一切、上下文窗口限制、“语义漂移”、模型仍可能编造。如果检索错了,生成就会基于错误内容。因为RAG系统会将长文档进行分块(取决于切片的算法,但目前都不成熟),可能会导致语句被拦腰截断,AI拿到被拆碎的段落,很难理解上下文的关系,所以输出的回答也不会太精准,现有解决方案是可以在检索数据并在向量数据库匹配后,再使用重排序模型进行更深入的语义分析,然后再按照问题的相关性,进行重新的排序,把相关性最大的一些数据排到前面,然后交付给LLM,这是一种先粗后细的两步检索策略,可以进一步提高检索精度。
LLM是生成器,RAG是知识桥梁,RAG本质是把静态模型变成动态知识系统。真正难的不是生成,而是“找对信息”。
MCP
MCP是Model Context Protocol,中文叫“模型上下文协议”,是由Anthropic于2024年底推出的开放标准协议,旨在解决大语言模型(LLM)与外部数据源、工具集成的“碎片化”难题。它被业界形象地称为“AI的USB-C接口”——通过标准化、双向的通信通道,连接LLM与外部服务(如数据库、API、文件系统等),实现“即插即用”的能力扩展。
MCP的核心理念是“标准化交互”:将LLM与外部工具的连接从“定制开发”转变为“通用协议适配”,让不同模型(如Claude、GPT-4、Llama)与不同工具(如GitHub、Google Drive、企业内部系统)通过MCP这一“共同语言”无缝协作,彻底解决“M×N”集成问题(即M个模型对接N个工具需要M×N种适配)。
LLM本身世封闭的,它不能主动访问数据库、不能主动读文件、不能主动调用 API,除非你把数据拼进 prompt。如果把每个工具都用自定义方式接入,系统会变得非常混乱。MCP 的目标是:让工具接入变成标准化。
MCP是AI领域的“万能接口”,是工具层的标准化基石。它通过标准化协议,让LLM能够安全、高效地连接外部工具与数据,彻底解决了“碎片化”集成问题,MCP的出现,标志着AI从“孤岛式智能”向“连接式智能”的转变,它将让AI真正成为“能解决实际问题”的工具。
Skills
“Skills” 在 LLM 生态里不是一个严格统一的学术术语,而是一个工程概念。它通常指:把某种可复用的能力,打包成可被模型调用或触发的模块。一个 Skill 通常包含三部分:触发规则(什么时候用它)、执行逻辑(它做什么)、输出格式(结果如何返回)。Skill是”能力打包“,把Prompt 工程产品化,它把一次性的提示词,变成:可版本管理、可共享、可升级、可标准化。
为什么需要Skill?
因为模型本身是“概率生成器”。没有结构约束时:风格不稳定、输出不可预测、易偏离目标。Skill 提供:模板、边界、规则、可复用性。这让模型从“灵感机器”变成“生产工具”。Skill对模型能力的结构化封装,使其成为可复用、可预测、可组合的能力模块。Skills是连接LLM与实际应用的核心桥梁,是实现“从对话到行动”的关键能力封装。它并非简单的工具调用,而是将专业领域的方法论、执行流程、工具资源打包成可复用、可组合的标准化模块,让AI智能体(Agent)具备特定领域的专业能力,如“清理电脑垃圾文件”、“生成工业级设计稿”、“分析股票数据”等。
AI Agent
AI Agent其实很简单,就是上述提到的所有次的集合体,LLM本来就能思考和规划,给它加上了Memory就能让它记住历史,加上RAG让它能获取外部知识,加上MCP和Skills让它能操作工具,它们共同构成了一个在某些功能上能代替人类自主行动完成目标的一个AI系统,这个系统就叫AI Agent。
说了这么多,我们也就能明白一件事情,那就是所有这些归根究底就是Prompt的各种变体,也就是提示词工程,之所以需要如此多的规范和约定,就是因为LLM的本质是一个语言概率模型,它就是无法做到像程序一样100%可控,需要靠一大堆非常严格的Prompt来约定LLM的输出。所以今天所有的Agent技术,离真正自动化系统还有明显的距离,本质上仍然实在语言之上硬塞各种操作能力,想要变得更稳更可控,还是只能在模型工具的调度层上继续演进和优化。
可以把Agent看成是所有不需要智能的地方构成的部分,一个流程当中所有能用固定的程序来解决而不需要问LLM的地方就是Agent发挥作用的地方。其实就是把模糊的分流逻辑交给大模型,根据语义识别出用户想做a还是b,把确定的分流逻辑交给程序,比如说PDF提取文本,最终的目标都是节省人类的时间,降低人类的使用门槛。现在没办法能真正铺开的原因是因为现在Token实在太太太贵了,越是强大的自己能默默处理问题的Agent,背后消耗的Token就越大。
另外我想说下为什么我觉得现在的这些提示词工程都只是一个中间态,参考Java领域的SpringBoot和Python领域的UV,你会发现这两者都是将开发者的便利完全放在第一位,什么运行速度快不快,包的体积大不大,是不是浪费内存空间或磁盘空间,这些问题最终和使用的便利性相比,几乎都是瞬间被秒杀了,LLM时代就是典型的空间换时间的例子,用海量的参数换取更少的在线计算步骤。
最后,Clawdbot为什么突然爆火了?除了一些营销因素以外,它其实和早已经出现的ClaudeCode、Codex、Manus这些Agent并没有本质的区别,只是因为他能连接社交软件,能够配置定时任务,有UI页面能看到Skill并管理它们,第一次让普通人觉得它像一个智能体,而不只是躺在电脑上的一个服务了。
最后的最后,我想简单聊聊在AI这个发展速度以小时记的时代,我们改怎么获取与处理信息源?在信息爆炸,碎片化信息充斥互联网的时代,你的信息来源、加工信息的方法以及产出的成果,决定了它能不能成为成长的燃料,否则就是内耗、磨损和成本。但在聊信息源之前,我们需要先想清楚一件事,那就是在AI时代,你想扮演什么样的人?你想要什么程度的参与,就决定了你需要什么样的信息,比如我,我的想法其实很简单,就是通过科技,智能化生活,提高日常生活的幸福度,比如HomeAssistant、OpenWrt、PVE等等,我的信息来源分三个层次,分别是News、Source和Content。当你需要最近的新玩意他是什么东西的时候,你就需要News;而所有新鲜事物、新技术、新方向最终落地的地方就叫Source,是你能第一时间看得到,摸得到它完整版的地方。对我来说基本就是Github,偶尔会看看ProductHunt;最后Content,它是一种经过二次加工或者更多次加工的信息,它是为理解事物的效率而服务的,我们需要内容,但也需要知道它也是造成焦虑、内耗和FOMO(Fear Of Missing Out担心踏空)的最重要的原因,我们要知道这个世界的内容都是受算法支配的,但凡是博主,他们都希望内容被更多的人看到,他们就必须要迎合算法,要符合大众,要有情绪价值,因此很多内容就要么越来越肤浅,要么更倾向于浮夸,更倾向于热点,这次Clawdbot的爆火,就是个很好的例子,网上的大部分内容其实都很浮夸,这些内容基本也就看个热闹,对成长帮助并不大,所以在看内容的时候,我们要知道内容的背后一定有一个被算法支配的人。所以我们要找到帮我们理解事物的信息,但必须懂得筛选,内容要符合你的定位,要能帮你理解你的Source,要能帮你快速获取News,而且要警惕那些不理性的兴奋或者是沮丧。
2011年出版的一本书《Information Diet》(信息节食),作者是Clay Johnson,背景是社交媒体爆炸式增长、政治极化加剧、注意力经济成型。那时的推特还很年轻,Facebook 还没被贴上“老年人社区”的标签。Johnson 看到的是一种新型公共健康问题:信息肥胖。Clay Johnson提出过一种概念,就是我们今天对于信息的摄入,就如同是暴饮暴食,产生了信息肥胖,以及一系列的认知疾病,比如认知能力退化、注意力涣散、决策质量下降,也就是FOMO的情绪根源。他认为,我们应该进行“信息节食”,区分信息源;进行注意力健身,也就是有意识的增加深度专注时间;改变消费策略,改被动饮食为主动寻找健康食品。并不是信息过载了,而是信息消费不当,就如同肥胖一样,食物很多,不一定都吃,都吃不是食物的问题,而是我们摄入策略有问题了。要建立信息食谱,荤素搭配,按照合理比例分配深度和浅度的信息摄入比例,营养均衡,少吃零食(社交媒体上的焦虑体)。这是人类历史上第一次,我们面临的不是“如何获取信息”,而是“如何拒绝信息”。这本书只是开了个头。真正的难题,是在一个自动生成无限文本的时代,如何维持判断力的肌肉张力。
FOMO的反面是JOMO(Joy Of Missing Out接受错过),成熟决策往往意味着:主动放弃 90% 的机会。真正的能力不是抓住所有机会,而是判断:哪 10% 值得投入。在AI时代FOMO表现的特别明显:LLM、Agent、RAG、MCP、新框架每天一个,很多人会产生:“我不全学是不是就淘汰?”但现实是:底层原理变化很慢,表层名词变化很快。而FOMO 常发生在表层。经常和我聊天一个“霸总”哥们,我就能感觉到他的FOMO,当然FOMO并不完全是坏事,进化不是平稳增长,而是压力驱动的适应,FOMO的问题并不是错过机会,而是在不确定情况下,过度高估错过的损失,他会让人冲动决策、高位接盘、盲目跟风、过度分散注意力,牛马每天上个班就已经很累了,上班领导压力你,下班就不要再自己压力自己了,FOMO 是对“被时代抛下”的焦虑,而不是对机会本身的评估。真正的成长往往来自:深耕,而不是追逐。
转载请注明来源,欢迎对文章中的引用来源进行考证,欢迎指出任何有错误或不够清晰的表达。可以在下面评论区评论,也可以邮件至 mengziforever@qq.com