← 返回博客

从对话到执行:AI Agent 与 OpenClaw 架构深度解析

01 范式转移:从“知道”到“做到”

传统的 AI Chatbot(如基础版的 GPT 或 Claude)主要停留在对话阶段

  • 现状: 你需要手动在 Gmail、日历和浏览器标签页之间切换,通过复制粘贴为 LLM 提供上下文。
  • 局限: 即使 LLM 知道如何帮你安排会议,它也无法直接在你的日历上创建日程。它只能告诉你怎么做,而不能替你做。

AI Agent(人工智能代理) 弥补了这一鸿沟。它通过将大语言模型(LLM)与工具连接,实现了在无需人类干预的情况下自主解决复杂问题的能力。


02 核心模式:ReAct 代理循环

AI Agent 的运行逻辑被称为 Agentic Loop(代理循环),其核心是 ReAct 模式(Reasoning + Acting)。

运行流程

  1. 任务输入: 任务通过 Slack、iMessage 或 WhatsApp 等频道进入系统。
  2. 构建上下文: Agent 整合对话历史、长期记忆、系统指令及可用工具列表
  3. 推理 (Reasoning): LLM 分析上下文并决定下一步:是直接回答,还是需要调用工具?
  4. 行动 (Acting): 如果需要,Agent 会执行工具(如运行终端命令、搜索网页或调用 API)。
  5. 观察 (Observing): Agent 获取工具返回的结果,将其存入上下文,并再次进行推理,直到任务完成。

03 OpenClaw 架构拆解

OpenClaw 是目前 GitHub 上最受欢迎的开源 AI Agent 项目之一。它基于 Node.js 运行,采用中心辐射型(Hub and Spoke)架构

1. Gateway(中心网关)

这是系统的控制平面,作为一个长连接的 WebSocket 服务器,负责:

  • 消息路由与会话管理。
  • 多 Agent 调度。
  • 工具调用权限控制。

2. 适配器层 (Adapters)

将来自不同渠道(Discord、iMessage、Slack、Teams 等)的异构数据标准化为统一的内部格式,并传递给 Gateway。

3. 存储与配置层

  • 长期记忆: 存储历史对话与任务上下文。
  • Markdown 配置: 通过 agents.md 定义 Agent 的职责,通过 sole.md 定义其性格与风格。

4. 技能与执行层 (Skills & Execution)

这是 OpenClaw 可扩展性的核心。Skills 实际上是包含指令的 Markdown 文件夹,教导 Agent 如何执行特定流:

  • 基础工具: 浏览器自动化、终端命令运行。
  • 扩展技能: 操作 Trello 画板、管理 Google 日历、使用 Docker 构建镜像、连接 CRM 或 GitHub 等。

优化机制: 为了节省上下文窗口,OpenClaw 不会一次性注入所有技能。它先通过元数据让 LLM “按需挑选”,然后再读取具体技能详情。


04 安全与合规性考量

赋能 Agent 访问文件系统和终端的同时,也带来了巨大的安全责任。

潜在风险

  • 配置错误: 错误的配置可能导致本地机器变成暴露在公网上的“后门”。目前已有数千个存在安全隐患的 OpenClaw 实例被扫描发现。
  • 提示词注入 (Prompt Injections): 如果 Agent 处理恶意邮件或受污染的网页,其中可能包含隐藏指令,诱导 Agent 执行非法操作(如删除本地文件)。

防御策略

  1. 环境隔离: 在 Docker 容器或受限的虚拟环境中运行 Agent。
  2. 技能审核: 严禁运行来源不明、未经代码审查的 Skill。
  3. 凭证加密: 在将敏感凭证传递给云端 LLM 之前,必须进行加密处理或使用环境变量隔离。

05 结语:AI 编排时代的到来

AI 的交互形式正在发生剧变:从简单的“对话”演变为“编排”。 LLM 不再只是聊天对象,它成为了指挥工具、规划路径并执行任务的“大脑”。无论你选择 OpenClaw、LangGraph 还是其他框架,理解 ReAct 循环工具化思维都是掌握下一代人工智能的关键。


提示: 负责任的开发与部署实践是 AI Agent 走向企业级应用的前提。


开始使用:openclaw.ai

加入社区:Discord

GitHub:github.com/openclaw/openclaw

技能市场:0z0z.com

—— OpenClaw 社区

P.S. 听说有人用它自动写周报了。我什么都没说。🦞