系统架构 + 数据流
ClawTouch 是一款面向企业的硬件级 AI 桌面操控软件。本文档描述系统的组件构成、执行模型、数据流路径、运行环境与集成能力,面向企业客户的技术决策人、安全合规岗与运维团队。
01 · 产品概览
ClawTouch 由桌面客户端、微信小程序管理端与一枚定制 USB HID 硬件设备组成。AI 代理通过硬件物理发出键鼠事件操控 Windows 电脑——在系统层面与真人操作的输出路径一致,既不是软件模拟(如 AutoHotkey / PyAutoGUI),也不是依赖 API 或 DOM 的 RPA 脚本,而是插线即用的物理执行层。
当前阶段 ClawTouch 仅向具备合规审查能力的企业客户提供服务,提供包含硬件、软件、内置 AI 模型、运营管理在内的一体化交付。商务接洽请通过 support@tinqiao.com。
02 · 系统组成
一套完整部署包含以下三个组件:
┌─────────────────────┐ ┌─────────────────────┐
│ 桌面客户端 (Windows) │ ←──→ │ 小程序管理端 │
│ 本地推理调度 │ │ 账号 / 订阅 / 设备 │
│ 内置专属 AI 模型 │ │ 续费 / 工单 / 监控 │
│ + 飞书机器人 lark.ws│ └─────────────────────┘
└──────────┬──────────┘
│ USB
▼
┌──────────────┐
│ HID 硬件设备 │
└──────────────┘
桌面客户端
Windows 应用,本地运行任务规划与决策,通过 USB 调用 HID 硬件执行键鼠操作;与本机浏览器协同(通过 Sensor 浏览器扩展只读感知 DOM 与文本);任务结果与运行日志统一存储在客户本机。
小程序管理端
微信小程序,承担账号、订阅、设备绑定、续费迁移与工单查看等管理职能;接入企业微信客服。日常使用中,团队可在手机端查看设备状态、收到异常推送。
飞书机器人
桌面客户端内置飞书机器人对接(lark.ws 长连接,不经服务器中转),运营人员可在飞书上与机器人对话,远程查询设备状态、启停托管、转人工等。比小程序中转链路更直接,合规面也更小。
HID 硬件设备
定制 USB HID 设备,作为客户端与电脑之间的物理键鼠输出层。HID 协议是操作系统原生支持的标准接口,不需要安装驱动、不需要管理员权限、不注入进程。
50 台以上规模的企业客户,可订制专属桌面管理端,作为小程序管理端的替代或补充,便于 IT 团队在 Windows 桌面集中管理多台设备与运营数据。详见 部署模式 + 私有化。
03 · 三层执行模型
每一次桌面操作拆为"感知—决策—执行"三步闭环,由桌面客户端在本机完成调度。
| 层 | 职责 | 实现路径 |
|---|---|---|
| 感知层 | 读取当前屏幕状态,把 UI 翻译成可推理的结构化信息 | 操作系统接口(窗口与控件树)+ Sensor 浏览器扩展(只读 DOM 与文本)+ 视觉模型(识别图形界面元素)+ OCR 多通道融合 |
| 决策层 | 基于当前状态与任务目标,规划下一步动作 | 专属大语言模型,支持上下文感知的步骤规划与多步任务编排 |
| 执行层 | 把决策翻译成键鼠指令并物理输出 | 通过 USB HID 硬件发送键盘 / 鼠标信号,与真人操作的输出路径一致 |
三层均运行在客户本机,任务执行链路本身不依赖外部服务。
04 · 数据流时序
一次任务的典型数据流:
1. 用户委托任务 (从小程序或桌面客户端发起)
2. 客户端解析任务 (翻译为可执行的目标)
3. 感知层读屏 (感知当前屏幕状态)
4. 决策层规划下一步 (大语言模型推理)
5. 执行层下发指令 (客户端 → USB → HID 硬件)
6. HID 硬件物理输出 (键盘信号 / 鼠标信号)
7. 屏幕状态变化 (回到 3,进入下一轮)
8. 任务完成 / 失败 (结果回传给用户)
整条链路中:
- 任务规划在客户机本地完成,不向外部上传屏幕原始截图
- 大语言模型调用仅传递必要的状态摘要文本与任务目标,原始截图不出本机
- 执行结果仅留在客户本机日志中,可由客户配置的策略统一管理
- 亭桥后端在主任务链路上不参与执行决策,仅承担账号、订阅、设备运营元数据
数据安全细节、本地优先原则与合规边界,详见 数据安全 + 合规。
05 · 与同类方案的工程差异
ClawTouch 的工程定位是桌面执行层,与软件模拟、RPA、浏览器扩展自动化在执行原理与适用范围上有本质差异:
| 维度 | 软件模拟 (AutoHotkey / PyAutoGUI) | 传统 RPA (API / DOM 驱动) | 浏览器扩展自动化 | ClawTouch (硬件级) |
|---|---|---|---|---|
| 执行层 | 内核键鼠注入 / 系统 API | 平台开放接口 / DOM 操作 | 仅限浏览器扩展能力 | USB HID 硬件物理输出 |
| 适用范围 | 单机自动化脚本 | 有开放接口的系统 | 网页内任务 | 任意 Windows 桌面应用 |
| UI 改版抗性 | 坐标依赖时较弱 | 较弱(接口或 DOM 改即失效) | 中(DOM 依赖) | 强(视觉感知补全) |
| 系统层路径 | 软件模拟,与真人不同 | 不接触系统层 | 不接触系统层 | 与真人操作输出路径一致 |
ClawTouch 不替代 RPA 或浏览器扩展自动化,而是补足"任意 Windows 桌面应用、UI 改版仍可稳定运行"的场景。
06 · 运行环境
| 项 | 要求 |
|---|---|
| 操作系统 | Windows 10 / 11 (x64) |
| 运行权限 | 不需要管理员权限;不注入进程;不要求关闭杀毒软件 |
| 硬件接口 | 一个可用 USB 端口 |
| 内存 | 8 GB 起步,16 GB 推荐 |
| 网络 | 出网调用大语言模型 API + 与亭桥后端的轻量心跳(离线部署除外) |
| 浏览器协同 | Sensor 扩展兼容 Chrome / Edge / Firefox 等主流浏览器 |
| 多屏适配 | 多屏、不同 DPI、不同缩放比例自适应 |
ClawTouch 不依赖系统级钩子注入、内核驱动、虚拟显卡或自定义输入法。所有跨平台兼容性问题由 HID 硬件层解决——HID 协议是操作系统原生支持的标准接口,因此在不同 Windows 版本、不同硬件配置上行为一致。
07 · AI 模型 + 系统集成
内置专属 AI 模型
企业版默认提供 ClawTouch 内置专属 AI 模型,覆盖任务规划与桌面元素识别两类需求。客户无需自配 API Key,也无需单独购买额度,每月含海量调用额度,按设备数订阅。
自配 LLM 服务商(可选)
客户也可按需接入企业自有的大语言模型服务(如已购的云厂大模型、私有化部署的开源模型),由桌面客户端直连调用。亭桥侧不参与 LLM 调用链路,也不留存请求与响应。
API / Webhook 接入(升级订制)
升级订制中提供与企业现有 CRM、工单、OA 系统的接入能力,便于将 ClawTouch 的运营数据回流到客户业务系统,或由客户系统反向触发 ClawTouch 任务。具体接入方式按客户实际系统协商。
训练专属大模型(升级订制)
对有数据资产、追求差异化运营效果的客户,亭桥可提供基于客户业务数据的大模型微调与独占模型权重,作为内置 AI 模型的替代方案。详见 部署模式 + 私有化。