技术文档 / 系统架构 + 数据流

系统架构 + 数据流

ClawTouch 是一款面向企业的硬件级 AI 桌面操控软件。本文档描述系统的组件构成、执行模型、数据流路径、运行环境与集成能力,面向企业客户的技术决策人、安全合规岗与运维团队。

01 · 产品概览

ClawTouch 由桌面客户端、微信小程序管理端与一枚定制 USB HID 硬件设备组成。AI 代理通过硬件物理发出键鼠事件操控 Windows 电脑——在系统层面与真人操作的输出路径一致,既不是软件模拟(如 AutoHotkey / PyAutoGUI),也不是依赖 API 或 DOM 的 RPA 脚本,而是插线即用的物理执行层。

当前阶段 ClawTouch 仅向具备合规审查能力的企业客户提供服务,提供包含硬件、软件、内置 AI 模型、运营管理在内的一体化交付。商务接洽请通过 support@tinqiao.com

02 · 系统组成

一套完整部署包含以下三个组件:

┌─────────────────────┐      ┌─────────────────────┐
│ 桌面客户端 (Windows) │ ←──→ │ 小程序管理端          │
│  本地推理调度        │      │  账号 / 订阅 / 设备   │
│  内置专属 AI 模型    │      │  续费 / 工单 / 监控   │
│  + 飞书机器人 lark.ws│      └─────────────────────┘
└──────────┬──────────┘
           │ USB
           ▼
   ┌──────────────┐
   │ HID 硬件设备  │
   └──────────────┘

桌面客户端

Windows 应用,本地运行任务规划与决策,通过 USB 调用 HID 硬件执行键鼠操作;与本机浏览器协同(通过 Sensor 浏览器扩展只读感知 DOM 与文本);任务结果与运行日志统一存储在客户本机。

小程序管理端

微信小程序,承担账号、订阅、设备绑定、续费迁移与工单查看等管理职能;接入企业微信客服。日常使用中,团队可在手机端查看设备状态、收到异常推送。

飞书机器人

桌面客户端内置飞书机器人对接(lark.ws 长连接,不经服务器中转),运营人员可在飞书上与机器人对话,远程查询设备状态、启停托管、转人工等。比小程序中转链路更直接,合规面也更小。

HID 硬件设备

定制 USB HID 设备,作为客户端与电脑之间的物理键鼠输出层。HID 协议是操作系统原生支持的标准接口,不需要安装驱动、不需要管理员权限、不注入进程。

50 台以上规模的企业客户,可订制专属桌面管理端,作为小程序管理端的替代或补充,便于 IT 团队在 Windows 桌面集中管理多台设备与运营数据。详见 部署模式 + 私有化

03 · 三层执行模型

每一次桌面操作拆为"感知—决策—执行"三步闭环,由桌面客户端在本机完成调度。

职责实现路径
感知层 读取当前屏幕状态,把 UI 翻译成可推理的结构化信息 操作系统接口(窗口与控件树)+ Sensor 浏览器扩展(只读 DOM 与文本)+ 视觉模型(识别图形界面元素)+ OCR 多通道融合
决策层 基于当前状态与任务目标,规划下一步动作 专属大语言模型,支持上下文感知的步骤规划与多步任务编排
执行层 把决策翻译成键鼠指令并物理输出 通过 USB HID 硬件发送键盘 / 鼠标信号,与真人操作的输出路径一致

三层均运行在客户本机,任务执行链路本身不依赖外部服务。

04 · 数据流时序

一次任务的典型数据流:

1. 用户委托任务      (从小程序或桌面客户端发起)
2. 客户端解析任务     (翻译为可执行的目标)
3. 感知层读屏        (感知当前屏幕状态)
4. 决策层规划下一步   (大语言模型推理)
5. 执行层下发指令     (客户端 → USB → HID 硬件)
6. HID 硬件物理输出    (键盘信号 / 鼠标信号)
7. 屏幕状态变化        (回到 3,进入下一轮)
8. 任务完成 / 失败     (结果回传给用户)

整条链路中:

  • 任务规划在客户机本地完成,不向外部上传屏幕原始截图
  • 大语言模型调用仅传递必要的状态摘要文本与任务目标,原始截图不出本机
  • 执行结果仅留在客户本机日志中,可由客户配置的策略统一管理
  • 亭桥后端在主任务链路上不参与执行决策,仅承担账号、订阅、设备运营元数据

数据安全细节、本地优先原则与合规边界,详见 数据安全 + 合规

05 · 与同类方案的工程差异

ClawTouch 的工程定位是桌面执行层,与软件模拟、RPA、浏览器扩展自动化在执行原理与适用范围上有本质差异:

维度软件模拟
(AutoHotkey / PyAutoGUI)
传统 RPA
(API / DOM 驱动)
浏览器扩展自动化ClawTouch
(硬件级)
执行层 内核键鼠注入 / 系统 API 平台开放接口 / DOM 操作 仅限浏览器扩展能力 USB HID 硬件物理输出
适用范围 单机自动化脚本 有开放接口的系统 网页内任务 任意 Windows 桌面应用
UI 改版抗性 坐标依赖时较弱 较弱(接口或 DOM 改即失效) 中(DOM 依赖) 强(视觉感知补全)
系统层路径 软件模拟,与真人不同 不接触系统层 不接触系统层 与真人操作输出路径一致

ClawTouch 不替代 RPA 或浏览器扩展自动化,而是补足"任意 Windows 桌面应用、UI 改版仍可稳定运行"的场景。

06 · 运行环境

要求
操作系统Windows 10 / 11 (x64)
运行权限不需要管理员权限;不注入进程;不要求关闭杀毒软件
硬件接口一个可用 USB 端口
内存8 GB 起步,16 GB 推荐
网络出网调用大语言模型 API + 与亭桥后端的轻量心跳(离线部署除外)
浏览器协同Sensor 扩展兼容 Chrome / Edge / Firefox 等主流浏览器
多屏适配多屏、不同 DPI、不同缩放比例自适应

ClawTouch 不依赖系统级钩子注入、内核驱动、虚拟显卡或自定义输入法。所有跨平台兼容性问题由 HID 硬件层解决——HID 协议是操作系统原生支持的标准接口,因此在不同 Windows 版本、不同硬件配置上行为一致。

07 · AI 模型 + 系统集成

内置专属 AI 模型

企业版默认提供 ClawTouch 内置专属 AI 模型,覆盖任务规划与桌面元素识别两类需求。客户无需自配 API Key,也无需单独购买额度,每月含海量调用额度,按设备数订阅。

自配 LLM 服务商(可选)

客户也可按需接入企业自有的大语言模型服务(如已购的云厂大模型、私有化部署的开源模型),由桌面客户端直连调用。亭桥侧不参与 LLM 调用链路,也不留存请求与响应。

API / Webhook 接入(升级订制)

升级订制中提供与企业现有 CRM、工单、OA 系统的接入能力,便于将 ClawTouch 的运营数据回流到客户业务系统,或由客户系统反向触发 ClawTouch 任务。具体接入方式按客户实际系统协商。

训练专属大模型(升级订制)

对有数据资产、追求差异化运营效果的客户,亭桥可提供基于客户业务数据的大模型微调与独占模型权重,作为内置 AI 模型的替代方案。详见 部署模式 + 私有化