agent-browser
概览
agent-browser 是一个面向智能体的内置浏览器自动化 skill,用于更确定性、更稳定的 Web 交互。
它不同于基于截图和视觉定位的浏览器流程,而是依赖 accessibility tree 快照和 ref 形式的元素选择。
仓库路径
skills/agent-browser/
└── SKILL.md
适用场景
- 多步骤浏览器工作流
- 复杂单页应用(SPA)
- 需要稳定元素定位的场景
- 需要反复执行的隔离自动化会话
核心工作流
- 打开目标页面。
- 生成带交互 ref 的快照。
- 读取返回的 JSON 结构。
- 使用
@e2这类 ref 与元素交互。 - 页面跳转或 DOM 变化后重新生成快照。