Page Agent
由 阿里巴巴 研发
Page Agent 是阿里巴巴推出的一款创新的、基于 JavaScript 的页内 GUI 代理产品,旨在通过自然语言指令精准控制网页界面。它完全在网页内部运行,采用文本化的 DOM 操作,无需浏览器扩展、Python 或无头浏览器,避免了多模态 LLM 和屏幕截图,从而确保了卓越的易集成性和高效率。用户可灵活接入自有大型语言模型。其核心应用场景涵盖快速部署 SaaS AI 辅助功能、自动化企业级(如 ERP/CRM)复杂表单填写、提升网页可访问性,以及通过可选的 Chrome 扩展支持跨多页面的代理任务。Page Agent 将繁琐的多步骤操作转化为简洁的自然语言指令,显著提升了生产力和用户体验。
- 高度易集成:纯页内JavaScript运行,无需浏览器扩展、Python或无头浏览器。
- 文本化DOM操作:不依赖截图或多模态LLM,更高效、隐私。
- 灵活接入LLM:支持用户集成自有大型语言模型。
- 跨页面控制:可选Chrome扩展和MCP服务器,实现多页面代理任务。