P

Page Agent

由 阿里巴巴 研发
开源项目 TypeScript 全球 #typescript

Page Agent 是阿里巴巴推出的一款创新的、基于 JavaScript 的页内 GUI 代理产品,旨在通过自然语言指令精准控制网页界面。它完全在网页内部运行,采用文本化的 DOM 操作,无需浏览器扩展、Python 或无头浏览器,避免了多模态 LLM 和屏幕截图,从而确保了卓越的易集成性和高效率。用户可灵活接入自有大型语言模型。其核心应用场景涵盖快速部署 SaaS AI 辅助功能、自动化企业级(如 ERP/CRM)复杂表单填写、提升网页可访问性,以及通过可选的 Chrome 扩展支持跨多页面的代理任务。Page Agent 将繁琐的多步骤操作转化为简洁的自然语言指令,显著提升了生产力和用户体验。

  • 高度易集成:纯页内JavaScript运行,无需浏览器扩展、Python或无头浏览器。
  • 文本化DOM操作:不依赖截图或多模态LLM,更高效、隐私。
  • 灵活接入LLM:支持用户集成自有大型语言模型。
  • 跨页面控制:可选Chrome扩展和MCP服务器,实现多页面代理任务。