当前,医学影像领域的AI模型评估普遍简化了临床实际。大多数模型仅依赖预先选择的2D静态图像,这不仅需要大量人工整理,更重要的是,它忽视了真实世界诊断的核心挑战:真正的临床智能体需要像医生一样,主动导航多个序列或模态的完整3D体数据,收集证据,最终支持诊断决策。
为解决这一痛点,研究团队提出了“MEDOPENCLAW”平台。这是一个可审计的运行时环境,旨在让视觉语言模型(VLM)能够在标准的医疗工具或观察器(例如3D Slicer)中动态操作。这意味着AI不再是被动地“看图”,而是能够主动“探索”影像数据,模拟真实医生的工作流。
在此基础上,研究团队还引入了“MEDFLOWBENCH”,一个全面的医学影像基准测试。该基准覆盖了多序列脑部MRI和肺部CT/PET等复杂场景的完整研究,系统地评估了医疗AI的代理能力,包括仅通过观察器、使用工具以及开放方法等多种模式。
初步测试结果揭示了一个关键洞察:尽管像Gemini 3.1 Pro和GPT-5.4这样的先进大型语言模型/视觉语言模型在导航观察器以解决基础研究级任务时表现出色,但当它们获得专业支持工具的访问权限时,性能却出人意料地下降。这主要是由于它们缺乏精确的空间定位能力。这一发现凸显了现有AI模型在与复杂医疗工具交互时的局限性。
MEDOPENCLAW和MEDFLOWBENCH通过弥合静态图像感知与交互式临床工作流之间的鸿沟,为开发可审计、能够处理完整医学研究的AI代理奠定了可复现的基础。这将推动医学AI向更实用、更智能、更可信赖的方向发展。