医学AI新进展：MEDOPENCLAW助VLM动态解析完整影像，提升诊断精度

当前，医学影像领域的AI模型评估普遍简化了临床实际。大多数模型仅依赖预先选择的2D静态图像，这不仅需要大量人工整理，更重要的是，它忽视了真实世界诊断的核心挑战：真正的临床智能体需要像医生一样，主动导航多个序列或模态的完整3D体数据，收集证据，最终支持诊断决策。

为解决这一痛点，研究团队提出了“MEDOPENCLAW”平台。这是一个可审计的运行时环境，旨在让视觉语言模型（VLM）能够在标准的医疗工具或观察器（例如3D Slicer）中动态操作。这意味着AI不再是被动地“看图”，而是能够主动“探索”影像数据，模拟真实医生的工作流。

在此基础上，研究团队还引入了“MEDFLOWBENCH”，一个全面的医学影像基准测试。该基准覆盖了多序列脑部MRI和肺部CT/PET等复杂场景的完整研究，系统地评估了医疗AI的代理能力，包括仅通过观察器、使用工具以及开放方法等多种模式。

初步测试结果揭示了一个关键洞察：尽管像Gemini 3.1 Pro和GPT-5.4这样的先进大型语言模型/视觉语言模型在导航观察器以解决基础研究级任务时表现出色，但当它们获得专业支持工具的访问权限时，性能却出人意料地下降。这主要是由于它们缺乏精确的空间定位能力。这一发现凸显了现有AI模型在与复杂医疗工具交互时的局限性。

MEDOPENCLAW和MEDFLOWBENCH通过弥合静态图像感知与交互式临床工作流之间的鸿沟，为开发可审计、能够处理完整医学研究的AI代理奠定了可复现的基础。这将推动医学AI向更实用、更智能、更可信赖的方向发展。