| Democratizing Pathology Co-Pilots: An Open Pipeline and Dataset for Whole-Slide Vision-Language Modelling | arxiv 2601MIDL 2026在投 | 1. 提出 Polysome 合成指令生成工具,将非结构化文本如临床报告转化为结构化指令-响应对。2. 构建 HISTAI - Instruct 数据集,基于Polysome和HISTAI数据集,包含2.5万张20倍全切片,和111万对话3. 训练 ANTONI - α 模型,基于MedGemma 4B,训练8卡h20使用HEST模型在20倍下全尺寸分割,将前景切片使用Virchow生成嵌入,再使用PRISM聚合信息 | 4B+ | https://github.com/computationalpathologygroup/ANTONI-Alphahttps://github.com/computationalpathologygroup/Polysomehttps://huggingface.co/datasets/SaltySander/HISTAI-Instruct | 病理图像,器官识别、肿瘤检测、诊断、VQA |
| MedVL - SAM2: A unified 3D medical vision–language model for multimodal reasoning and prompt - driven segmentation | arxiv 2601 | 1. InternVL 2.5+SAM22. 报告生成、VQA、分割、语义分割、指代分割、交互式分割M3D-Seg CT数据集 | 4B+ | | CT、分割 |
| PathMR: Multimodal Visual Reasoning for Interpretable Pathology Analysis | arxiv 2508 | 1. 基于PatchGastricADC22 数据集扩展,包含 9 种胃腺癌亚型,图像分辨率为 600×600 像素,40倍放大,HoverNet+医生确认2. GPT-4o 生成两类问答对(通用形态问题 + 亚型诊断问题)。3. llava/qwen | 7B/13B | https://github.com/zhangye-zoe/PathMR | 病理图像、VQA、指代分割、语义分割 |
| Zero - shot segmentation of skin tumors in whole - slide images with vision - language foundation models | arxiv 2511 | 1. 为每一个目标类表生成大量不同的文本提示,得到嵌入取平均2. 将wsl前景分割出来,在切片为448x448大小,重叠75%通过视觉编码器得到特征嵌入3. 计算patch嵌入和文本嵌入余弦相似度,映射回像素,argmax得到分类结果4. 重叠区域取平均 | | https://github.com/cvblab/ZEUS | 零样本分割 |
| PathChat - SegR1: Reasoning Segmentation in Pathology via SO - GRPO | ICLR 2026在投 | 1. 使用病理专用视觉编码器RuiPath和MedSAM2. 三阶段、预训练(染色不变自蒸馏)+sft+rl3. 强化学习优化seg token生成时机,将离散分割指标如dice iou转化为连续分布4. 公共数据集+私有(4.3万+),四种放大倍数,各种形态,包括冷冻切片等。 | qwen2.5 vl 3b + RuiPath | https://openreview.net/forum?id=DQESI75YrDhttps://anonymous.4open.science/r/PathChat-Seg-3116 | 强化学习、零样本分割、自然语言查询、单轮对话 |
| Segment Anything for Histopathology | MIDL 2025 | 1. 基于uSAM2. 交互式分割3. 首个针对病理组织学细胞核分割的视觉基础模型 | | https://github.com/computational-cell-analytics/patho-sam | 细胞核分割 |