LargeModel

论文名称	发表会议	核心贡献	模型大小	代码地址	标签
Democratizing Pathology Co-Pilots: An Open Pipeline and Dataset for Whole-Slide Vision-Language Modelling	arxiv 2601MIDL 2026在投	1. 提出 Polysome 合成指令生成工具，将非结构化文本如临床报告转化为结构化指令-响应对。2. 构建 HISTAI - Instruct 数据集，基于Polysome和HISTAI数据集，包含2.5万张20倍全切片，和111万对话3. 训练 ANTONI - α 模型，基于MedGemma 4B，训练8卡h20使用HEST模型在20倍下全尺寸分割，将前景切片使用Virchow生成嵌入，再使用PRISM聚合信息	4B+	https://github.com/computationalpathologygroup/ANTONI-Alphahttps://github.com/computationalpathologygroup/Polysomehttps://huggingface.co/datasets/SaltySander/HISTAI-Instruct	病理图像，器官识别、肿瘤检测、诊断、VQA
MedVL - SAM2: A unified 3D medical vision–language model for multimodal reasoning and prompt - driven segmentation	arxiv 2601	1. InternVL 2.5+SAM22. 报告生成、VQA、分割、语义分割、指代分割、交互式分割M3D-Seg CT数据集	4B+		CT、分割
PathMR: Multimodal Visual Reasoning for Interpretable Pathology Analysis	arxiv 2508	1. 基于PatchGastricADC22 数据集扩展，包含 9 种胃腺癌亚型，图像分辨率为 600×600 像素，40倍放大，HoverNet+医生确认2. GPT-4o 生成两类问答对（通用形态问题 + 亚型诊断问题）。3. llava/qwen	7B/13B	https://github.com/zhangye-zoe/PathMR	病理图像、VQA、指代分割、语义分割
Zero - shot segmentation of skin tumors in whole - slide images with vision - language foundation models	arxiv 2511	1. 为每一个目标类表生成大量不同的文本提示，得到嵌入取平均2. 将wsl前景分割出来，在切片为448x448大小，重叠75%通过视觉编码器得到特征嵌入3. 计算patch嵌入和文本嵌入余弦相似度，映射回像素，argmax得到分类结果4. 重叠区域取平均		https://github.com/cvblab/ZEUS	零样本分割
PathChat - SegR1: Reasoning Segmentation in Pathology via SO - GRPO	ICLR 2026在投	1. 使用病理专用视觉编码器RuiPath和MedSAM2. 三阶段、预训练（染色不变自蒸馏）+sft+rl3. 强化学习优化seg token生成时机，将离散分割指标如dice iou转化为连续分布4. 公共数据集+私有（4.3万+），四种放大倍数，各种形态，包括冷冻切片等。	qwen2.5 vl 3b + RuiPath	https://openreview.net/forum?id=DQESI75YrDhttps://anonymous.4open.science/r/PathChat-Seg-3116	强化学习、零样本分割、自然语言查询、单轮对话
Segment Anything for Histopathology	MIDL 2025	1. 基于uSAM2. 交互式分割3. 首个针对病理组织学细胞核分割的视觉基础模型		https://github.com/computational-cell-analytics/patho-sam	细胞核分割