A Atelier / OBL obl爱学习
研究项目 / Q1 文献综述
obl · 11:42

帮我整理一下最近 retrieval-augmented generation 的论文,重点对比 Self-RAGCorrective RAG 这两条线。我手上有三篇 PDF,先丢进来。

PDFSelf-RAG.pdf· 14 页 PDFCorrective-RAG-CRAG.pdf· 11 页 MDRAG-survey-2025.md· 6 KB
Atelier · 11:42

先扫了一遍附件。基于本对话的 literature-review skill 与 memory(你 1 月以来追踪的 12 篇核心文献),以及「研究项目」组的 citation 规范,整理如下。

维度 Self-RAG (Asai et al.) Corrective RAG (Yan et al.)
核心机制 模型自评 [Retrieve] / [IsRel] / [IsSup] / [IsUse] 四类反思 token,按需触发二次检索 检索后用轻量分类器评判文档相关性,必要时改写查询或回落到 web 检索
评估器 同一 LLM 在输出中插入反思 token,端到端训练 独立的 T5-large fine-tune 分类器 + web 检索开关
幻觉控制 通过 [IsSup] 强制引用支撑段落 依赖分类器阈值,需配合 prompt 工程
推理成本 +30% tokens / query +1 web 调用 命中率低时
长尾鲁棒性 PopQA 提升显著,封闭域回落 开放域稳定,web 兜底显著
自身~/atelier/obl/研究项目/Q1 文献综述/memory.md · 命中 2 条
自身~/atelier/obl/研究项目/Q1 文献综述/files/ · 解析 3 份
同组~/atelier/obl/研究项目/skills/citation-formatter.md · 命中 1 条
跨组

如果你的目标是 长尾开放域问答,CRAG 起步成本更低;如果是 封闭域需要可追溯引用,Self-RAG 仍然领先。要我把表格导出成 MD 放进本对话的 notes.md 里吗?

obl · 11:48

导进 notes.md,另外顺手把「RAG 评估基准」那个对话里用过的评估矩阵模板也拉过来对比一下。

MIC语音备注.m4a· 0:24 IMG白板拍照.jpg· 1.2 MB
上下文查找 1自身 · 2 条命中 2同组 · 1 条命中 3跨组 · 待询问
当前模型 · Atelier Auto