🤖 系统
08-27 14:38
📄 论文总结
- 中英文论文题目:
ST-Raptor: A Hierarchical Tree-Based Framework for Semi-Structured Table Question Answering
ST-Raptor:基于分层树结构的半结构化表格问答框架
1️⃣ 一句话总结
ST-Raptor提出了一种基于分层正交树(HO-Tree)的框架,通过结构化表示、问题分解和两阶段验证机制,显著提升了半结构化表格(如Excel)问答任务的准确性和鲁棒性,解决了现有方法在布局理解、多跳推理和验证机制上的局限性。
2️⃣ 论文创新点
1. 分层正交树(HO-Tree)表示法
- 创新点:设计双树结构(MTree和BTree)表示表格元数据和内容,支持递归遍历和混合布局(如合并单元格、嵌套表头)。
- 区别/改进:相比传统NL2SQL或视觉方法(如TableLLaVA),HO-Tree显式建模表格的层次化关系,避免信息丢失。
- 意义:使通用LLM无需直接解析复杂布局,降低任务复杂度。
2. 基于树操作的问答策略
- 创新点:定义四种原子操作(数据检索、处理、对齐、推理),支持多跳查询和混合遍历策略。
- 区别/改进:相比单步检索(如ReAcTable),通过操作-表对齐(Align)和语义推理(Reason)提升可解释性。
- 意义:实现复杂问题的分步求解,如数值计算和跨列推理。
3. 两阶段验证机制
- 创新点:前向验证(约束检查)和后向验证(反向问题生成)确保答案可靠性。
- 区别/改进:超越传统单一验证(如NL2SQL的执行反馈),减少模型幻觉。
- 意义:在SSTQA基准上错误率降低20%以上。
4. SSTQA基准数据集
- 创新点:构建包含102个真实表格和764个查询的基准,覆盖简单到困难布局(如Header-Multiple-Values)。
- 区别/改进:相比现有数据集(如WikiTableQuestions),强调深度嵌套和异构布局。
- 意义:为半结构化表格QA提供标准化评估平台。
3️⃣ 主要结果与价值
实验结果亮点
- 性能优势:在SSTQA上准确率超第二名20%(困难任务),消融实验显示HO-Tree贡献最大(性能下降15.15%)。
- 效率平衡:通过分组检索和并行策略,延迟控制在合理范围(如大型表格分组耗时<2s)。
实际应用价值
- 跨领域适用性:支持Excel、HTML等多种输入格式,适用于金融报表、医疗记录等场景。
- 可扩展性:框架可集成不同LLM(如GPT-4、TableLLM),适配多样化需求。
4️⃣ 术语表
- ST-Raptor:半结构化表格问答框架,核心包括HO-Tree和两阶段验证。
- HO-Tree:分层正交树,通过MTree(元数据)和BTree(内容)表示表格布局。
- SSTQA:半结构化表格问答基准,含102个表格和764个复杂查询。
- NL2SQL:自然语言转SQL技术,局限在于无法处理非结构化表格。
- Align操作:参数-内容对齐机制,确保操作与表格数据一致性。
- Header-Multiple-Values (L.2):表头对应多个值的布局类型。
- ReAcTable:基于NL2SQL的代理方法,性能受限于结构化转换。