arXiv ID:
2606.09672
相关性并不足够:为个体因果发现嵌入人类元数据 / Correlation Is Not Enough: Embedding Human Metadata for Individual Causal Discovery
1️⃣ 一句话总结
本文发现现有的生物医学语言模型在判断毫无关联的两个概念时也会给出很高的相似度分数(如“皮质醇28 μg/dL”与“股市波动”的余弦相似度高达0.83),这导致以嵌入距离作为因果证据的大型行为模型(LBM)产生大量虚假因果链路;作者提出了BODHI的对比训练方法,通过从生物医学知识图谱中挖掘难负样本,将跨领域区分度提升2.30倍,并结合OpenVINO在支持AMX的英特尔至强处理器上实现了133倍的速度提升(单查询从1367毫秒降至10毫秒),同时发现FP16精度在该硬件上全面优于INT8。