📄 论文总结
德国公共资源库——为德语语言模型提供的1540亿个开放许可文本标记 / The German Commons - 154 Billion Tokens of Openly Licensed Text for German Language Models
1️⃣ 一句话总结
这篇论文构建了迄今为止最大的开放许可德语文本数据集,包含1540亿个高质量文本标记,解决了德语语言模型开发中公开数据稀缺的问题,并提供了可复现的数据处理工具。
请先 登录 后再提交论文
德国公共资源库——为德语语言模型提供的1540亿个开放许可文本标记 / The German Commons - 154 Billion Tokens of Openly Licensed Text for German Language Models
这篇论文构建了迄今为止最大的开放许可德语文本数据集,包含1540亿个高质量文本标记,解决了德语语言模型开发中公开数据稀缺的问题,并提供了可复现的数据处理工具。
基于渐进难度增强机制的Web智能体数据合成方法 / Synthesizing Agentic Data for Web Agents with Progressive Difficulty Enhancement Mechanisms
这篇论文提出了一种通过逐步增加任务难度来合成高质量训练数据的方法,使得训练出的网络智能体在复杂问答任务中表现更优,同时避免了重复工具使用行为。
RePro:训练语言模型忠实回收网络数据用于预训练 / RePro: Training Language Models to Faithfully Recycle the Web for Pretraining
这篇论文提出了一种名为RePro的新方法,通过训练一个小型语言模型来智能改写网络数据,既提升预训练数据质量又保持原意,使模型在多项任务上的表现显著优于传统方法,并实现了2-3倍的数据利用效率提升。
R2RGEN:面向空间泛化操作的真实到真实三维数据生成 / R2RGEN: Real-to-Real 3D Data Generation for Spatially Generalized Manipulation
本文提出了一种无需模拟器和渲染的R2RGEN框架,能够直接从少量真实演示中高效生成多样化的三维点云数据,显著提升机器人操作策略在复杂空间环境下的泛化能力。
迈向可扩展且一致的3D编辑 / Towards Scalable and Consistent 3D Editing
这篇论文通过构建大规模3D编辑数据集并提出一种无需手动标注就能保持3D结构完整性的新模型,解决了3D编辑中视图不一致和结构失真的难题,实现了更精确、高效的3D内容修改。
面向隐私合成文本的受控生成 / Controlled Generation for Private Synthetic Text
这项研究提出了一种结合实体控制代码的新方法,能够在医疗和法律等敏感领域生成既保护个人隐私又保持文本实用性的合成文本。
zELO:受ELO启发的重排器和嵌入模型训练方法 / zELO: ELO-inspired Training Method for Rerankers and Embedding Models
这篇论文提出了一种名为zELO的新型训练方法,通过利用无监督数据训练出性能卓越的重排模型,在金融、法律、代码和科学等多个领域的检索任务中超越了现有的闭源模型,并展现出强大的跨领域适应能力。
OmniWorld:用于4D世界建模的多领域多模态数据集 / OmniWorld: A Multi-Domain and Multi-Modal Dataset for 4D World Modeling
这篇论文提出了一个名为OmniWorld的大规模多领域多模态数据集,旨在解决4D世界建模领域高质量数据不足的问题,并通过实验证明该数据集能显著提升现有方法在4D重建和视频生成任务上的性能。
CognitiveSky:去中心化社交媒体的可扩展情感与叙事分析框架 / CognitiveSky: Scalable Sentiment and Narrative Analysis for Decentralized Social Media
这篇论文提出了一个名为CognitiveSky的开源框架,它能够高效分析去中心化社交媒体上的用户情感和话题叙事,并通过可视化工具帮助研究者低成本地追踪公众舆论动态。
PersonaX:包含LLM推断行为特征的多模态数据集 / PersonaX: Multimodal Datasets with LLM-Inferred Behavior Traits
这篇论文提出了一个名为PersonaX的多模态数据集,它结合了大型语言模型推断的行为特征、面部图像和传记信息,为跨模态行为分析和因果推理研究提供了基础。