
<aside> 🔬
BandAI 致力于前沿 AI 研究与下一代 AI 产品探索。研究方向涵盖 LLM、VLM、Agent,重点关注 Deep Research、Agentic RL、Self-Evolution 等前沿课题。同时,我们致力于将以上技术应用在抖音,通过数据和技术的绝对领先,为用户带来前所未有的体验。
加入我们,ensure AI creates real-world utility.
</aside>
目录
在现实世界的软件工程任务中,实现卓越性能的核心瓶颈在于大规模、高质量训练数据的匮乏。由于环境搭建、单元测试生成以及问题描述提取的复杂性,这类数据的规模化一直受到限制。
在本文中,我们提出了 ScaleSWE:一个自动化的、基于沙盒的多智能体工作流,旨在规模化地构建高质量软件工程(SWE)数据。该系统通过协调三个专门的智能体(分别负责环境配置、测试创建以及问题描述合成),对 5200 个代码库中的 600 万个拉取请求(Pull Requests)进行了处理,最终产出了 ScaleSWE Data。该数据集包含 10 万个经过验证的 SWE 实例,是迄今为止同类数据中规模最大的。它在代码库多样性上大幅超越了现有数据集,并反映了真实的任务复杂度。 我们通过蒸馏得到 71,498 条高质量轨迹(Trajectories),并微调 Qwen-30B-A3B-Instruct 模型,进一步证明了该数据集在训练中的实用性,最终产出了 ScaleSWE Agent。我们的智能体在 SWE-bench Verified 基准测试上实现了 64% 的解决率,较基础模型提升了近三倍。ScaleSWE 为数据构建提供了一种可扩展且可复现的方法,旨在推动基于大语言模型的软件工程发展。ScaleSWE 将向公众开放。
大语言模型(LLMs)在充当教学助手方面展现出潜力,但其教学能力仍缺乏充分评估。现有基准主要关注解题能力或题目层面的指导,对以知识点为中心的教学评测相对不足。我们提出一个以教学大纲为基础的评测框架,通过多轮教学互动后学生模型成绩的提升来衡量大语言模型的教学能力。通过将教师智能体的教学内容限制在结构化知识点与例题范围内,该框架能够避免信息泄露,并支持复用现有基准数据集。
我们在跨多学科的高考数据上实例化该框架。实验结果显示,不同模型与不同学科的教学效果差异显著:部分模型在数学上表现较好,而在物理与化学上的教学仍然较为困难。我们还发现,引入例题并不一定带来更好的教学效果,因为模型往往会从概念讲解转向针对例题的纠错与答案评判。我们的结果表明,教学能力是大语言模型行为中一个独立且可衡量的维度。
思维链是增强大语言模型推理能力的关键技术之一,而“隐式推理”在此基础上进一步被提出,用以加速推理链的低效逐token生成过程。我们观察到,现有的隐式推理方法通常需要对模型结构进行大量改动并进行大规模的训练,这限制了它们的应用场景。在本文中,我们提出了CoLT模型,它是一个将隐式推理以“工具调用”的形式实现的新颖框架。与完全在隐式空间中进行推理不同,CoLT会生成包含推理子步骤信息的“种子token”。当一次隐式工具调用被触发时,一个较小的外部模型将接收种子token的隐藏状态作为输入,并将其“解包”回完整的推理步骤。通过这种方式,我们可以确保主模型在显式token上下文空间中进行推理,在保持其推理能力的同时提高效率。在四个数学数据集上的实验结果表明,与基准隐式推理模型相比,CoLT拥有更高的准确率和更短的推理长度,并且能够兼容强化学习算法和不同的解码器结构。
强化学习(RL)已成为提升大语言模型(LLMs)推理能力与对齐能力的重要技术。在实际的大规模训练中,为了提高效率,rollout 往往由旧版本的策略生成,称之为 off-policy 优化。尽管许多现有算法通过 token-level 的重要性采样比率 来修正由此产生的分布偏移,但在策略漂移较大的情况下,off-policy 训练仍然可能导致大语言模型的 RL 后训练出现不稳定甚至训练崩溃。
本文重新审视了大语言模型策略优化的理论基础,指出理论上正确的修正项应为 prefix importance ratio,而非实践中常用的 token-level 近似。基于此,我们提出了一种简单有效的优化目标,在避免数值不稳定的同时保留关键的 prefix ratio 信息,从而使得在off-policy场景下的LLM RL 后训练更加稳定。
当前的多模态大语言模型(MLLMs)在面对图像旋转或翻转等简单的现实世界扰动时,往往表现出惊人的脆弱性 ,且通常受限于如裁剪等狭窄的预定义工具集 。为了解决这些局限性,我们提出了 CodeVision,这是一种引入“代码即工具(code-as-tool)”范式的新颖框架 。我们的方法不再依赖固定的工具注册表,而是赋予模型生成可执行代码作为通用接口的能力,使其能够动态调用几乎无限范围的图像操作 。这种转变不仅消除了手动定义工具规范的需求,还显著增强了模型在处理复杂视觉推理任务时的灵活性和可扩展性 。
为了实现稳健的工具使用能力,我们采用了一种包含冷启动监督微调(SFT)和随后的强化学习(RL)的两阶段训练方法 。通过利用新颖的密集过程奖励函数,我们引导模型在多轮交互中发展出策略性推理和错误恢复技能 。在 Qwen 系列模型上的实验表明,CodeVision 显著提高了鲁棒性并促进了涌现行为,例如自发组合未见过的工具(如对比度增强)来解决新颖的问题 。在 MVToolBench 等极具挑战性的基准测试中,我们的模型实现了最先进的性能(SOTA),超越了 GPT-5 和 Gemini 等领先模型 。