
<aside> 🔬
BandAI 致力于前沿 AI 研究与下一代 AI 产品探索。研究方向涵盖 LLM、VLM、Agent,重点关注 Deep Research、Agentic RL、Self-Evolution 等前沿课题。同时,我们致力于将以上技术应用在抖音,通过数据和技术的绝对领先,为用户带来前所未有的体验。
加入我们,ensure AI creates real-world utility.
</aside>
目录
当前的多模态大语言模型(MLLMs)在面对图像旋转或翻转等简单的现实世界扰动时,往往表现出惊人的脆弱性 ,且通常受限于如裁剪等狭窄的预定义工具集 。为了解决这些局限性,我们提出了 CodeVision,这是一种引入“代码即工具(code-as-tool)”范式的新颖框架 。我们的方法不再依赖固定的工具注册表,而是赋予模型生成可执行代码作为通用接口的能力,使其能够动态调用几乎无限范围的图像操作 。这种转变不仅消除了手动定义工具规范的需求,还显著增强了模型在处理复杂视觉推理任务时的灵活性和可扩展性 。 为了实现稳健的工具使用能力,我们采用了一种包含冷启动监督微调(SFT)和随后的强化学习(RL)的两阶段训练方法 。通过利用新颖的密集过程奖励函数,我们引导模型在多轮交互中发展出策略性推理和错误恢复技能 。在 Qwen 系列模型上的实验表明,CodeVision 显著提高了鲁棒性并促进了涌现行为,例如自发组合未见过的工具(如对比度增强)来解决新颖的问题 。在 MVToolBench 等极具挑战性的基准测试中,我们的模型实现了最先进的性能(SOTA),超越了 GPT-5 和 Gemini 等领先模型 。
ShoppingComp 彻底革新了电商智能体的评测范式。它不再是封闭的“沙盒”测试,而是将模型直接置于一个开放、可验证的真实世界购物环境中。该评测集由 35 位领域专家精心构建,涵盖 120 个任务和 1,026 个真实场景。在这些专家设计的复杂情境中,模型需利用真实的在线搜索工具完成综合购物任务。我们通过一套明确的评分标准 (Rubric),系统性地衡量其在商品搜索精准度、购物报告专业性以及安全决策可靠性这三项核心能力上的表现。与以往的数据集不同,ShoppingComp 让模型首次直面动态商品信息、网络噪声干扰和营销宣传误导等长期被忽视的现实挑战。
测试结果暴露了当前大语言模型在真实购物环境下的严重不足:即使是 GPT-5 和 Gemini 2.5 Pro 等最先进的模型,其综合得分也极低 (仅 11.22% 和 7.7%),并且频繁出现无法识别不安全使用场景、被营销信息误导等致命错误。因此,ShoppingComp 有效地弥合了现有评测与实际应用之间的差距,为下一代购物助手的研发确立了关键的性能基准。
大型语言模型(LLM)在通过强化学习(RL)进行优化时表现出了显著提升,尤其是在使用可验证奖励(verifiable rewards)时,这种方法在生成长链条推理方面展现出巨大潜力。然而,现有方法完全依赖模型自身去探索推理轨迹,导致最终奖励反馈延迟且稀疏。
为了解决这一局限,我们提出了一种新的方法——专家辅助策略优化(Expert-Assisted Policy Optimization,EAPO)。该方法将“咨询专家”视为一种可学习的动作,使策略能够在强化学习训练过程中学习何时以及如何向专家求助。在评估阶段,为了公平地衡量优化后模型的自主能力,策略会完全独立生成回答,不再借助专家指导。大量实验证明,EAPO 能够通过引入专家辅助丰富反馈信号,超越仅依赖最终可验证奖励的训练方式,从而显著提升 LLM 的推理能力。
现有的文本生成图像方法通常分为两类:(1)统一的生成-理解模型;(2)两阶段流程——先生成文本,再生成图像。这两种方法都严重依赖扩散模型进行图像合成,因此在需要准确且具备事实性的视觉内容(如新闻报道或数据分析报告)时,往往难以满足要求。
为弥补这一不足,我们提出了 LLM-I,它在大语言模型内部深度整合了在线搜索、图像编辑、扩散生成和代码可视化。依托大语言模型的推理能力,LLM-I 能够生成内容丰富且可靠的多模态报告,适用于数据分析、产品对比等场景。除此之外,我们还引入了一种强化学习(RL)策略,显著提升了模型在智能选择与协同调度工具方面的能力,同时确保文本与视觉的紧密对齐。我们在 Qwen3-4B、Qwen3-30B、Qwen2.5-VL-7B 和 Qwen2.5-VL-32B 上对方法进行了验证,并在四个不同的基准测试中取得了新的最优表现。
SamplingEvolve 将测试时扩展(Test-Time Scaling)实现为一个基于经验驱动的轨迹进化循环:候选轨迹会被持久化存储在一个轨迹池中(包含完整消息、工具调用、元数据及父节点 ID),随后由进化引擎 + 进化器 + 评估器反复迭代,并利用可复用的失败示例和自然语言反馈作为一种软梯度来引导优化。
我们在 GAIA-text(20 轮)和 BrowseComp(10 轮)上对系统进行了评估。在 GAIA 上,仅三轮迭代便将累计准确率提升至 70.37%(相比 Pass@N 的 62.96%),并在持续进化后达到 86.42%(+23.46%)。在前 100 个 BrowseComp 问题上的峰值为 43.00%。所有实验均使用基于 LLM 或基于规则的评估器提供可验证的反馈,并将其写回轨迹池,从而保证实验结果的可复现性。