
<aside> 🔬
BandAI 致力于前沿 AI 研究与下一代 AI 产品探索。研究方向涵盖 LLM、VLM、Agent,重点关注 Deep Research、Agentic RL、Self-Evolution 等前沿课题。同时,我们致力于将以上技术应用在抖音,通过数据和技术的绝对领先,为用户带来前所未有的体验。
加入我们,ensure AI creates real-world utility.
</aside>
目录
ShoppingComp 彻底革新了电商智能体的评测范式。它不再是封闭的“沙盒”测试,而是将模型直接置于一个开放、可验证的真实世界购物环境中。该评测集由 35 位领域专家精心构建,涵盖 120 个任务和 1,026 个真实场景。在这些专家设计的复杂情境中,模型需利用真实的在线搜索工具完成综合购物任务。我们通过一套明确的评分标准 (Rubric),系统性地衡量其在商品搜索精准度、购物报告专业性以及安全决策可靠性这三项核心能力上的表现。与以往的数据集不同,ShoppingComp 让模型首次直面动态商品信息、网络噪声干扰和营销宣传误导等长期被忽视的现实挑战。
测试结果暴露了当前大语言模型在真实购物环境下的严重不足:即使是 GPT-5 和 Gemini 2.5 Pro 等最先进的模型,其综合得分也极低 (仅 11.22% 和 7.7%),并且频繁出现无法识别不安全使用场景、被营销信息误导等致命错误。因此,ShoppingComp 有效地弥合了现有评测与实际应用之间的差距,为下一代购物助手的研发确立了关键的性能基准。
大型语言模型(LLM)在通过强化学习(RL)进行优化时表现出了显著提升,尤其是在使用可验证奖励(verifiable rewards)时,这种方法在生成长链条推理方面展现出巨大潜力。然而,现有方法完全依赖模型自身去探索推理轨迹,导致最终奖励反馈延迟且稀疏。
为了解决这一局限,我们提出了一种新的方法——专家辅助策略优化(Expert-Assisted Policy Optimization,EAPO)。该方法将“咨询专家”视为一种可学习的动作,使策略能够在强化学习训练过程中学习何时以及如何向专家求助。在评估阶段,为了公平地衡量优化后模型的自主能力,策略会完全独立生成回答,不再借助专家指导。大量实验证明,EAPO 能够通过引入专家辅助丰富反馈信号,超越仅依赖最终可验证奖励的训练方式,从而显著提升 LLM 的推理能力。
现有的文本生成图像方法通常分为两类:(1)统一的生成-理解模型;(2)两阶段流程——先生成文本,再生成图像。这两种方法都严重依赖扩散模型进行图像合成,因此在需要准确且具备事实性的视觉内容(如新闻报道或数据分析报告)时,往往难以满足要求。
为弥补这一不足,我们提出了 LLM-I,它在大语言模型内部深度整合了在线搜索、图像编辑、扩散生成和代码可视化。依托大语言模型的推理能力,LLM-I 能够生成内容丰富且可靠的多模态报告,适用于数据分析、产品对比等场景。除此之外,我们还引入了一种强化学习(RL)策略,显著提升了模型在智能选择与协同调度工具方面的能力,同时确保文本与视觉的紧密对齐。我们在 Qwen3-4B、Qwen3-30B、Qwen2.5-VL-7B 和 Qwen2.5-VL-32B 上对方法进行了验证,并在四个不同的基准测试中取得了新的最优表现。
SamplingEvolve 将测试时扩展(Test-Time Scaling)实现为一个基于经验驱动的轨迹进化循环:候选轨迹会被持久化存储在一个轨迹池中(包含完整消息、工具调用、元数据及父节点 ID),随后由进化引擎 + 进化器 + 评估器反复迭代,并利用可复用的失败示例和自然语言反馈作为一种软梯度来引导优化。
我们在 GAIA-text(20 轮)和 BrowseComp(10 轮)上对系统进行了评估。在 GAIA 上,仅三轮迭代便将累计准确率提升至 70.37%(相比 Pass@N 的 62.96%),并在持续进化后达到 86.42%(+23.46%)。在前 100 个 BrowseComp 问题上的峰值为 43.00%。所有实验均使用基于 LLM 或基于规则的评估器提供可验证的反馈,并将其写回轨迹池,从而保证实验结果的可复现性。
ReportBench 在评估 Deep Research 智能体时填补了空白,它基于 arXiv 调研论文构建了一个可复现的基准测试,并从两个具体维度进行衡量:生成内容的引用相关性/覆盖率以及事实准确性。这一框架将评估重点从主观的写作风格转向了可验证的科研能力。