COTA实[机演示: 超高竞技水平与完全透明的“AI战术大脑”

  更新时间:2026-01-18 01:51   来源:牛马见闻

吉报头条
重要新闻
国内新闻
国际新闻
图片精选

以COTA驱动的AI Bot摆脱了伏 拓宽Game AI能力边界 COTA的发布从更长远的维度看

<p> 为了!深度验!证COTA在复杂游戏场景的能力,我们没有选择容错率较高的非实时类游戏场景,而是选择在容错率极低、需进行极高频对抗博弈的FPS游戏对COTA进行性能测试,为此专门搭建了一个全自研的游戏环境。 </p> <p> <strong>从“单兵作战”到“团队合作”,全方位接近真人高分玩家水平</strong> </p> <p> 在实机测试中,COTA展现了极高的智能化水平。除了能够流畅执行单游戏角色的急停拉枪、掩体博弈、投掷物封烟、下包拆包等一系列复杂连贯的动作,还可以在多人对抗中,完成丰富的战术配合,如多角度交叉架枪、掩护队友突点、残局补枪等。以COTA驱动的AI Bot摆脱了传统Bot的机械感,具备极高的操作流畅度,表现出接近真人高分玩家的游戏水平。 </p> <p align="center" style="text-align:center;"> </p> <p class="content-pic-desc"> 打破“思维黑盒”,决策过程完全透明可视的Game AI<span></span> </p> <p> COTA最重要的突破之一在于通过思维链技术,将游戏AI的决策过程从“黑盒”变成了“白盒”。我们可以在COTA的CoT面板中,清晰地看到实时滚动的思维推导流,了解AI每一个行为背后的原因。 </p> <p align="center" style="text-align:center;"> </p> <p class="content-pic-desc"> 最终DEMO CoT面板以另一UI形式展现<span></span> </p> <p> 战术指令分析(节选):根据当前团队计划“我方仅存一人,位置极佳,应立即回防拆弹,避免爆炸”与个人任务“速度回防A点,快速抢拆”,我作为唯一存活队员,必须在炸弹爆炸前抵达炸弹安放点执行拆除。 </p> <p> 转移路径规划(节选):根据地图拓扑,我当前位于ALPHA_SITE_RAMP区域,而目标点位于其南侧的SITE_PIT区域。因此,最优路径是先向南移动进入SITE_PIT区域。结合深度图信息,前方可见高墙与斜坡结构,表明我需调整视角以避开障碍。移动过程中,除前进外,还需执行“瞄准”动作以应对可能遭遇的敌人。根据历史可见敌人位置,该敌人位于我左前方约5米处,因此在移动同时应保持武器举枪状态,准备应对突发交火。 </p> <p> 行动指令输出(节选):综上,首先调整视角,确保面向正确路径;随后开火准备应对敌人;最后执行前进指令,沿斜坡向下移动至SITE_PIT区域,朝目标点方向推进。此序列符合“快速抢拆”个人任务,同时呼应团队计划,确保在30秒内完成拆弹,避免爆炸损失。 </p> <p> 这种从信息收集、逻辑归因到最终执行的完整链路展示,标志着游戏AI真正具备了“可解释性”,走到了“知其然,亦知其所以然”的全新阶段。 </p> <p> <strong>COTA技术解密:精准选型与架构创新</strong> </p> <p> 大语言模型(LLM)虽然具备卓越的逻辑推理能力,但其自回归生成的特性决定了它天生“慢半拍”。我们是如何打破这一困境,让习惯“慢思考”的大模型适应“快节奏”的实时游戏呢?答案来自于超参数技术团队的模型精准选型策略以及模型架构创新。 </p> <p> 在研发初期,我们对市面上的主流大模型进行了广泛的调研与测试。我们认为,在实时竞技游戏这一特定场景下,并不需要通用大模型那种包罗万象的“百科全书式”知识(如复杂的代码编写或文学创作),过度的参数冗余会带来计算负担与成本消耗。最终我们锁定了Qwen3-VL-8B-Thinking作为基座模型。这是一个兼顾性能与效率的“甜点级”选择——8B的参数量级恰到好处,既保留了足够的语言理解与逻辑推理能力来处理复杂战术,又在物理层面保证了更快的推理速度,为COTA优秀的实时响应能力打下坚实基础。 </p> <p> 为了进一步突破性能瓶颈,我们创新性地为COTA构建了一套“双系统分层架构”,将游戏AI决策链条进行解耦,模拟人类大脑“快慢系统”的协同工作模式: </p> <p align="center" style="text-align:center;"> </p> <p class="content-pic-desc"> COTA模型架构<span></span> </p> <p> 上层“指挥官”(Commander)——负责“慢思考”的战略大脑 </p> <p> 这是一个保留了完整推理能力的LLM,它专注于宏观战术推理,如分析地图(基于游戏公开信息)、判断敌方意图、制定类似“全员RUSH”或“战术撤退”的战略方针。“指挥官”的思考是深思熟虑的,它负责输出如何“赢下整场比赛”的战略布局。 </p> <p> 下层“行动专员”(Operator)——负责“快反应”的执行中枢 </p> <p> 这是一个经过极致蒸馏、专注指令理解的非思考VLA模型。它接收指挥官的战略指令,结合当前自身角色收到的游戏信息(个人及团队视野),通过语义理解瞬间拆解为移动、瞄准、射击等具体的微操动作,它负责具体场景下每个角色的战术执行。 </p> <p> 在COTA的训练当中,我们构建了一套更适合游戏场景的高效管线。我们首先利用高质量的游戏CoT数据集进行SFT(监督微调),完成冷启动;随后引入GRPO(群相对策略优化)让AI进行大规模自我博弈,强化模型在复杂局势下的决策鲁棒性;最后通过DPO(直接偏好优化)与人类高端玩家的数据对齐,提升思维链的可读性与操作的拟人度。这一系列系统性优化,最终实现了COTA在极低时延下的高性能表现。 </p> <p> <strong>全新范式 拓宽Game AI能力边界</strong> </p> <p> COTA的发布,是超参数科技对“AI+游戏”价值边界的一次拓展。COTA的独特性在于,它啃下了游戏智能体“强对抗、高实时、高精度”要求的硬骨头,验证了“大模型为核心驱动”技术路线的可行性。 </p> <p> 这为游戏行业带来了广阔的想象空间: </p> <p> 开发侧:“白盒化”的AI思维链让策划与开发者可以直观地复盘AI的决策逻辑,极大地降低了高拟真NPC的调试与开发门槛。 </p> <p> 体验侧:未来的游戏Bot将不再是冷冰冰的陪练。基于COTA架构,“行动专员”(Operator)可以听懂玩家的自然语言指令,“指挥官”(Commander)可以作为场外教练提供战术指导,AI将成为玩家真正的“高智商队友”,优化游戏体验。 </p> <p> 从更长远的维度看,游戏是通往AGI的最佳训练场。 COTA在虚拟世界中展现出的环境感知、逻辑推理与任务执行能力,其底层技术范式具有极强的迁移性,除了可以反哺游戏NPC、Bot的开发,甚至还可延伸至现实场景中,解决各类真实世界难题,发挥技术价值。 </p>

编辑:戴玉双