AI和云技术社区
AI创业云伙伴
AI和云服务聚合平台
首页
AI和云技术社区

Collinear AI发布YC-Bench基准测试报告

来源: | 作者:元知 | 发布时间 :2026-04-07 | 20 次浏览: | 🔊 点击朗读正文 ❚❚ | 分享到:
有Claude、ChatGPT、Gemini(Nano Banana)、千问、豆包(Seedance)、Kimi、GLM、MiniMax等国内外大模型API调用,以及阿里云、华为云优惠需求的同学,欢迎添加微信:gezicloud

Collinear AI研究团队发布YC-Bench——首个带有模拟时钟的开源长时序Agent评测基准,通过高拟真度模拟创业环境,测试12个主流AI模型(含闭源和开源)的长期经营能力:给模型20万美元起始资金、一支小团队和任务市场,让其扮演CEO,在一年内完成管理员工、挑选项目合同、应对客户、维持现金流等经营动作,实现利润最大化。

此次测试设置三层核心挑战:基于不完整信息做不确定性规划、从延迟反馈中学习调整、应对早期决策失误的累积放大风险,同时加入难缠客户、上涨人力成本等对抗性压力。每个模型进行三轮独立测试,仅允许通过Scratchpad(草稿本)实现跨回合记忆,模型以“LLM+工具+决策框架”的Agent循环模式运作,而非单纯回答问题。

测试结果显示,12个模型中仅Claude Opus 4.6、GLM-5、GPT-5.4三个模型能持续跑赢起始资金,其余9个要么破产要么勉强持平。其中GLM-5以极低成本接近Claude Opus的表现,成为“性价比杀手”。

针对模型表现差异,研究总结出三个关键结论:

  1. 顶级模型间差距远超预期,且API成本与结果不呈正相关。同样完成一年模拟,Claude Opus 4.6耗时70分钟、产生16.7M token,GPT-5.4 Nano仅耗时3分钟、产生2.0M token,差异源于Scratchpad写入量、每轮命令数、模型本身推理速度及API网络延迟叠加。

  2. Scratchpad使用方式是“生死线”。持续规律用其做规划和反思的模型,表现远优于“走一步看一步”的模型。如旗舰款Gemini 3.1pro三次测试破产两次,而其轻量版Gemini 3 Flash全部存活;GPT-5.4靠高频率Scratchpad使用和高任务检查率维持稳定盈利。

  3. 47%的破产始于对抗性客户,AI在识别客户恶意意图、核实背景上存在明显短板。此外,部分前沿模型存在过度并行化问题,如Claude Sonnet 4.6平均同时承接7.2个任务,导致资源分散、任务推进不足。

测试还明确,YC-Bench聚焦的是“一个人+AI工具”能否成为公司核心能力,其结果指向AI时代“一人公司”的核心要求:创业者需具备判断能力,在AI的能力盲区——如风险识别、决策判断等环节——主动补位。


Claude、ChatGPT、Gemini(Nano Banana)、千问、豆包(Seedance)、Kimi、GLM、MiniMax等国内外大模型API调用,以及阿里云、华为云优惠需求的同学,欢迎添加微信:gezicloud


社区交流欢迎关注:


微信公众号:AI创业云伙伴


知乎:AI创业云伙伴