Collinear AI研究团队发布YC-Bench——首个带有模拟时钟的开源长时序Agent评测基准,通过高拟真度模拟创业环境,测试12个主流AI模型(含闭源和开源)的长期经营能力:给模型20万美元起始资金、一支小团队和任务市场,让其扮演CEO,在一年内完成管理员工、挑选项目合同、应对客户、维持现金流等经营动作,实现利润最大化。
此次测试设置三层核心挑战:基于不完整信息做不确定性规划、从延迟反馈中学习调整、应对早期决策失误的累积放大风险,同时加入难缠客户、上涨人力成本等对抗性压力。每个模型进行三轮独立测试,仅允许通过Scratchpad(草稿本)实现跨回合记忆,模型以“LLM+工具+决策框架”的Agent循环模式运作,而非单纯回答问题。
测试结果显示,12个模型中仅Claude Opus 4.6、GLM-5、GPT-5.4三个模型能持续跑赢起始资金,其余9个要么破产要么勉强持平。其中GLM-5以极低成本接近Claude Opus的表现,成为“性价比杀手”。
测试还明确,YC-Bench聚焦的是“一个人+AI工具”能否成为公司核心能力,其结果指向AI时代“一人公司”的核心要求:创业者需具备判断能力,在AI的能力盲区——如风险识别、决策判断等环节——主动补位。
有Claude、ChatGPT、Gemini(Nano Banana)、千问、豆包(Seedance)、Kimi、GLM、MiniMax等国内外大模型API调用,以及阿里云、华为云优惠需求的同学,欢迎添加微信:gezicloud
社区交流欢迎关注:
微信公众号:AI创业云伙伴
知乎:AI创业云伙伴