OpenAI宣布推出AI Agent评测基准PaperBench 亦晗 • 科技达人 • 2025年4月4日 上午1:44 当地时间4月2日,美国开放人工智能研究中心(OpenAI)宣布推出PaperBench——一个评估AI智能体复现前沿AI研究能力的基准。智能体需从零开始复现20篇ICML 2024 Spotlight和Oral论文,包括理解论文贡献、开发代码库并成功执行实验。据介绍,在PaperBench上测试多个前沿模型后发现,表现最佳的智能体Claude 3.5 Sonnet(新版)结合开源框架,平均复现得分为21.0%。最终其招募顶尖机器学习博士尝试部分测试集,发现上述模型表现尚未超越人类基线。 赞 (0) 分享到: 生成海报 0 猜你喜欢 科技达人 AMD Zen3线程撕裂者正式开卖:64核心一套要15万元! 2022年7月8日 0 科技达人 AI向人脑「黄金标准」又近一步,谷歌发布嵌套学习,赋予大模型持续学习的能力 2025年11月10日 0 科技达人 科学家首次在人类血液中发现微塑料 2022年3月26日 0 科技达人 贾跃亭已经烧了200亿元!FF官宣新车交付加速:每周2辆 2023年10月31日 0 科技达人 涨价挡不住买买买,美国车主提特斯拉Model Y最少要等半年 2022年3月27日 0 科技达人 曝世界首富贝索斯十分“嫉妒”马斯克:因SpaceX发展的太好了 2021年5月13日 0