OpenAI宣布推出AI Agent评测基准PaperBench

亦晗 • 科技达人 • 2025年4月4日上午1:44

当地时间4月2日，美国开放人工智能研究中心（OpenAI）宣布推出PaperBench——一个评估AI智能体复现前沿AI研究能力的基准。智能体需从零开始复现20篇ICML 2024 Spotlight和Oral论文，包括理解论文贡献、开发代码库并成功执行实验。据介绍，在PaperBench上测试多个前沿模型后发现，表现最佳的智能体Claude 3.5 Sonnet（新版）结合开源框架，平均复现得分为21.0%。最终其招募顶尖机器学习博士尝试部分测试集，发现上述模型表现尚未超越人类基线。

OpenAI宣布推出AI Agent评测基准PaperBench

猜你喜欢

苹果WWDC 2023日期曝光！iOS 17首秀来了：或不再支持iPhone X/8

阿里致信客户和公众：将降低平台经营门槛和成本

马斯克：锂电池就是新的石油

传负责iPhone制造的苹果高管将专注于开发MR设备

iPad 10比iPad Air便宜1200元：但有两大遗憾

美国新一代登月火箭再次发射时间或将推至10月中旬