登录
首页 > 新能源汽车 > 谁是最强“打工AI”?OpenAI亲自测试,结果第一不是自己

谁是最强“打工AI”?OpenAI亲自测试,结果第一不是自己

发布时间:2025-09-26 16:18:37
OpenAI发布最新研究,却在里面夸了一波Claude。
 
他们提出名为GDPval的新基准,用来衡量AI模型在真实世界具有经济价值的任务上的表现。
 
具体来说,GDPval覆盖了对美国GDP贡献最大的9个行业中的44种职业,这些职业年均创收合计达3万亿美元。任务基于平均拥有14年经验的行业专家的代表性工作设计而成。
 
专业评分人员将主流模型的输出结果与人类专家的成果进行了对比。
 
最终测试下来,Claude Opus 4.1成为表现最佳的模型,47.6%的产出被评定媲美人类专家成果
 
 
 
 
GPT-5 38.8%的成绩和Claude还是有些差距,位居第二;GPT-4o与人类相比只有12.4%获胜或平局。
 
没能成为最优,OpenAI也给自己找补了:不同模型各有优势,Claude Opus 4.1主要是在美学方面突出,而GPT-5在准确性上更优
 
OpenAI还表示,同样值得注意的是模型的进步速度,其前沿模型在短短一年内,胜率几乎实现了翻倍。
 
 
 
 
最后OpenAI还开源了包含220项任务的优质子集,并提供公开的自动评分服务。
 
 
 
 
网友看后纷纷表示,非常因吹斯汀的研究:
 
OpenAI各代模型的性能呈线性增长,以及感谢对竞争对手的认可。
 
 
 
还有网友认为,这也可能是奥特曼精心设计的宣传手段,通过吹嘘AI能为GDP带来增长而筹集资金。
 
 
 
 
 
 
 
下面具体来看一下这项测试。
 
测试AI的“挣钱”能力
OpenAI指出,GDPval相比现有的AI评估,好就好在:
 
任务基于真实工作成果且关联完成时间与成本,具备现实性;
涵盖O*NET(美国职业信息网络)追踪的大部分职业工作活动,具有代表性广度
任务要求处理多种格式文件并解析多个参考文件,涉及计算机使用与多模态;
除了正确性还需考虑结构、风格等主观因素,数据集也可作为评估自动评分系统性能的测试平台;
胜率为主要指标无上限,支持持续评估;
任务难度高,行业专业人士平均需7小时完成,复杂任务甚至耗时数周。
其任务构建流程,首先从确定核心行业与职业入手。
 
OpenAI先是筛选出了对美国GDP贡献超5%的9个行业(依据2024年第二季度各行业增加值占美国国内生产总值百分比数据),再在每个行业内挑选5个贡献工资总额最多且以数字任务为主的职业。
 
判断职业是否“以数字任务为主”时,参考ONET中该职业的所有任务,借助GPT-4o对任务按“数字/非数字”分类,结合ONET中任务的相关性、重要性和频率得分加权计算,若60%以上任务为数字任务,则将该职业纳入。
 
最终OpenAI筛选出了44个职业,这些职业合计年创收3万亿美元
 
Copyright 2017-2025 北方报 版权所有  京ICP备16071829-1号