人工智能代理当自由职业者还差得远
作者: aeks | 发布时间: 2025-10-30 09:58 | 更新时间: 2025-10-30 09:58
学科分类: 人工智能 信息与通信工程 计算机科学与技术 软件工程
数据标注公司Scale AI与非营利组织“人工智能安全中心”(CAIS)联合研发了一项新基准——“远程劳动力指数”,用于衡量前沿AI模型自动化有经济价值工作的能力。研究人员让多款领先AI代理执行一系列模拟的自由职业工作任务,结果显示,即便是表现最佳的AI也仅能完成不到3%的工作,在总价值约14.4万美元的任务中仅能赚取1810美元。研究评估了多款工具后发现,能力最强的是中国同名初创公司开发的Manus,其次是xAI的Grok、Anthropic的Claude、OpenAI的ChatGPT以及谷歌的Gemini。
CAIS主任丹·亨德里克斯表示:“希望这能更准确地反映AI能力的实际情况。”他补充道,虽然部分AI代理在过去一年左右有显著进步,但这并不意味着会以同样速度持续提升。
此前,AI的惊人进展引发了关于AI很快将超越人类智能并取代大量工人的猜测。例如,今年3月,Anthropic首席执行官达里奥·阿莫迪曾称,90%的编码工作将在数月内实现自动化。然而,以往的AI浪潮也曾引发过类似的错位预测,比如AI算法即将取代放射科医生等。
该研究通过经验证的Upwork自由职业者生成了一系列任务,涵盖平面设计、视频编辑、游戏开发以及数据抓取等行政杂务。每项任务都配有工作描述、执行所需的文件目录以及人类完成的项目示例。
亨德里克斯指出,尽管近年来AI模型在编码、数学和逻辑推理方面有所进步,但在使用不同工具和执行多步骤复杂任务时仍存在困难。“它们没有长期记忆存储,无法从经验中持续学习,也不能像人类那样在工作中习得技能。”
该分析与OpenAI在9月推出的“GDPval”基准形成对比,后者声称可衡量有经济价值的工作。据GDPval显示,GPT-5等前沿AI模型在各类办公室工作的220项任务上已接近人类能力。OpenAI对此未予置评。
Scale AI研究主任刘冰补充道:“多年来我们一直在讨论AI与就业的关系,但大多停留在假设或理论层面。”
刘冰和亨德里克斯承认,这项新基准并非衡量AI经济影响的完美标准。许多职业包含该指标未涵盖的任务,且现实中许多自由职业者可能会将AI作为工具来提高生产力。
不过,“AI已开始取代工作”的观点正逐渐升温。本周,亚马逊宣布将裁员1.4万人,部分原因归咎于生成式人工智能的快速崛起。亚马逊负责人员体验与技术的高级副总裁贝丝·加莱蒂在公开备忘录中写道:“这一代AI是自互联网以来最具变革性的技术,它使企业能比以往更快地创新(无论是在现有市场领域还是全新领域)。”
然而,若以远程劳动力指数为参考,AI不太可能接手这些被裁岗位。