如何负责任地为人工智能提供图片
作者: aeks | 发布时间: 2025-11-09 07:44 | 更新时间: 2025-11-09 07:44
学科分类: 信息与通信工程 控制科学与工程 计算机科学与技术 软件工程
众所周知,广泛使用的生成式人工智能应用大多是利用从互联网收集的数据构建的,而这些数据的收集在很大程度上未获得人们的知情同意,也未对被“抓取”数据的个人进行补偿。
但如今一项研究表明,在图像数据方面,另一种可行方式出现了。全球科技娱乐巨头索尼的研究人员描述了一个负责任采集的图像数据集,可用于基准测试生成式AI的准确性(A. Xiang等人,《自然》,https://doi.org/10.1038/s41586-025-09716-2;2025)。这项工作虽复杂,但成本并非高不可攀——数据收集成本不到100万美元,对许多科技公司而言只是九牛一毛。
监管机构和资助者需要注意这一点。所有涉及以任何形式抓取个人数据来训练和测试生成式AI模型是否合法的诉讼相关人员也应予以关注。当明确解决了知情同意和准确性问题时,创建负责任采集且具有代表性的数据是可能的。
这对企业也有重要启示:这是企业为了所有人的利益而合作的机会。企业有时需要竞争,有时则必须合作。在这些版面中,我们经常倡导加强合作。如果说有哪个例子能说明为什么需要这样的合作,那就是这个了。
毫无疑问,个人的、有时可识别的数字信息已被用于构建生成式AI应用。这些数据包括博客内容、社交媒体平台上的信息、经常包含人物的图像和视频,以及受版权保护的作品,如绘画、雕塑、书籍、音乐和电影等。
大多数国家都有管理数据收集的法律(T. Kuru,《国际数据隐私法》,第14卷,326-351页;2024)。这些法律包括获取许可以保护人们的隐私和知识产权的要求。这些许可通常要求数据收集者解释数据的用途、提供选择退出的权利,并在适当情况下补偿提供数据的个人。尽管如此,开发一些最大型公开可用大型语言模型的公司并未常规遵循这一做法。在某些情况下,企业辩称,如果某人已将其材料发布在互联网上,则无需获得同意,他们所做的是对公开数据的“合理使用”。这一说法存在争议,正受到监管机构和代表版权持有人(如作家和艺术家)的组织的质疑。
而这个名为“公平以人为中心的图像基准”(FHIBE,又称“Feebee”)的新数据集则有所不同。索尼人工智能治理全球负责人爱丽丝·向(Alice Xiang)及其同事为该数据集的10,318张图像(来自81个国家的1,981名个体)获得了知情同意。研究人员用通俗易懂的语言告知每位参与者所需数据及其用途——使用条款明确禁止将其用于执法、军事、武器和监控相关应用。参与者会因提供材料而获得报酬,并且可以随时选择退出。
FHIBE与现有图像数据集在另一个重要方面也有所不同:它包含了更大比例来自非洲、亚洲和大洋洲国家的人和照片。此外,在FHIBE数据集中,参与者提供了自己的年龄、 ancestry(血统)、地理位置和代词,无需算法从姓名或外貌猜测这些特征。这很重要,因为这意味着FHIBE数据集比许多由网络抓取数据组装的失衡数据集更能准确反映现实世界。
除了作为重要的概念验证外,这项研究还为企业提供了基准测试现有AI图像应用准确性的方法。研究人员也应借此机会研究一些尚未解答的重大问题。例如,能否为基准测试基于文本的AI工具的准确性创建类似的数据集?如何以负责任的方式采集足以训练(而不仅仅是基准测试)大型语言模型的数据,以及所需的规模应该是多少?
向及其研究团队展示了如何开发和测试负责任的AI系统。他们选择了一个棘手的问题,但这不应该只是他们独自的战斗。其他人必须加入这一努力,这样我们才能按照最高的准确性和伦理标准构建AI应用。