公平且以人为中心的图像数据集,用于衡量AI是否合乎伦理

作者: aeks | 发布时间: 2025-11-07 06:45 | 更新时间: 2025-11-07 06:45

学科分类: 人工智能 网络空间安全 计算机科学与技术 软件工程

公平且以人为中心的图像数据集,用于衡量AI是否合乎伦理
公平且以人为中心的图像数据集,用于衡量AI是否合乎伦理

图像数据集在AI发展中至关重要,如ImageNet推动了2010年代深度学习的兴起。但当前AI技术虽能力提升,数据和模型中的偏见仍是顽疾:不充分的评估数据会导致公平性和鲁棒性问题,难以识别潜在危害(如延续种族、性别刻板印象,排斥特定人群)。

大多数现有数据集从互联网抓取或衍生而来,未经同意的大规模抓取不仅加剧数据偏见,还可能引发隐私、知识产权等法律问题,许多知名数据集已因伦理问题被修改或撤回。政府机构或第三方授权数据集也存在类似问题:缺乏知情同意和补偿。少数基于同意的公平数据集要么地域多样性不足(如无欧盟数据),要么缺乏像素级标注,适用任务有限。

为解决这些挑战,我们推出FHIBE(Fair Human-Centric Image Benchmark)——首个公开、经同意收集、全球多样化的公平评估数据集,适用于从人脸验证到视觉问答(VQA)等多种视觉任务。FHIBE含来自81个国家/地区的1,981名独特个体的10,318张图像,是首个包含欧盟地区经同意收集图像的以人为中心的计算机视觉数据集。

FHIBE具有全面标注:人口统计和身体属性、环境条件(16种场景、6种光照等)、相机设置(785种型号)及像素级标注(人脸/人体边界框、33个关键点、28个分割类别)。标注包括自我报告的姿势(16种身体姿势)、交互(47种,含14种人际交互)、外观特征(发型、肤色等)、人口统计信息(代词、年龄、祖先起源、Fitzpatrick肤色类型),定义了1,234个交叉群体。

其伦理设计核心包括:严格知情同意(符合GDPR,支持随时撤回,数据集可动态更新);隐私保护(去除非同意个体和个人信息,匿名化标注者ID);公平补偿(按当地最低工资支付参与者);安全性(人工和自动检查有害内容);多维度多样性(人口统计、外观、姿势、环境等)。

评估显示,FHIBE能识别多种偏见:窄模型(如人脸检测)在年轻、浅肤色、亚洲祖先群体表现更好,在年长、深肤色、非洲祖先群体表现较差;还发现新偏见,如人脸解析模型对老年人表现差,因灰白 facial hair。基础模型(如CLIP、BLIP-2)存在代词和祖先偏见,如CLIP更可能将“he/him/his”标记为中性,将非洲祖先与户外场景关联。

尽管FHIBE成本高(约30万美元收集图像,45万美元QA等)且有局限(视觉多样性较抓取数据集低,需防范欺诈提交),但它展示了实践伦理考量的可行性,为AI负责任数据建立新标准,推动可信AI发展。

DOI: 10.1038/s41586-025-09716-2

标签: FHIBE 伦理数据收集 公平评估数据集 计算机视觉