伦理学家和AI“暧昧”:让大模型来审人体试验?
作者: aeks | 发布时间: 2025-10-04 22:32 | 更新时间: 2025-10-04 22:32
Philip Nickel 还记得自己在学术伦理审查委员会(IRB)的日子:重要,却折磨。IRB 负责把关所有涉及人体的研究,防止志愿者被坑。可一份申请动辄几百页,格式乱、漏洞多,志愿者评审看到重复错误直接原地爆炸。Nickel 吐槽:“天天撞同款坑,谁不想找个外挂?”
于是,有人把目光投向 AI。ChatGPT、Claude 这类大语言模型(LLM)可以当“预审小助理”:自动标出缺材料、错数据、潜在伦理雷区,让真人专家把时间花在刀刃上。
反对声音也很响:人类会不会过度依赖 AI?模型自带的偏见会不会被放大?哥本哈根大学生物伦理学家 Sebastian Porsdam Mann 却放话:申请案积压成这样,“伦理上必须”试试 AI。新加坡国立大学的 Brian Earp 补刀:“短期内不用 AI,反而说不过去。”
目前还没哪家 IRB 正式把 LLM 写进流程,但实验室里的战绩挺香——去年一篇论文里,Bard、GPT-3.5、GPT-4、Claude-Instant-100k 把 7 份健康研究设计里的风险收益、受试者保护等问题抓得明明白白;上个月又有预印本说,GPT-4o 和 Gemini 1.5 Pro 在 50 份动物伦理案里,把人类专家挑出的 100% 毛病都逮住了。
下一步,研究者想给 LLM 喂“专属 IRB 套餐”:用历年案例、法律条文、机构规章、甚至本地文化继续微调,让模型学会“读心术”——直接复刻某家 IRB 的集体脑回路。Porsdam Mann 上个月在《医学伦理杂志》发文,提议用 o-series、Sonnet、DeepSeek-R1 这类“会一步步讲逻辑”的推理模型,再把答案锚定到机构手册、FAQ、政策原文,减少幻觉,提升透明度。
目标不是抢饭碗,而是把杂活外包。共同作者 Seah Jiehao Joel 说:“AI 打杂,人类打高端局。”
可有人担心:一旦尝到提速省钱的甜头,商业 IRB 会不会直接让 AI 顶班?宾大医学伦理学家 Holly Fernandez Lynch 警告:某些商业 IRB 2021 年审了近一半新药研究,缺监管、追利润,AI 可能成“加速键”。不过,盈利机构 WCG IRB 的执行医师 Donna Snyder 表示:AI 只是帮内部专家快速找先例,不会偷工减料。
对资源匮乏的 IRB,AI 可能是救命稻草。南非斯泰伦博斯大学的 Keymanthri Moodley 回忆:“人手不够,申请洪水滔天。”但她提醒:训练数据若只来自欧美,直接搬到非洲就是灾难。
人类学家 Steph Grohmann 觉得,变革可能已悄悄发生:“我猜现在就有委员用 AI 帮忙审稿。”7 月预印本里,她发布原型工具 EthicAlly(基于 Claude Sonnet 4),专门帮社科人文学者提前扫雷。25 份虚拟申请里,24 份被它精准揪出伦理漏洞——从缺受试者信息到科学种族主义,无一漏网。
Grohmann 和 Seah 下一步要比拼各家商业 LLM 的 IRB 任务表现,终极目标:开源、可本地部署、机构专属,数据留在自家服务器,透明到发光。Grohmann 说:“只有社区拥有、公开透明的模型,才能说服最顽固的科学家。”
不过 Fernandez Lynch 还是提醒:“IRB 的精髓不是算法,而是一群真人围坐,认真讨论志愿者是否被好好保护。”