该标签下共有 22 篇文章
作者: aeks | 发布时间: 2026-04-16 06:05
学科: 智能科学与技术 网络空间安全 计算机科学与技术
大型语言模型(如ChatGPT)正越来越多地被用于真实世界任务,但研究发现:若用AI自动生成的数据反复训练新模型,可能将错误行为‘悄悄’传给下一代AI——即使严格过滤有害内容也难以避免。
标签: 人工智能伦理 大型语言模型 数据污染 训练数据偏见
作者: aeks | 发布时间: 2026-04-02 18:02
学科: 图书馆、情报与档案管理 新闻传播学 计算机科学与技术
人工智能在学术写作中被广泛使用,但常凭空编造虚假参考文献(即‘幻觉引用’),导致论文可信度下降。本文揭示这一新兴问题的严重性、成因及应对措施,提醒科研人员和出版方提高警惕。
标签: 参考文献造假 大型语言模型 学术诚信 幻觉引用 科研可重复性
作者: aeks | 发布时间: 2026-02-19 06:04
学科: 临床医学 基础医学 生物医学工程 计算机科学与技术
全球超3亿人受罕见病影响,但及时准确诊断仍是难题,患者常经历超5年的“诊断之旅”。DeepRare是基于大型语言模型的多智能体系统,整合40多种专业工具和最新知识,处理文本描述、标准化表型术语及基因检测结果,生成带透明推理的诊断假设。在9个数据集2919种疾病测试中表现优异,HPO任务Top-1召回率57.18%(领先23.79%),多模态测试达69.1%,专家对推理链认可度95.4%。
标签: DeepRare 多智能体系统 大型语言模型 罕见病 诊断系统
作者: aeks | 发布时间: 2026-02-19 04:04
随着大型语言模型(LLMs)在陪伴、医疗咨询等敏感领域应用增多,评估其道德能力愈发重要。本文指出需从评估道德表现转向道德能力(基于道德考量产出恰当结果),并识别三大挑战:模仿问题(模型可能仅模仿推理而无真理解)、道德多维性(决策受多种情境因素影响)、道德多元性(全球部署AI需新标准),同时提出应对路线图。
标签: 大型语言模型 模仿问题 道德多元性 道德能力 道德评估
作者: aeks | 发布时间: 2026-02-19 00:04
学科: 人工智能 生物医学工程 计算机科学与技术
聊天机器人驱动的实验室机器人正在实现蛋白质合成等方法的自动化。OpenAI和Ginkgo Bioworks研发的自主实验室系统通过测试大量实验条件,成本降低幅度超过人类实验,引发替代讨论,但技术尚存局限,人类专业知识仍不可或缺。
标签: 大型语言模型 实验室机器人 无细胞蛋白质合成 自主实验室 蛋白质合成
作者: aeks | 发布时间: 2026-02-11 14:02
学科: 人工智能 图书馆情报与档案管理 科学技术史 计算机科学与技术
由学术界开发的开源AI程序OpenScholar,能比人类专家和部分通用聊天机器人更准确回答科学问题,助力科学家应对爆炸式增长的科研文献,其代码和数据开放可复现。
标签: OpenScholar 大型语言模型 科学文献分析 科研论文检索
作者: aeks | 发布时间: 2026-02-07 03:02
学科: 临床医学 公共卫生与预防医学 生物医学工程 计算机科学与技术
两项发表于《自然-健康》的研究显示,大型语言模型(LLMs)在卢旺达和巴基斯坦的医疗场景中能提升诊断成功率,甚至优于训练有素的临床医生,有助于支持中低收入国家的医疗服务。
标签: 中低收入国家 大型语言模型 诊断准确性
作者: aeks | 发布时间: 2026-02-02 22:02
学科: 哲学 心理学 智能科学与技术 计算机科学与技术
1950年图灵提出“模仿游戏”(图灵测试),探讨机器能否展现类人认知能力。如今大型语言模型(如GPT-4.5)在图灵测试中被误认为人类的概率达73%,并在数学竞赛、定理证明等多任务中表现出色。尽管专家对通用人工智能(AGI)存在争议,但作者认为,依据合理标准(包括图灵标准),当前AI已具备通用智能。
标签: 图灵测试 大型语言模型 认知能力 通用人工智能 通用智能
作者: aeks | 发布时间: 2026-01-29 08:01
学科: 交叉学科 数学 系统科学 计算机科学与技术
大型语言模型能力快速提升,现有测试基准难度不足(如MMLU准确率超90%)。为此,研究人员推出“人类终极测试”(HLE),含2500道多学科专家级题目,覆盖数学、人文等,现有模型表现差,凸显能力差距,已公开供研究。
标签: 专家级评估 人类终极测试 多模态问题 大型语言模型 能力基准
作者: aeks | 发布时间: 2026-01-26 02:02
学科: 心理学 新闻传播学 计算机科学与技术
一项研究显示,生成式AI在某些创造力任务上已达人类平均水平,但最具创造力的人类仍具明显优势。AI并非取代创作者,而是成为辅助人类创造力的强大工具。
标签: 人类与AI比较 创造力 发散联想任务 大型语言模型 生成式AI