震惊世界的中国“AI财神爷”
作者: aeks | 发布时间: 2025-12-14 11:11 | 更新时间: 2025-12-14 11:11
学科分类: 人工智能 信息与通信工程 计算机科学与技术 软件工程
今年1月,中国一则消息震惊人工智能界。深度求索(DeepSeek)公司突然发布了功能强大却成本低廉的R1模型,这立刻表明美国在人工智能领域的领先优势并不像许多专家此前认为的那样显著。
这一重磅消息的背后是40岁的梁文峰。他曾是金融分析师,据称通过将人工智能算法应用于股市赚得数百万美元,随后于2023年在杭州创立了深度求索。梁文峰行事低调,仅接受过少数中国媒体采访(他拒绝了《自然》杂志的采访请求)。
梁文峰本人行事隐秘,但其模型却十分开放。R1是一款“推理型”大语言模型(LLM),擅长通过分步拆解来解决数学、编程等复杂任务。它是同类模型中首个以开源权重形式发布的,即模型可免费下载并在此基础上开发,这对希望将算法应用于自身领域的研究人员来说是一大福音。深度求索的成功似乎已促使中美其他公司纷纷效仿,发布各自的开源模型。
人工智能专家表示,尽管R1在诸多能力上与美国最顶尖的模型(包括支撑ChatGPT的模型)不相上下,但其训练成本远低于竞争对手。例如,Meta的Llama 3 405B模型训练成本是其十倍以上。深度求索追求透明度,今年9月,R1成为首个接受同行评审的主流大语言模型(D. Guo等人,《自然》,645卷,633-638页,2025年),并公开了其构建和训练的细节。通过分享“配方”,深度求索向其他AI研究人员展示了如何训练推理模型。
纽约社区人工智能平台Hugging Face的研究员阿迪娜·亚克福(Adina Yakefu)表示:“在很多方面,深度求索的影响力都非常大。”
梁文峰成长于广东省的一个村庄,父母都是小学教师,如今人工智能领域的巅峰与他的成长环境相去甚远。高等教育将他送入杭州著名的浙江大学,2010年他获得工程硕士学位,毕业论文涉及视频目标跟踪算法的设计。此后,他迅速将对人工智能的热爱应用于金融市场,2015年与人共同创立对冲基金“高盈”(High-Flyer),并于2023年分拆出深度求索。
当时,中国在大语言模型研发方面面临障碍:美国出口管制限制中国企业购买美国芯片制造商英伟达(NVIDIA)生产的特定高性能图形处理器(GPU),而这类芯片适用于训练大语言模型。但梁文峰早已做好准备。过去十年间,出于对这些芯片科研潜力的好奇,他已购置了1万台英伟达GPU。在2023年接受中国媒体36氪采访时,他将购买GPU比作“给家里买钢琴:买得起,而且有一群人渴望用它演奏音乐”。
深度求索前研究员本杰明·刘(Benjamin Liu)表示,与许多西方人工智能企业家一样,梁文峰的目标是实现通用人工智能——即在认知任务上与人类一样熟练的AI系统,并围绕这一目标打造公司。公司招聘时更看重人的潜力而非经验水平(深度求索R1论文的一位作者仍在读中学),且层级极少,研究人员可自主决定研究方向。据称,梁文峰深度参与研究工作,“就连我这样的实习生也被当作全职员工对待,承担重要职责”,刘补充道。