-
DeepSeek又有重大突破?一款未公开大模型展现惊人能力
-
连政guanchazhewanxgun
DeepSeek再一次发布了强大的开源大模型。
1月20日,国内大模型公司深度求索(DeepSeek)在其公众号公布了新一代开源大模型DeepSeek-R1,该模型号称在数学、代码、自然语言推理等任务上,性能比肩美国OpenAI公司最新的o1大模型正式版。
根据数据,DeepSeek-R1在算法类代码场景(Codeforces)和知识类测试(GPQA、MMLU)中的得分略低于OpenAI o1,但在工程类代码场景(SWE-Bench Verified)、美国数学竞赛(AIME 2024, MATH)项目上,均超过了OpenAI o1 。
其中,与深度求索上月发布的大模型DeepSeek-V3相比,DeepSeek-R1在AIME 2024和Codeforces中的得分提升了近一倍,而其余项均有不同程度的提升。
深度求索还更新了用户协议,明确模型开源License将统一使用标准的MIT许可,同时还允许用户利用模型输出、通过模型蒸馏等方式训练其他模型。按照深度求索数据显示,在以DeepSeek-R1基础上进行“蒸馏”的6个小模型中,32B和70B模型在多项能力上都实现了对标OpenAI的o1-mini 的效果。
面对这个令人瞩目的成绩,深度求索则解释称,DeepSeek-R1 后训练阶段中大规模使用了强化学习(RL)技术,在仅有极少人工标注数据的情况下,极大提升了模型推理能力。这意味着该模型几乎跳过了监督微调(SFT)步骤,就实现了推理能力自我提升。
DeepSeek-R1-Zero自然而然地学会用更多的思考时间来解决推理任务。深度求索
通常情况下,强化学习的好处是可以通过与外界评价反馈,不断让模型自我优化,生成更符合人类偏好的内容。而监督微调则是指在预训练使用人工标注的数据进行干预,可以让生成的内容更准确且符合预期,这也是当年ChatGPT成功的关键。但从成本上来说,强化学习虽然需要大量人类反馈,且训练复杂计算成本高,但监督微调则非常依赖高质量的人工标注数据。
值得注意的是,目前深度求索向用户提供的仅有DeepSeek-R1版本,而在其公开测试结果中却透露了另一个大模型 —— DeepSeek-R1-Zero。该模型完全通过大规模使用强化学习替代了监督微调,但也导致了一些问题,因此未对外公开。
更重要的是,工作人员发现,在DeepSeek-R1-Zero自我学习的过程,随着时间的增加,该模型“涌现”出了复杂的行为,如自我反思、评估先前步骤、自发寻找替代方案的情况,还包括一次“尤里卡时刻”(“aha moment)。
“尤里卡时刻”指人类突然理解一个以前无法理解的问题或概念的某个时刻。
深度求索透露,这次“尤里卡”发生在DeepSeek-R1-Zero的的中间版本期间。当时工作人员惊奇地发现,在一道数学题中,该模型学会了使用拟人化的语气进行自我反思,并主动为问题分配了更多地时间进行重新思考。
深度求索称,工作人员并没有教DeepSeek-R1-Zero如何解决问题,只是提供了正确的激励,它就能自主发展出先进的问题解决策略。“这次尤里卡也提醒我们,强化学习有可能为人工智能解锁新的智能水平,为以后发展出更自主和适应性的模型铺平道路。”
不过,虽然DeepSeek-R1-Zero展示出了强大的推理能力,但自身也出现了一些语言混乱及可读性的问题,因此深度求索通过引入数千条高质量的冷启动数据和多段强化学习来解决这些问题,并获得了上文中对外正式公布的DeepSeek-R1大模型。
目前,DeepSeek-R1 API 服务定价为每百万输入 tokens 1 元(缓存命中)/ 4 元(缓存未命中),每百万输出 tokens 16 元。
本文系观察者网独家稿件,未经授权,不得转载。
- 责任编辑: 连政 
-
饿了么推出九项举措:让“算法”成为骑手的“办法”
2025-01-21 18:04 大公司 -
京东方扣非净利3年来首度预盈,供货华为三折叠
2025-01-21 18:01 观网财经-科创 -
印度手机单季出货:三星暴跌29%掉至第三,苹果首进前五
2025-01-21 17:12 观网财经-科创 -
工信部:2025年试点部署万兆光网
2025-01-21 16:37 -
台南市6.2级地震:台积电称各厂区营运正常
2025-01-21 16:36 今日财经 -
运-5再魔改!国产大型无人机鸿雁 HY100 量产交付
2025-01-21 16:34 观网财经-科创 -
中国5G基站达425万个,每月户均移动流量达19个GB
2025-01-21 16:27 观网财经-科创 -
湖北省委书记王忠林与雷军等企业家座谈
2025-01-21 14:08 观网财经-科创 -
罗晓任中国商飞党委副书记、董事
2025-01-20 21:01 大公司 -
黄仁勋现身北京,称华为三折叠“难以置信”
2025-01-20 18:15 观网财经-科创 -
荣耀中国区CMO将离职
2025-01-20 16:32 观网财经-科创 -
前华为悍将挂帅,荣耀剑指高端化和全球化
2025-01-20 15:15 观网财经-科创 -
中国折叠屏市场罕见下滑,华为荣耀vivo位列去年前三
2025-01-20 14:10 观网财经-科创 -
华为2024年分红方案公布,收益率18%
2025-01-20 10:11 观网财经-科创 -
事关国补!苹果华为等多款手机降价至6000元以下
2025-01-20 09:43 观网财经-科创 -
TikTok向美国用户推送暂停服务通知
2025-01-19 10:57 观网财经-互联网 -
马斯克要收购英特尔?
2025-01-18 14:48 观网财经-科创 -
荷兰决定“隐藏”光刻机巨头对华销售情况
2025-01-18 13:24 观网财经-科创 -
龙芯中科去年净利大跌88%,预亏超6亿
2025-01-18 09:57 观网财经-科创 -
日本压上国运的氢能源,出路只能在中国?
2025-01-17 18:48 观察者头条
相关推荐 -
-
美国人疯狂囤货,“中国电视被买空” 评论 434月10日起,对原产美国的所有进口商品加征34%关税 评论 816“特朗普白给,中国要赢得全世界了” 评论 156尹锡悦被罢免 评论 346马克龙:别天真了!欧盟要暂停对美投资 评论 93最新闻 Hot
-
美国人疯狂囤货,“中国电视被买空”
-
美股开盘重挫,特朗普:我的政策永不改变
-
90亿美元还想不想要?哈佛被下“整改通牒”
-
“2300美元一台?特朗普要亲手毁掉‘美国象征’?”
-
4月10日起,对原产美国的所有进口商品加征34%关税
-
石破茂:这是一场“国家危机”
-
“特朗普白给,中国要赢得全世界了”
-
《经济学人》绷不住了…
-
“和她见了一面后,特朗普炒了近10名国安官员”
-
尹锡悦被罢免
-
尹锡悦发声
-
道指狂泄近1700点,美股创5年最大单日跌幅
-
巴西宣布采购2艘英国二手船坞登陆舰
-
王勋、宋思玉,抢救无效壮烈牺牲
-
美太空军鼓吹“太空军事化”,又拿中国做文章
-
“入境美国时要慎之又慎,那里已面目全非,充满敌意”
-