Advertisement

【i SEE梦想家】什么是DeepSeek AI？

发布： 31 Mar 2025 11:00

更新: 31 Mar 2025 11:00

DeepSeek是一家中国大陆的新创公司，过去这一两个月它在新闻上爆红的原因是，它在有限的资源之下，推出自己训练、专属的语言模型DeepSeek V，并基于这个模型，建立推理模型DeepSeek R，且在各项大模型指标上超越了OpenAI花费非常多资源和金钱的GPT-4o以及OpenAI的o1模型，让大家感觉非常惊艳。

如何在低资源、中国晶片被封锁的情况之下，仍然做出这样子的成果？如果仔细去看DeepSeek的技术报告跟论文就可以知道，他们独特的地方在于，训练模型的时候，使用了Multi-head Latent Attention，或者是Multi-Token Prediction，还有在做推理模型的时候，使用了GRPO的算法。平心而论，这些算法，有些是学术顶会、其他公司所发表的创新方法，有些是他们自己想出来的方法，但是跟现有的方法差距并不大。

看到这样子的成果，给我们的启发就是，第一、AI领域现在的科技进展非常快速，要发展好AI技术，一定要扎稳基础科研的实力，要持续关注AI的顶级会议以及学术社群，做紧密的连接，持续地学习最好的AI技术。第二、从DeepSeek的公开专访可以知道，他们用很高的薪水，去聘请北大或者浙大这些年轻的人才，所以如果要做好AI，一定要重视人才。第三、大模型时代，算力的储备是基本要件。还想知道什么科普内容，欢迎下方留言给我们。

来宾: 鸿海研究院人工智慧研究所栗永徽所长
※ 本视频经i SEE梦想家提供授权本网站刊登，未经授权许可请勿转载。※

相关标签

i SEE 梦想家

deepseek

artifical intelligence

Advertisement

Advertisement