【i SEE梦想家】什么是DeepSeek AI?

DeepSeek是一家中国大陆的新创公司,过去这一两个月它在新闻上爆红的原因是,它在有限的资源之下,推出自己训练、专属的语言模型DeepSeek V,并基于这个模型,建立推理模型DeepSeek R,且在各项大模型指标上超越了OpenAI花费非常多资源和金钱的GPT-4o以及OpenAI的o1模型,让大家感觉非常惊艳。

如何在低资源、中国晶片被封锁的情况之下,仍然做出这样子的成果?如果仔细去看DeepSeek的技术报告跟论文就可以知道,他们独特的地方在于,训练模型的时候,使用了Multi-head Latent Attention,或者是Multi-Token Prediction,还有在做推理模型的时候,使用了GRPO的算法。平心而论,这些算法,有些是学术顶会、其他公司所发表的创新方法,有些是他们自己想出来的方法,但是跟现有的方法差距并不大。

看到这样子的成果,给我们的启发就是,第一、AI领域现在的科技进展非常快速,要发展好AI技术,一定要扎稳基础科研的实力,要持续关注AI的顶级会议以及学术社群,做紧密的连接,持续地学习最好的AI技术。第二、从DeepSeek的公开专访可以知道,他们用很高的薪水,去聘请北大或者浙大这些年轻的人才,所以如果要做好AI,一定要重视人才。第三、大模型时代,算力的储备是基本要件。还想知道什么科普内容,欢迎下方留言给我们。

来宾: 鸿海研究院人工智慧研究所 栗永徽所长
※ 本视频经i SEE梦想家提供授权本网站刊登,未经授权许可请勿转载。※

相关标签
  • i SEE 梦想家
  • deepseek
  • artifical intelligence
  • Advertisement

    Advertisement