DeepSeek火“崩”了,来自湛江的85后如何让世界“吃惊”?

当海外用户疯狂涌入小红书的时候,另一款来自中国的互联网应用如今在全球掀起了更大的波澜。中国AI初创公司深度求索(DeepSeek)同时冲上了中国和美国区AppStore免费榜第一,其网页版甚至出现了短时间的宕机:在1月26日,有消息称DeepSeek遭遇了一次短暂的服务中断。据DeepSeek官方回应,当天下午,该应用确实经历了一次局部性的服务波动,但幸运的是,问题在短时间内便得到了有效解决。此次服务中断的原因,DeepSeek方面推测可能是由于其最新模型发布后,吸引了大量用户的涌入,导致服务器在短时间内难以承受如此高的并发访问量。

如图

DeepSeek的火爆,起因是他们发布的一款名为DeepSeekV2的开源模型,提供了一种史无前例的性价比:推理成本被降到每百万token仅1块钱,约等于Llama370B的七分之一,GPT-4Turbo的七十分之一。这背后,是DeepSeek对模型架构进行了全方位创新。它提出的一种崭新的MLA(一种新的多头潜在注意力机制)架构,把显存占用降到了过去最常用的MHA架构的5%-13%,同时,它独创的DeepSeekMoESparse结构,也把计算量降到极致,所有这些最终促成了成本的下降。

如图

这样的“中国式创新”,带来的是AI大模型领域的一次颠覆:此前大模型领域的发展轨迹,大都是靠算力的堆砌而艰难向前的,一方面导致了行业的成本居高不下,另一方面也让英伟达等提供算力的企业赚的盆满钵满。

但是DeepSeek通过底层架构的方式,改变了发展的思路。

如果用通俗点的说法来讲,就是好比现在大家认为小龙虾是一道能够持续火爆的美食,五星级酒店大厨们通过昂贵的名牌炒锅和严选的食材,做出来的小龙虾味道极佳得到了大家的认可,但突然一家不知名的小菜馆用普通的十三香就炒出来同样甚至更好的味道,价格只要五星级酒店的几十分之一,而且这家小菜馆还把所有配料和方法都公开了......这下,卖锅的、卖配料和食材的,都慌了。而且这家小菜馆的出品,还得到了全世界的认可。

特斯拉的老板马斯克、Facebook老板扎克伯格、OpenAI前联合创始人卡帕西都在多个场合对DeepSeek的能力感到吃惊:没有想到居然能这么强,直接能和当前最强的ChatGPTo1不相上下。

当大模型被全球公认会带来“下一次工业革命”的时候,如何能够站在这次“革命”的桥头,则成为了全球各国的“军备竞赛”,但是当这场“军备竞赛”是完全依靠算力芯片这样的“军备”来取胜的时候,我们会发现并没有掌握核心“军备”的中国在起跑线上已经被“卡脖子”了。而DeepSeek的出现,则是为这场“竞赛”打开了新的思路,就是用很少的“军备”,同样可以赢得竞赛。怪不得黑神话的老板冯骥在微博表示:DeepSeek,可能是国运级别的科技成果。

梁文锋参加座谈会。

在此前,DeepSeek的创始人,1985年出生于广东省湛江市的梁文锋在谈到中国如何应对科技创新时也曾谈到:随着经济发展,中国也要逐步成为贡献者,而不是一直搭便车。

如今,在大模型这个赛道上,中国也终于迎来了弯道超车的机会。

编辑:张文单 责任编辑:阳紫微
DeepSeek火“崩”了,来自湛江的85后如何让世界“吃惊”?
南方+ 2025-01-27 17:36

当海外用户疯狂涌入小红书的时候,另一款来自中国的互联网应用如今在全球掀起了更大的波澜。中国AI初创公司深度求索(DeepSeek)同时冲上了中国和美国区AppStore免费榜第一,其网页版甚至出现了短时间的宕机:在1月26日,有消息称DeepSeek遭遇了一次短暂的服务中断。据DeepSeek官方回应,当天下午,该应用确实经历了一次局部性的服务波动,但幸运的是,问题在短时间内便得到了有效解决。此次服务中断的原因,DeepSeek方面推测可能是由于其最新模型发布后,吸引了大量用户的涌入,导致服务器在短时间内难以承受如此高的并发访问量。

如图

DeepSeek的火爆,起因是他们发布的一款名为DeepSeekV2的开源模型,提供了一种史无前例的性价比:推理成本被降到每百万token仅1块钱,约等于Llama370B的七分之一,GPT-4Turbo的七十分之一。这背后,是DeepSeek对模型架构进行了全方位创新。它提出的一种崭新的MLA(一种新的多头潜在注意力机制)架构,把显存占用降到了过去最常用的MHA架构的5%-13%,同时,它独创的DeepSeekMoESparse结构,也把计算量降到极致,所有这些最终促成了成本的下降。

如图

这样的“中国式创新”,带来的是AI大模型领域的一次颠覆:此前大模型领域的发展轨迹,大都是靠算力的堆砌而艰难向前的,一方面导致了行业的成本居高不下,另一方面也让英伟达等提供算力的企业赚的盆满钵满。

但是DeepSeek通过底层架构的方式,改变了发展的思路。

如果用通俗点的说法来讲,就是好比现在大家认为小龙虾是一道能够持续火爆的美食,五星级酒店大厨们通过昂贵的名牌炒锅和严选的食材,做出来的小龙虾味道极佳得到了大家的认可,但突然一家不知名的小菜馆用普通的十三香就炒出来同样甚至更好的味道,价格只要五星级酒店的几十分之一,而且这家小菜馆还把所有配料和方法都公开了......这下,卖锅的、卖配料和食材的,都慌了。而且这家小菜馆的出品,还得到了全世界的认可。

特斯拉的老板马斯克、Facebook老板扎克伯格、OpenAI前联合创始人卡帕西都在多个场合对DeepSeek的能力感到吃惊:没有想到居然能这么强,直接能和当前最强的ChatGPTo1不相上下。

当大模型被全球公认会带来“下一次工业革命”的时候,如何能够站在这次“革命”的桥头,则成为了全球各国的“军备竞赛”,但是当这场“军备竞赛”是完全依靠算力芯片这样的“军备”来取胜的时候,我们会发现并没有掌握核心“军备”的中国在起跑线上已经被“卡脖子”了。而DeepSeek的出现,则是为这场“竞赛”打开了新的思路,就是用很少的“军备”,同样可以赢得竞赛。怪不得黑神话的老板冯骥在微博表示:DeepSeek,可能是国运级别的科技成果。

梁文锋参加座谈会。

在此前,DeepSeek的创始人,1985年出生于广东省湛江市的梁文锋在谈到中国如何应对科技创新时也曾谈到:随着经济发展,中国也要逐步成为贡献者,而不是一直搭便车。

如今,在大模型这个赛道上,中国也终于迎来了弯道超车的机会。

编辑:张文单 责任编辑:阳紫微