大方向

阿朱说

2025-06-12 00:16

查看原文

粗标 | | 复

（1）

2015年，AlphaGo打败李世石，人工智能出圈爆发。AI四小龙纷纷创业大多主打视觉识别。这也难怪，毕竟2015年以来爆发的人工智能热潮，其导火索是：2009年李飞飞创建图片标注数据集、2012年辛顿对这个图片识别刷分屠榜。

今年是2025年，十年了。大家猛然发现，人工智能已经火了十年了。

回顾过去人工智能火的十年，现在来看，AI四小龙纷纷凋零。

（2）

现在是2025年6月份，我想回顾一下中国AI在这半年来的进展，我让AI给我列一下中国人工智能大模型：

百度-文心、阿里-通义、腾讯混元与元宝

字节豆包、幻方-DeepSeek

智谱-GLM、月之暗面-Kimi、百川、零一万物、MiniMax-ABAB、面壁-CPM

商汤-日日新、科大讯飞-星火

360-智脑、昆仑万维-天工

华为-盘古

（3）

如果说AI的2015-2025这十年是上半场、上半场是视觉识别，而下半场2025-2035这十年，那下半场会是视觉生成吗？那视觉识别经历十年会不会也会如AI四小龙一样尴尬呢？

我又总结了一下如今的大模型的热点：

1、文本生成：代码生成、文案生成

2、语音生成：音乐生成、播客生成

3、图片生成：海报生成、美颜生成

4、视频生成：广告生成、影视生成

而且这些热点，中外都热，而且都开始收费挣到钱了（除了中国的代码生成以外）

有人把大模型比喻成操作系统iOS，我说得有iPhone设备啊：

人肉两腿行走：AR眼镜、VR

机器行走：智能汽车、无人狗、无人机、人形机器人

（4）

回顾过去十年，有三个事让我挺深刻：

1、2017年Transformer时刻。过去教授们研究的都是小而美的专有模型，这个是做OCR识别的，那个是做QA问答的，那个是做对联生成的，那个是做机器翻译的，大家都井水不犯河水玩的不亦乐乎。2017年Transformer一出，教授专家们纷纷叫苦：完了完了，自己多年的专业精进，屁也不是了。于是2019年开始，大量的教授又纷纷回归象牙塔。

2、2023年ChatGPT时刻。2017年谷歌大牛们发表了Transformer论文，但是谷歌也无动于衷，大牛们于是做了个BERT证明Transformer这个理论可实现就拍拍屁股放那儿了，谷歌仍然没觉得怎么样。但是OpenAI一直坚持做GPT1、GPT2、GPT3，终于ChatGPT在2023年出圈，谷歌这才如梦初醒，这才匆忙于2023年底发布了谷歌自己的大模型Gemini。

3、2014年o1时刻。2024年初，OpenAI发布了Sora视觉模型，成了一个宣传品。整个AI业界感觉AI遇到瓶颈了，大家纷纷在卷文本上下文对话的长度以及文本生成的长度。2024年10月，OpenAI发布了深度思考o1，这才又为业界打开了一条新路。

（4）

我回顾过ChatGPT，到底强在什么地方：

是文本生成？

是音频生成？

是图片生成？

是视频生成？

我也回顾过DeepSeek，到底强在什么地方：

是文本生成？

是音频生成？

是图片生成？

是视频生成？

好像中外这两个AI领头羊都没在各类生成这个方向上努力，他们俩都加强的是推理能力。也有人说DeepSeek其实推理能力也不咋样，不外乎就是：国产、开源、小-省资源、中文语料友好、央视传播。

这就是大家经常讨论的一个哲学问题：

到底是AGI时代，还是AIGC时代？

下一个十年，AGI是主流还是边缘？AIGC是主流还是边缘？

不同人有不同观点。

（5）

我又想起另外一类似的事：

马斯克当时做可回收火箭时，业界有两个主流声音：

1、可回收火箭有啥意义，根本没什么价值

2、可回收火箭根本不可能做出来

现在大家看到了：

1、2024年星链坠毁了318颗卫星。也就是说：大家没看到星链之前不觉得可回收火箭有什么价值，现在大家看到星链了才知道可回收火箭的意义（当然，现在还有大量的人认为星链本身就没有意义）

2、可回收火箭，马斯克还真做出来了。

也就是说：大部分人都是马后炮。

（6）

局域网时代，我说：不做部门间勾稽关联，不要搞局域网版本。

Web互联网时代，我说：不搞一品万店，不要搞Web互联网版本。

移动互联网时代，我说：如果利用不上手机的硬件特性（如摄像头麦克风/GPS传感器），那就不要把大象塞到这个冰箱里。

云计算时代，我说：如果不搞在线连接，那就不要上云。

那人工智能时代，原则是什么？如果xxxx，就不要做成AI应用。

大方向

引用文章

新加关键词

配置

知识图谱

栏目选择

智库

文章目录

写评论

目录定位