大方向
(1)
2015年,AlphaGo打败李世石,人工智能出圈爆发。AI四小龙纷纷创业大多主打视觉识别。这也难怪,毕竟2015年以来爆发的人工智能热潮,其导火索是:2009年李飞飞创建图片标注数据集、2012年辛顿对这个图片识别刷分屠榜。
今年是2025年,十年了。大家猛然发现,人工智能已经火了十年了。
回顾过去人工智能火的十年,现在来看,AI四小龙纷纷凋零。
(2)
现在是2025年6月份,我想回顾一下中国AI在这半年来的进展,我让AI给我列一下中国人工智能大模型:
百度-文心、阿里-通义、腾讯混元与元宝
字节豆包、幻方-DeepSeek
智谱-GLM、月之暗面-Kimi、百川、零一万物、MiniMax-ABAB、面壁-CPM
商汤-日日新、科大讯飞-星火
360-智脑、昆仑万维-天工
华为-盘古
(3)
如果说AI的2015-2025这十年是上半场、上半场是视觉识别,而下半场2025-2035这十年,那下半场会是视觉生成吗?那视觉识别经历十年会不会也会如AI四小龙一样尴尬呢?
我又总结了一下如今的大模型的热点:
1、文本生成:代码生成、文案生成
2、语音生成:音乐生成、播客生成
3、图片生成:海报生成、美颜生成
4、视频生成:广告生成、影视生成
而且这些热点,中外都热,而且都开始收费挣到钱了(除了中国的代码生成以外)
有人把大模型比喻成操作系统iOS,我说得有iPhone设备啊:
人肉两腿行走:AR眼镜、VR
机器行走:智能汽车、无人狗、无人机、人形机器人
(4)
回顾过去十年,有三个事让我挺深刻:
1、2017年Transformer时刻。过去教授们研究的都是小而美的专有模型,这个是做OCR识别的,那个是做QA问答的,那个是做对联生成的,那个是做机器翻译的,大家都井水不犯河水玩的不亦乐乎。2017年Transformer一出,教授专家们纷纷叫苦:完了完了,自己多年的专业精进,屁也不是了。于是2019年开始,大量的教授又纷纷回归象牙塔。
2、2023年ChatGPT时刻。2017年谷歌大牛们发表了Transformer论文,但是谷歌也无动于衷,大牛们于是做了个BERT证明Transformer这个理论可实现就拍拍屁股放那儿了,谷歌仍然没觉得怎么样。但是OpenAI一直坚持做GPT1、GPT2、GPT3,终于ChatGPT在2023年出圈,谷歌这才如梦初醒,这才匆忙于2023年底发布了谷歌自己的大模型Gemini。
3、2014年o1时刻。2024年初,OpenAI发布了Sora视觉模型,成了一个宣传品。整个AI业界感觉AI遇到瓶颈了,大家纷纷在卷文本上下文对话的长度以及文本生成的长度。2024年10月,OpenAI发布了深度思考o1,这才又为业界打开了一条新路。
(4)
我回顾过ChatGPT,到底强在什么地方:
是文本生成?
是音频生成?
是图片生成?
是视频生成?
我也回顾过DeepSeek,到底强在什么地方:
是文本生成?
是音频生成?
是图片生成?
是视频生成?
好像中外这两个AI领头羊都没在各类生成这个方向上努力,他们俩都加强的是推理能力。也有人说DeepSeek其实推理能力也不咋样,不外乎就是:国产、开源、小-省资源、中文语料友好、央视传播。
这就是大家经常讨论的一个哲学问题:
到底是AGI时代,还是AIGC时代?
下一个十年,AGI是主流还是边缘?AIGC是主流还是边缘?
不同人有不同观点。
(5)
我又想起另外一类似的事:
马斯克当时做可回收火箭时,业界有两个主流声音:
1、可回收火箭有啥意义,根本没什么价值
2、可回收火箭根本不可能做出来
现在大家看到了:
1、2024年星链坠毁了318颗卫星。也就是说:大家没看到星链之前不觉得可回收火箭有什么价值,现在大家看到星链了才知道可回收火箭的意义(当然,现在还有大量的人认为星链本身就没有意义)
2、可回收火箭,马斯克还真做出来了。
也就是说:大部分人都是马后炮。
(6)
局域网时代,我说:不做部门间勾稽关联,不要搞局域网版本。
Web互联网时代,我说:不搞一品万店,不要搞Web互联网版本。
移动互联网时代,我说:如果利用不上手机的硬件特性(如摄像头麦克风/GPS传感器),那就不要把大象塞到这个冰箱里。
云计算时代,我说:如果不搞在线连接,那就不要上云。
那人工智能时代,原则是什么?如果xxxx,就不要做成AI应用。