这两年 AI 领域的变化,用一个字形容就是「快」。每隔几个月就有新的模型发布,新的架构被提出,新的应用场景被打开。对旁观者来说眼花缭乱,对从业者来说则是选择难题——路线这么多,到底该往哪个方向走?
这篇文章不是一篇严谨的学术综述,更像是一张手画的地图。我会把自己对当前 AI 技术路线的理解梳理出来,重点不是面面俱到,而是把几条主线的逻辑讲清楚。
大语言模型:Transformer 的统治与变种
目前几乎所有主流 AI 产品的最底层,都跑不出 Transformer 这个架构。2017 年 Google 那篇「Attention Is All You Need」的影响怎么强调都不过分——它让整个 NLP 领域从 RNN/LSTM 的时代切换到了注意力机制的时代,而且这个范式至今没有被根本性挑战。
但在 Transformer 的大框架下,各家的技术选择开始出现分化:
- Dense Transformer(稠密模型) —— 这是最经典的路线。GPT-4、Claude、Llama 3 都属于这一类。每一层都用全部参数参与计算,训练和推理的成本都很高,但效果经过了充分验证。适合需要深度推理能力的通用场景。
- MoE(Mixture of Experts,混合专家模型) —— 把一个大模型拆成多个「专家」子网络,每次推理只激活其中一部分。最著名的代表是 Mixtral 8x7B 和 GPT-4(传说中也用了 MoE)。MoE 的核心优势是在不显著增加推理成本的情况下,把参数量做大。缺点则是训练不稳定,路由策略的设计很讲究。
- 深度可分离卷积与状态空间模型 —— Mamba 架构是这条路线最有名的挑战者。它试图用状态空间模型替代注意力机制,将计算复杂度从二次方降到线性。在某些长文本任务上表现出色,但在需要复杂语义理解的场景下,还没有完全取代 Transformer。
目前来看,短期内 Transformer 的地位很难被动摇。MoE 会成为越来越多大厂的选择——算力受限的时代,同样的推理成本下 MoE 能塞进更多知识。Mamba 这类架构则更适合特定场景,比如实时语音处理、超长文档分析。
模型尺寸:越大越好?
过去两年的叙事一直是「规模就是一切」。Scaling Law 像是 AI 界的牛顿定律——只要把模型做得足够大、数据喂得足够多,能力就会持续涌现。GPT-3 到 GPT-4 的飞跃让这条信念变得近乎信仰。
但 2025 年下半年开始,情况发生了变化。
以 DeepSeek-V3、Qwen2.5 为代表的模型证明了一点:在同样的参数量下,通过更好的训练策略、更高质量的数据、更精细的 post-training,可以做出远超同尺寸对手的效果。换句话说,效率开始挑战规模。
这带来的实际影响是:
- 超大模型(万亿参数级) —— 只有头部玩家玩得起,Google、OpenAI、Anthropic。优势是天花板高,劣势是成本吓人。
- 中型模型(百亿到千亿参数) —— 性价比最高的区间。DeepSeek、Qwen、Llama 3 的主力战场。本地部署可行,效果也足够好。
- 小模型(十亿参数以下) —— 端侧模型的赛道。Phi-3、Gemma、Qwen2.5-Coder 等。适合手机、嵌入式设备,能力有限但延迟低、隐私好。
一个有意思的趋势是:中型模型正在吃掉越来越多的应用场景。当 Llama 3 70B 能在消费级 GPU 上跑出接近 GPT-4 的效果时,很多企业开始重新思考「我到底需不需要那个最大的模型」。
多模态:单一感官到全感官
多模态是 2025-2026 年最热闹的赛道。GPT-4o、Claude 3.5、Gemini 2.0 都实现了原生多模态——模型不再是「只看文字」或「只看图片」,而是从一开始就接受多模态输入训练。
这里有一个关键的技术分歧:
- 统一架构 —— 用一个 Transformer 处理所有模态,输入输出共享同一个表征空间。理论上更优雅,但训练难度大。
- 拼合架构 —— 用独立的编码器处理不同模态(比如视觉用 ViT,语音用 Whisper),然后把编码结果拼到大语言模型的输入层。实现更简单,目前是主流做法。
真正难的还不是技术实现,而是数据。高质量的图文对数据、语音文本对齐数据,每一种新的模态都意味着数据 pipeline 的重新搭建。这也是为什么多模态能力的提升速度比纯语言模型慢——不是模型能力不够,是标注数据跟不上。
AI Agent:从对话到行动
如果说大模型是大脑,Agent 就是让大脑长出手脚。2025 年以来,Agent 从一个热门概念变成了正在落地的产品形态。
目前的 Agent 架构主要分两条路线:
- 工具调用(Tool Use) —— 模型通过 API 调用外部工具(搜索、计算器、代码执行器)。OpenAI 的 Function Calling、Anthropic 的 Tool Use 都属于这一类。实现成熟,效果稳定。
- 计算机使用(Computer Use) —— 模型直接操作图形界面,像人一样看屏幕、点按钮、打字。这要求模型同时具备视觉理解和精细动作控制能力,目前还处于早期阶段,但 Claude 的 Computer Use 功能已经证明了这条路走得通。
Agent 想要真正可用,需要解决三个核心问题:可靠执行、错误恢复、长时间任务的管理。目前业界在第一个问题上做得还不错,后两个还有很大空间。
开源的崛起与生态重构
2024-2026 年,开源大模型的进步速度超出很多人预期。Llama 3 的开源直接拉高了整个开源社区的天花板,DeepSeek 一系列模型证明了开源完全可以和闭源在同一个水平线上竞争。
一个不太被注意但很关键的变化是:开源正在从「追赶到接近」变成在某些细分领域「反超」。比如代码生成领域,DeepSeek-Coder 和 Qwen2.5-Coder 在特定基准上已经超过了同期的 GPT-4。这种局部反超在未来会越来越常见。
这不只是技术问题,也是生态问题。开源模型催生了一个庞大的微调、量化、部署工具链——llama.cpp、vLLM、Ollama 等项目让个人开发者也能在自己的笔记本上跑起一个像样的模型。这种生态效应是闭源模型无法复制的。
一些思考
梳理完这些路线之后,我最大的感受是——AI 的「技术栈」正在变得越来越多元化。三年前我们讨论的是「哪个模型最强」,现在讨论的是「哪个方案最适合这个问题」。这是技术成熟的表现。
对从业者来说,这是一个好消息也是一个坏消息。好消息是有选择,可以根据自己的场景和资源做最优决策。坏消息是选择太多,信息负荷变大了。
我的建议是别贪心。不用追求追平每一个技术热点,搞清楚自己的场景需要什么,在那条路线上挖得足够深,比什么都要紧。
2026 年 6 月 15 日
于 LLF工作站