感受AI的进化速度
在撰写本章的2026年3月,AI行业的口头禅是"半年前的常识已经不管用了"。
从数字来看,这种速度感一目了然。AI相关投资在2025年达到2,258亿美元(约合人民币1.6万亿元),创历史新高[1]。77%的企业已经部署或正在测试AI,全球21%的人口每天都在使用AI工具。AI市场规模在2025年估计约为2,440亿至3,910亿美元。
过去一年半发生了什么?让我们按时间线回顾主要事件。
接下来深入探讨4个最重要的趋势。
多模态AI ― 拥有五感的AI
多模态AI是指能够综合处理文本、图像、语音、视频等多种格式的AI。早期的LLM是"只能读写文字的存在",而现在的AI能看照片、听声音、制作视频。
2025年的突破
| 领域 | 服务名称 | 能做什么 |
|---|---|---|
| 图像生成 | GPT-4o(原生图像生成) | 能精准生成带文字的图像。2025年3月发布后需求暴涨,Altman称GPU都"被烤化了" |
| 视频生成 | Google Veo 3 | 生成带声音的视频。发布后累计生成超过2.7亿个视频 |
| 长文理解 | Gemini 2.5 Pro | 一次处理100万token(相当于一整本书)。在LMArena首次亮相就拿到第一 |
| 语音对话 | GPT-4o Advanced Voice | 不经过文本转换,直接进行自然的实时语音对话。还能当翻译使用 |
另一方面,OpenAI的视频生成AI"Sora"因每天高达1,500万美元的基础设施成本,在2026年3月宣布停止服务。高质量视频生成仍需要巨额成本这一现实也随之暴露。
实用提示:图像分析(照片→文本)在各家基本都能在免费额度内使用。收据识别、手写笔记转文字、图表数据提取等,日常中多试试看吧。
推理模型的革命 ― 会"思考"的AI登场
从2024年下半年开始,AI世界诞生了一个新类别 ― 推理模型。
以前的AI是"一被问就立即回答"的风格。推理模型不同,它会在回答前花"思考时间"。就像人解数学题时不会直接写答案,而是在草稿纸上一步步推导一样。
为什么重要
推理模型的出现使AI之前不擅长的领域 ― 数学、科学、复杂编程 ― 的性能得到了飞跃式提升。
- OpenAI o4-mini在数学奥林匹克级别的问题(AIME 2025)上达到92.7%的正确率,使用Python工具时达99.5%
- DeepSeek R1的训练成本仅约600万美元(相比GPT-4估计超过1亿美元)就实现了高性能,2025年1月在iOS应用商店全美登顶。Nvidia股价一度下跌18%[2]
- Claude扩展思考具有让开发者自由设定"思考预算"的独特功能,还实现了在使用工具时继续思考的"交错思考"
关注点:推理时计算
"给AI更多思考时间,就能得到更准确的答案" ― 这一发现为AI进化增加了新维度。除了传统的"增加训练数据"和"增大模型规模"外,增加推理时的计算量也被证明能提升性能。
AI代理 ― 进入"委托"时代
2025-2026年最热门的关键词是AI代理(AI Agent)。
以前的AI是"你问它就答"的咨询对象。AI代理不同,你告诉它目标,它就会制定计划、使用工具、自主执行任务。感觉就像把工作"委托"给秘书或助手。
AI代理的具体案例
| 代理 | 能做什么 | 特点 |
|---|---|---|
| Claude Code | 自主完成代码生成、运行、调试的全流程 | 是年收入超10亿美元的3个编程AI产品之一 |
| Operator | 操作网页浏览器,代为预订和调研 | 设有人工检查点,但防范提示注入攻击仍是课题 |
| Manus AI | 在云端异步执行复杂任务 | 2025年3月推出,随后被Meta以约20亿美元收购 |
| Devin | 自主完成软件开发的AI工程师 | 月费500美元。官方成功率为13.86%,仍在发展中 |
MCP ― AI代理的"通用语言"
作为代理与外部工具连接的标准协议,Anthropic开发的MCP(Model Context Protocol)正在快速普及。2025年12月捐赠给Linux基金会,月SDK下载量达到9,700万次。ChatGPT、Gemini、VS Code、AWS、Azure等主流平台纷纷采用。
Gartner预测,到2026年底,40%的企业应用将内置AI代理[1]。
代理的局限性:代理虽然方便,但目前仍有一些重要限制。复杂判断错误、安全风险(如擅自发送信息)、成本(自主反复调用API)、问责不透明等。不是"全权委托",而是"委托后确认"才是原则。
开源AI的崛起
GPT-4和Claude这样的商用AI并不是全部。免费使用、可自由修改的开源AI正在以惊人的速度发展。
主要模型(截至2025年)
| 模型 | 开发方 | 特点 |
|---|---|---|
| Llama 4 Scout/Maverick | Meta | Scout:支持1000万token的超长文本,单张H100即可运行。Maverick:性能媲美GPT-4o |
| DeepSeek V3/R1 | DeepSeek(中国) | V3训练费约600万美元达到GPT-4o级。R1作为推理模型登顶全美第一 |
| Qwen 3 | 阿里巴巴 | Apache 2.0许可。支持119种语言。下载量已超过Llama |
为什么开源重要
开源AI有5个重要意义:
- 透明度 ― 可以检验模型的工作原理,评估安全性
- 定制化 ― 用自己的数据构建专用模型
- 成本 ― 在自己的服务器上运行,API费用为零
- 隐私 ― 不需要将数据发送到外部就能使用AI
- 促进竞争 ― 防止少数大公司垄断AI
2025年夏天,开源模型的总下载量中中国开发的模型(DeepSeek + Qwen)超过了美国开发的模型。AI开发的地缘政治格局正在发生变化。
普通用户需要知道的:开源AI主要面向企业和开发者,但其好处会间接惠及每个人。竞争越激烈,商用AI的价格就越低,性能就越好。实际上,DeepSeek R1推出后各家大幅降低了API价格。
AI的未来 ― 2026年以后的展望
AI x 机器人 ― "能动的AI"走向实用
将LLM的智能与机器人的身体结合的人形机器人,终于开始在现实场景中发挥作用了。
- Figure 03 ― 已在宝马工厂实际部署。投资额超过10亿美元
- 1X NEO ― 全球首款家用人形机器人。约2万美元(月付499美元)2026年开始发货
- Tesla Optimus ― 目标量产价格2-3万美元。2026年计划生产数万台
- 中国企业 ― 140多家公司、330多个型号正在开发中
通向AGI之路 ― 专家们的预测
关于AGI(通用人工智能 ― 具有等于或超过人类智能的AI)的到来时间,业界看法不一。
| 立场 | 预测 |
|---|---|
| Anthropic | "2027年初" ― 可比肩诺贝尔奖级研究者的AI将在2026年末至2027年初出现 |
| OpenAI | "已经知道怎么做了" ― 对具体时间含糊其辞但持乐观态度 |
| Google DeepMind | "3-5年内" ― 比此前的"10年"大幅提前 |
| 怀疑派研究者 | "仍需根本性突破" ― 沿现有路线还需10-20年 |
即使"AGI要来了",也不意味着生活会立刻发生剧变。但AI能做的事情确实在每月扩大是事实。"AI应该还做不到吧"这种想法,半年后可能就过时了。
在AI时代,"现在"应该做什么
3个建议
- 亲手体验 ― 用免费AI工具实际操作体验。百闻不如一试
- 与自身优势结合 ― AI是工具,与你的专业知识和创造力结合才能创造价值
- 享受变化 ― 半年就会颠覆常识的时代。保持好奇心就是最大的技能
参考文献
- Gartner. "Worldwide AI Spending Will Total $1.5 Trillion in 2025." Gartner Newsroom, September 2025. / Fortune Business Insights. "Artificial Intelligence Market Report." 2025.
- "DeepSeek R1: Open-source reasoning model." DeepSeek API Docs, January 20, 2025. / Market impact reported by multiple financial outlets, January 27, 2025.
相关链接:
- Hugging Face Models ― 开源AI模型中心
- LM Arena ― AI模型性能排行榜
全6章学习完毕,辛苦了!
你已经系统地掌握了从AI基础到最新趋势的知识。AI每天都在进化,以本课程学到的基础为起点,一边实际操作工具,一边持续关注最新动态吧。