感受AI的进化速度

在撰写本章的2026年3月,AI行业的口头禅是"半年前的常识已经不管用了"。

从数字来看,这种速度感一目了然。AI相关投资在2025年达到2,258亿美元(约合人民币1.6万亿元),创历史新高[1]。77%的企业已经部署或正在测试AI,全球21%的人口每天都在使用AI工具。AI市场规模在2025年估计约为2,440亿至3,910亿美元。

过去一年半发生了什么?让我们按时间线回顾主要事件。

AI进化时间线 2024-2026

接下来深入探讨4个最重要的趋势。

多模态AI ― 拥有五感的AI

多模态AI是指能够综合处理文本、图像、语音、视频等多种格式的AI。早期的LLM是"只能读写文字的存在",而现在的AI能看照片、听声音、制作视频。

2025年的突破

领域 服务名称 能做什么
图像生成 GPT-4o(原生图像生成) 能精准生成带文字的图像。2025年3月发布后需求暴涨,Altman称GPU都"被烤化了"
视频生成 Google Veo 3 生成带声音的视频。发布后累计生成超过2.7亿个视频
长文理解 Gemini 2.5 Pro 一次处理100万token(相当于一整本书)。在LMArena首次亮相就拿到第一
语音对话 GPT-4o Advanced Voice 不经过文本转换,直接进行自然的实时语音对话。还能当翻译使用

另一方面,OpenAI的视频生成AI"Sora"因每天高达1,500万美元的基础设施成本,在2026年3月宣布停止服务。高质量视频生成仍需要巨额成本这一现实也随之暴露。

实用提示:图像分析(照片→文本)在各家基本都能在免费额度内使用。收据识别、手写笔记转文字、图表数据提取等,日常中多试试看吧。

推理模型的革命 ― 会"思考"的AI登场

从2024年下半年开始,AI世界诞生了一个新类别 ― 推理模型

以前的AI是"一被问就立即回答"的风格。推理模型不同,它会在回答前花"思考时间"。就像人解数学题时不会直接写答案,而是在草稿纸上一步步推导一样。

推理模型的进化 ― 主要模型对比

为什么重要

推理模型的出现使AI之前不擅长的领域 ― 数学、科学、复杂编程 ― 的性能得到了飞跃式提升。

  • OpenAI o4-mini在数学奥林匹克级别的问题(AIME 2025)上达到92.7%的正确率,使用Python工具时达99.5%
  • DeepSeek R1的训练成本仅约600万美元(相比GPT-4估计超过1亿美元)就实现了高性能,2025年1月在iOS应用商店全美登顶。Nvidia股价一度下跌18%[2]
  • Claude扩展思考具有让开发者自由设定"思考预算"的独特功能,还实现了在使用工具时继续思考的"交错思考"

关注点:推理时计算
"给AI更多思考时间,就能得到更准确的答案" ― 这一发现为AI进化增加了新维度。除了传统的"增加训练数据"和"增大模型规模"外,增加推理时的计算量也被证明能提升性能。

AI代理 ― 进入"委托"时代

2025-2026年最热门的关键词是AI代理(AI Agent)

以前的AI是"你问它就答"的咨询对象。AI代理不同,你告诉它目标,它就会制定计划、使用工具、自主执行任务。感觉就像把工作"委托"给秘书或助手。

AI代理 ― 主要服务与市场规模

AI代理的具体案例

代理 能做什么 特点
Claude Code 自主完成代码生成、运行、调试的全流程 是年收入超10亿美元的3个编程AI产品之一
Operator 操作网页浏览器,代为预订和调研 设有人工检查点,但防范提示注入攻击仍是课题
Manus AI 在云端异步执行复杂任务 2025年3月推出,随后被Meta以约20亿美元收购
Devin 自主完成软件开发的AI工程师 月费500美元。官方成功率为13.86%,仍在发展中

MCP ― AI代理的"通用语言"

作为代理与外部工具连接的标准协议,Anthropic开发的MCP(Model Context Protocol)正在快速普及。2025年12月捐赠给Linux基金会,月SDK下载量达到9,700万次。ChatGPT、Gemini、VS Code、AWS、Azure等主流平台纷纷采用。

Gartner预测,到2026年底,40%的企业应用将内置AI代理[1]

代理的局限性:代理虽然方便,但目前仍有一些重要限制。复杂判断错误、安全风险(如擅自发送信息)、成本(自主反复调用API)、问责不透明等。不是"全权委托",而是"委托后确认"才是原则。

开源AI的崛起

GPT-4和Claude这样的商用AI并不是全部。免费使用、可自由修改的开源AI正在以惊人的速度发展。

主要模型(截至2025年)

模型 开发方 特点
Llama 4 Scout/Maverick Meta Scout:支持1000万token的超长文本,单张H100即可运行。Maverick:性能媲美GPT-4o
DeepSeek V3/R1 DeepSeek(中国) V3训练费约600万美元达到GPT-4o级。R1作为推理模型登顶全美第一
Qwen 3 阿里巴巴 Apache 2.0许可。支持119种语言。下载量已超过Llama

为什么开源重要

开源AI有5个重要意义:

  1. 透明度 ― 可以检验模型的工作原理,评估安全性
  2. 定制化 ― 用自己的数据构建专用模型
  3. 成本 ― 在自己的服务器上运行,API费用为零
  4. 隐私 ― 不需要将数据发送到外部就能使用AI
  5. 促进竞争 ― 防止少数大公司垄断AI

2025年夏天,开源模型的总下载量中中国开发的模型(DeepSeek + Qwen)超过了美国开发的模型。AI开发的地缘政治格局正在发生变化。

普通用户需要知道的:开源AI主要面向企业和开发者,但其好处会间接惠及每个人。竞争越激烈,商用AI的价格就越低,性能就越好。实际上,DeepSeek R1推出后各家大幅降低了API价格。

AI的未来 ― 2026年以后的展望

AI的未来 ― 机器人、AGI、全球战略

AI x 机器人 ― "能动的AI"走向实用

将LLM的智能与机器人的身体结合的人形机器人,终于开始在现实场景中发挥作用了。

  • Figure 03 ― 已在宝马工厂实际部署。投资额超过10亿美元
  • 1X NEO ― 全球首款家用人形机器人。约2万美元(月付499美元)2026年开始发货
  • Tesla Optimus ― 目标量产价格2-3万美元。2026年计划生产数万台
  • 中国企业 ― 140多家公司、330多个型号正在开发中

通向AGI之路 ― 专家们的预测

关于AGI(通用人工智能 ― 具有等于或超过人类智能的AI)的到来时间,业界看法不一。

立场 预测
Anthropic "2027年初" ― 可比肩诺贝尔奖级研究者的AI将在2026年末至2027年初出现
OpenAI "已经知道怎么做了" ― 对具体时间含糊其辞但持乐观态度
Google DeepMind "3-5年内" ― 比此前的"10年"大幅提前
怀疑派研究者 "仍需根本性突破" ― 沿现有路线还需10-20年

即使"AGI要来了",也不意味着生活会立刻发生剧变。但AI能做的事情确实在每月扩大是事实。"AI应该还做不到吧"这种想法,半年后可能就过时了。

在AI时代,"现在"应该做什么

3个建议

  1. 亲手体验 ― 用免费AI工具实际操作体验。百闻不如一试
  2. 与自身优势结合 ― AI是工具,与你的专业知识和创造力结合才能创造价值
  3. 享受变化 ― 半年就会颠覆常识的时代。保持好奇心就是最大的技能

参考文献

  1. Gartner. "Worldwide AI Spending Will Total $1.5 Trillion in 2025." Gartner Newsroom, September 2025. / Fortune Business Insights. "Artificial Intelligence Market Report." 2025.
  2. "DeepSeek R1: Open-source reasoning model." DeepSeek API Docs, January 20, 2025. / Market impact reported by multiple financial outlets, January 27, 2025.

相关链接:

全6章学习完毕,辛苦了!
你已经系统地掌握了从AI基础到最新趋势的知识。AI每天都在进化,以本课程学到的基础为起点,一边实际操作工具,一边持续关注最新动态吧。