一、从人工智能到 Generative AI：技术演进简史

近年来，Generative AI（生成式人工智能）席卷全球。从 ChatGPT 聊天、Midjourney 画图、Copilot 辅助编程，再到 Runway 自动剪辑视频，它正不断刷新我们对「创造力」的想象。

对软件工程师来说，这场技术浪潮不仅关乎工具升级，更关乎工作方式的根本改变。但 Generative AI 究竟从哪里来？又为何如此强大？要理解它，我们需要回顾人工智能的发展脉络。

1.1 从规则系统到机器学习

最早的 AI 系统是专家系统：通过大量 if…then… 的规则模拟人类决策过程。你可以把它理解为一大堆硬编码逻辑——维护成本高，扩展性差。

后来，机器学习(Machine Learning) 兴起。与其手动写规则，不如喂给算法大量数据，让它「自己找规律」。

例如：

给定一堆带标签的猫狗图片，模型自动学会区分它们；
给定用户浏览记录，模型自动预测广告点击率。

这一阶段的 AI 可以做 「识别」 与 「分类」，但仍不具备 「理解」 与 「生成」 能力。

1.2 深度学习：数据驱动的感知能力

到了 2010 年前后，随着计算力提升和数据爆炸，深度学习（Deep Learning，也叫做神经网络（neural networks）） 崛起。它通过 「神经网络」 模拟人脑结构，自动提取更复杂的特征。

举个例子：

在图像识别中，传统方法需要手动定义“边缘”“角点”等特征；
而深度学习模型可以自动从原始像素中学出「这是一只狗」。

但图像和语言不同，语言是序列信息，还带有上下文语义。这正是 NLP（自然语言处理） 进入舞台的地方。

1.3 自然语言处理（NLP）：让机器听懂人话

让计算机理解语言并不容易。中文中苹果可以是水果，也可以是苹果手机。这种语义歧义、上下文关联，远比图像识别复杂。

为了解决这些问题，NLP 技术引入了三大关键手段：

1. Tokenization（分词）

Tokenization（分词）让文本得以被数字化标注，从而使计算机能够运用统计方法（而非基于规则的模式）从数据中自动发现规律模式。

步骤：

从需要分词的文本开始处理。
根据特定规则（如遇到空格时）将文本拆分为单词。
去除停用词——剔除”the”、”a”等含义较少的干扰词，通常通过预置词典实现结构化过滤。
为每个唯一词符分配对应的数字编码。

类比理解：就像你解析一个 JSON 字符串，把原始输入转成结构化数组，方便后续处理。

2. Word Embedding（向量化）

从离散符号到连续向量

在自然语言处理中，词语最初只是离散的符号（tokens），计算机无法理解它们之间的语义关系。Word Embedding 技术通过将每个词语表示为多维空间中的连续向量（vector），成功解决了这个问题。

向量的语义

这些向量不是随机的：
每个维度都编码了特定的语义特征
向量的方向代表了词语的语义
语义相近的词语，其向量方向也越接近

如何衡量语义相似度？

我们使用余弦相似度来量化这种关系：
数值范围在-1 到 1 之间
越接近 1 表示语义越相似
完全无关的词语相似度接近 0

Word Embedding
如图：

“狗”和”小狗（puppy）”：最为接近
“狗”和”猫”：比较接近，同属宠物
“狗”和”滑板”：几乎没有关系

类比理解：相似的词距离更近，就像你在地图上按语义给词定位。

3. 上下文建模（建模语言结构）

语言的意义通常依赖上下文。比如“我吃苹果”中，“苹果”指水果，而“我喜欢苹果手机”中则是“苹果品牌”。

为此，我们需要一种方法，让模型在处理当前词时能考虑前后文。这就引出了模型结构的演进。

1.4 模型结构的演进：从 RNN 到 Transformer

在构建语言理解能力时，模型结构从简单到复杂经历了多个阶段：

RNN（Recurrent Neural Network）：一次读一个词，逐步记住上下文信息，适合处理序列。
LSTM / GRU：为了解决 RNN “记忆力差”问题，改进了信息保留机制。
Transformer（现在的主力）：Transformer 模型突破了 RNN 处理长文本序列的限制，其核心的 「注意力机制」 能自动为输入分配不同权重，使模型可以不受文本顺序约束而 「聚焦关键信息」。这种架构让 AI 能更有效地理解长距离语义关联，奠定了现代大语言模型的基础。Transformer 的成功标志着自然语言处理进入全新时代。

类比理解：RNN 就像你一句话一句话翻阅书籍, Transformer 就像你一下子读完全书，快速抓住重点。

1.5 Generative AI 登场：从理解到创造

有了这些技术铺垫，Generative AI 终于在近几年爆发。它不仅能理解语言、编码，还能 「续写」、「改写」、「重构」，具备类人类的生成能力。

这背后依靠的是：

超大规模 Transformer 模型（例如 GPT、Claude、Gemini 等）
高质量训练数据集（来自全网的文本、代码、图像）
强大的推理能力（每个词都是一步步预测出来的）

二、Generative AI 的工作机制揭秘

在上一章中，我们了解了语言建模的技术演进，并认识了 Transformer 这种强大架构。但真正使用生成式 AI，比如给 ChatGPT 提一个问题，AI 是如何推理、理解、生成回答的呢？

本章，我们就拆解 Generative AI 的工作机制。

1. 从输入到输出：一次完整推理流程

当你给一个生成式 AI 一个输入（Prompt）时，系统大致经历如下流程：

Tokenization：把文本输入分成 tokens，并映射成向量。
Embedding Lookup：将 tokens 转换为向量表示。
Transformer Encoder/Decoder：通过一系列 Self-Attention、FeedForward 计算，更新每个 token 的隐藏状态。
预测下一个 token 的分布：模型输出一个概率分布，表示在当前上下文下，可能出现每个词的概率。
采样（Sampling）策略：根据概率分布，选择一个具体的下一个 token。
循环生成：把已生成的 token 加回输入，继续预测下一个，直到生成完成（比如达到最大长度、遇到结束符）。

类比理解：就像你调用一个链式函数，每步都基于前一步的输出继续处理，直到得到最终结果。

2. 生成不是一次性预测，而是一步步推理

非常重要的一点：

Generative AI 每次只预测「下一个最可能出现的 token」。

而不是一次性把整段话预测出来。

举例说明: 今天的天气

第一次推理，模型预测：

可能的下一个词	概率
很	30%
不	20%
下雨	10%
晴朗	5%

如果采样到了很，那么第一次推理变成：今天的天气很

再次预测下一个词，比如：

可能的下一个词	概率
好	40%
热	25%
湿	15%

如果采样到了好，那么第二次推理变成：今天的天气很好

以此类推，一步步生成完整的句子。

3 Sampling 策略：不是总拿最大，而是讲究平衡

在每次预测下一个 token 时，选择哪个 token 其实有不同策略：

1. Greedy Search（贪心搜索）

每次都选概率最大的词。
生成确定、直接，但容易“卡壳”，句子单一。

类比理解：就像你总是选最短路径，但可能错过风景。

2. Top-k Sampling

只在概率最高的前 k 个词里随机抽选。
可以引入多样性，避免千篇一律。

例如设置 k=5，每次只在 top 5 的词中随机选择。

3. Top-p Sampling（又叫 nucleus sampling）

动态选择：只在累计概率超过 p 的词集合中抽选。
更加灵活，兼顾连贯性与创造性。

例如 p=0.9，意味着只考虑累计到 90%概率的那批可能性高的词。

4. Temperature（温度系数）

控制分布的平滑程度。
温度高（>1.0），分布更均匀 → 更随机。
温度低（<1.0），分布更陡峭 → 更确定。

1	temperature = 0.7 # 比较平衡的设定

类比理解：Sampling 策略直接决定了 AI 生成的风格：保守还是富有创意。

4. 为什么每次生成的结果可能不同？

即使输入相同，生成的回答有时也会不同，这是因为：

使用了带随机性的 sampling 策略（比如 top-k, top-p）
设置了温度（temperature > 0）

类比理解：就像你面对同一个问题，可能因为当天心情、环境不同，回答也有细微变化。
如果想要完全确定性的输出，需要设置：

1
2
3

top_p = 0
top_k = 1
temperature = 0

这时每次都只选最高概率的词，不带任何随机性。

5. Prompt 是怎样影响推理方向的？

Prompt（提示词）就像是引导模型推理的一组线索。

一个好的 prompt，能清晰地限定主题、风格、角色；
一个模糊的 prompt，会导致模型在多种可能路径中摇摆。

举例：

输入 prompt：

1	请写一段优雅的中文诗歌，主题是春天。

比直接输入

写一段文字。

能更精确地引导模型集中于「诗歌」「中文」「春天」这三个方向。

类比理解：prompt 就像函数调用中的参数（parameters），决定了函数执行的路径和结果

6. 小结：Generative AI 就像一步步玩的猜词游戏

总结一下，本章讲了：

生成式 AI 不是一次性生成整段文字，而是一步步预测下一个词；
每次预测用到概率分布，需要采样策略来平衡确定性与创造性；
Prompt 就是引导生成方向的重要参数；
整个推理过程虽然简单，但依靠强大的 Transformer 网络支撑，才能实现流畅自然的输出。

理解了这些，我们就能更好地设计 Prompt、调控模型输出，为各种实际应用（比如聊天机器人、智能写作、代码生成等）打下基础。

三、Generative AI 的典型应用场景

随着模型能力不断提升，Generative AI 已经广泛应用于各个领域，不只是聊天对话那么简单。
在这一章，系统梳理生成式 AI 的主要应用方向。

4.1 文本生成（Text Generation）

文本生成是 Generative AI 最早、最广泛的应用之一。

4.1.1 聊天对话（Chatbot）

ChatGPT
DeepSeek
文心一言

本质：根据上下文动态生成自然语言回应。

4.1.2 内容创作（Content Creation）

写作辅助（文章、新闻、剧本起草）
社交媒体文案生成
营销邮件、广告语撰写

4.1.3 总结归纳（Summarization）

自动摘要长文档、报告
会议记录提取要点

本质：将冗长内容压缩为简洁、连贯的短文本。

4.2 代码生成与辅助（Code Generation）

随着 Copilot,Cursor 等工具的出现，代码生成成为软件工程领域最受关注的应用之一。

4.2.1 自动补全（Code Autocompletion）

实时代码续写（如 VSCode Copilot）
单行、多行预测代码

4.2.2 代码解释与优化（Code Explanation & Refactoring）

自动解释函数意图
优化已有代码，重构结构

4.2.3 单元测试生成（Test Case Generation）

根据函数定义，自动生成对应的测试用例

本质：理解代码语义 + 基于模式生成补充内容。

4.3 图像生成（Image Generation）

在 Vision 领域，生成式 AI 也大放异彩。

4.3.1 文本生成图像（Text-to-Image）

代表模型：Midjourney、Stable Diffusion、DALL·E、豆包
应用场景：插画、广告设计、概念草图

4.3.2 图像编辑与增强（Image Editing）

局部修改（如 Inpainting）
风格迁移（Style Transfer）
超分辨率（Super-Resolution）

4.3.3 视频生成（Video Generation）

从文本描述生成短视频（如 Runway Gen-2、即梦）
视频风格化、自动剪辑

4.4 Agent（代理人）的出现

定义：具备自主行为与感知的 AI 应用

AI 助理
工作流自动化
AutoGPT
ChatDev

四、如何提升模型输出质量？

虽然大型模型本身具备强大的生成能力，但要在实际应用中获得高质量输出，仍需要巧妙的方法与工程技巧。
本章将从 Prompt 优化、生成增强、模型适配、小模型趋势四个角度，系统讲解提升输出质量的核心手段。

5.1 Prompt 优化：引导模型更聪明地思考

Prompt（提示词）是引导模型生成的「指令」。在不改动模型本身的情况下，通过优化 Prompt，可以显著提升输出的相关性、准确性和创造性。

因为 Prompt 工程涉及的技巧非常丰富，包括角色设定、任务分解、思维链引导、格式控制等多种方法，我将这些内容整理到了一篇专门的文章中。如果你想深入学习如何编写高效的提示词，请查看我的 Prompt 工程指南，那里有详细的示例和最佳实践。

5.2 增强生成：AUG / RAG

单纯依靠模型已有知识可能不够。尤其当面对最新事实、专业领域知识时，引入外部知识源变得至关重要。

5.2.1 什么是 RAG？

RAG（Retrieval-Augmented Generation，检索增强生成）是一种结合 「检索」 与 「生成」 的方法。

基本流程：

先根据用户输入，在外部知识库中检索相关内容（如文档、网页、数据库记录）。
将检索到的内容连同用户问题一起发送给生成模型。
模型基于检索结果，生成更准确、有依据的回答。

5.2.2 关键技术组成

向量数据库（Vector Database）：将文本转成向量，支持高效的语义检索。
语义搜索（Semantic Search）：不仅按关键词匹配，而是按意思找最相关的信息。
融合生成（Fusion Generation）：在回答时综合已有知识和外部检索内容。

类比理解：RAG 就像是一个考生在答题时，不仅靠记忆，还能实时翻阅资料。

5.2.3 适用场景

场景类型	示例	为何适合用 RAG？
✅ 知识问答 / 企业知识库问答	“请问我们公司的年假政策是什么？”	问题涉及专有知识，模型原生不掌握，需实时检索文档。
✅ 技术支持 / 产品手册查询	“请告诉我 Model X 的维护步骤。”	涉及大量产品文档，模型需检索指定资料。
✅ 法律、医学等高精度信息生成	“根据 XX 条款，起草一份免责说明。”	要求内容准确，不能 hallucinate，需引用法律条文。
✅ 论文写作 / 学术辅助	“帮我总结一下这篇论文核心观点。”	模型要从真实论文中抓信息，不是泛泛而谈。
✅ 对话型搜索 / 聊天机器人增强记忆	“上次我说的目标 OKR 你还记得吗？”	模型通过向量索引查找历史对话，比单靠上下文更稳。
✅ 财务、运营、商业分析报告生成	“根据以下财报，总结业务亮点。”	依赖结构化数据或报告原文，检索是关键。

// TODO:
因为涉及的技巧很多，所以单独写了一篇RAG。

5.3 模型微调与适配

有些场景，单靠 Prompt 和 RAG 还不足够，需要对模型本身进行适配。

5.3.1 Fine-tuning vs Prompt-tuning

Fine-tuning（微调）：在原模型基础上，继续用新数据训练若干步，适配特定任务。效果好，但计算资源消耗大。
Prompt-tuning（提示词调优）：冻结模型参数，仅训练一个小型的可学习 Prompt 向量（软提示）。成本低，灵活度高。

5.3.2 轻量化调优方法

针对大模型难以直接微调的问题，研究者提出了一系列轻量化方案：

LoRA（Low-Rank Adaptation）：只调整模型中的一小部分矩阵，显著降低微调成本。
PEFT（Parameter-Efficient Fine-Tuning）：广义指一切以更少参数适配的微调方法。

类比理解：Fine-tuning 是「大修发动机」，而 Prompt-tuning 和 LoRA 更像「加装外挂设备」。

5.4 小模型（SLM）趋势

近年来，除了继续扩展大模型（LLM），也有一股重要潮流：打造任务专用的小模型（SLM, Small Language Model）。

5.4.1 为什么需要小模型？

部署灵活：可以在本地服务器、边缘设备甚至手机上运行。
响应速度快：推理延迟低，体验流畅。
成本更低：计算资源消耗显著减少。
数据安全性高：本地推理，避免数据出云。

5.4.2 小模型的应用场景

企业内部知识问答系统
个人隐私助理
嵌入式智能设备
IoT 物联网终端

类比理解：LLM 是航空母舰，SLM 是灵活机动的小型快艇，各有用武之地。

五、小结

提升 Generative AI 输出质量，不是单靠堆砌模型规模，而是需要综合运用：

Prompt 工程
检索增强
轻量化微调
小模型创新

掌握这些方法，才能真正把 AI 变成高效、可靠的生产力工具。

How do language models work?

本文采用署名-非商业性使用-相同方式共享 4.0 国际许可协议，转载请注明出处。

Generative AI入门：从原理到应用的全面指南