到底什么是“生成式 AI”？

2024-06-08 来源： IT之家原文链接评论0条

原文标题：《原来这才是【生成式 AI】！！》

随着 ChatGPT、文心一言等 AI 产品的火爆，生成式 AI 已经成为了大家茶余饭后热议的话题。

可是，为什么要在 AI 前面加上“生成式”这三个字呢？

难道还有别的 AI 吗？

且听文档君慢慢道来~

1、生成式 AI 究竟是个啥？

如果将人工智能按照用途进行简单分类的话，AI 其实要被划分为两类：决策式 AI 和生成式 AI。

决策式 AI：专注于分析情况并做出决策。它通过评估多种选项和可能的结果，帮助用户或系统选择最佳的行动方案。

例如，在自动驾驶车辆中，就是通过决策式 AI 系统决定何时加速、减速或变换车道。

到底什么是“生成式 AI”？ - 1

生成式 AI：专注于创造全新内容。它可以根据学习到的数据自动生成文本、图像、音乐等内容。

例如，你可以将几篇论文发给生成式 AI，他可以生成一篇文献综述，囊括了这几篇论文的关键思想、重要结论。

到底什么是“生成式 AI”？ - 2

看到这里，你就知道为什么 ChatGPT、文心一言属于生成式 AI 了吧？

接下来，让我们正式走入生成式 AI 的世界。

2、生成式 AI 的前世今生

其实，生成式 AI 的并不是这几年刚刚诞生，它实际已经经历了三个阶段：

早期萌芽阶段

1950 年，Alan Turing 提出了著名的“图灵测试”，这是生成式 AI 领域的一个里程碑，预示了 AI 内容生成的可能性。

1957 年，Lejaren Hiller 和 Leonard Isaacson 完成了历史上第一首完全由计算机“作曲”的音乐作品《Illiac Suite》。

1964 年至 1966 年间，Joseph Weizenbaum 开发了世界上第一款可人机对话的机器人“Eliza”，它通过关键字扫描和重组完成交互任务。

1980 年代，IBM 公司基于隐形马尔科夫链模型，创造了语音控制打字机“Tangora”。

到底什么是“生成式 AI”？ - 3

沉淀积累阶段

随着互联网的发展，数据规模快速膨胀，为人工智能算法提供了海量训练数据。但是由于硬件基础有限，此时的发展并不迅猛。

2007 年，纽约大学人工智能研究员 Ross Goodwin 的人工智能系统撰写了小说《1 The Road》，这是世界第一部完全由人工智能创作的小说。

2012 年，微软公司公开展示了一个全自动同声传译系统，可以自动将英文演讲者的内容通过语音识别、语言翻译、语音合成等技术生成中文语音。

到底什么是“生成式 AI”？ - 4

快速发展阶段

2014 年起，大量深度学习方法的提出和迭代更新，标志着生成式 AI 的新时代。

2017 年，微软人工智能少女“小冰”推出了世界首部 100% 由人工智能创作的诗集《阳光失了玻璃窗》。

2019 年，谷歌 DeepMind 团队发布了 DVD-GAN 架构用以生成连续视频。

2020 年，OpenAI 发布 ChatGPT3，标志着自然语言处理（NLP）和 AIGC 领域的一个重要里程碑。

2021 年，OpenAI 推出了 DALL-E，主要应用于文本与图像的交互生成内容。

自 2022 年开始到现在，OpenAI 多次发布 ChatGPT 新型号，掀起了 AIGC 又一轮的高潮，它能够理解和生成自然语言，与人类进行复杂的对话。

到底什么是“生成式 AI”？ - 5

自此，生成式 AI 已经到了一个井喷式状态。那么，生成式 AI 究竟是基于什么样的原理呢？

3、轻松搞懂“生成式 AI”原理

在刚刚的介绍中，大家应该都对生成式 AI 有了一个表象的认知：学习知识 + 生成新知识。

但它是如何学习的呢？又是如何生成的呢？

这时候，我们就得来看看生成式 AI 更深层次的定义了：

定义

以 ChatGPT 为代表的生成式 AI，是对已有的数据和知识进行向量化的归纳，总结出数据的联合概率。从而在生成内容时，根据用户需求，结合关联字词的概率，生成新的内容。

是不是一下子懵了？

不急，这就触及到生成式 AI 的原理了。待文档君给你慢慢解析。

其实制作一个生成式 AI，就像把一个泥人变成天才，一共需要四步：捏泥人 → 装大脑 → 喂知识 → 有产出。

到底什么是“生成式 AI”？ - 6

Step1：捏泥人 —— 硬件架构的搭建

要打造一个生成式 AI 的“泥人”，首先要考虑的就是底层硬件。底层硬件构成了生成式 AI 的算力和存力。

算力 —— 泥人的骨架

生成式 AI 需要进行大量的计算，尤其是在处理如图像和视频时。大规模计算任务离不开下面这些关键硬件：

GPU（图形处理单元）：提供强大的并行计算能力。通过成千上万个小处理单元并行工作，大幅提高了计算效率。

TPU（张量处理单元）：专门为加速人工智能学习而设计的硬件，能够显著加快计算速度，进一步增强了骨架的强度。

到底什么是“生成式 AI”？ - 7

存力 —— 泥人的血液

生成式 AI 需要处理和存储大量的数据。

以 GPT-3 为例，光是训练参数就达到了 1750 亿个，训练数据达到 45TB，每天会产生 45 亿字内容。

这些数据的存放离不开下面这些硬件设施：

大容量 RAM：在训练生成式 AI 模型时，大量的中间计算结果和模型参数需要存储在内存中，大容量的 RAM 能够显著提高数据处理速度。

SSD（固态硬盘）：大容量的 SSD 具有高速读取和写入能力，可以快速加载和保存数据，使泥人能够高效地存储信息。

到底什么是“生成式 AI”？ - 8

泥人捏好了，但是现在只能是一个提线木偶，没有任何能力，所以我们就要给他装上大脑。

Step2：装大脑 —— 软件架构构建

软件架构是泥人的大脑，它决定了这个泥人将以什么样的方式对数据进行思考推理。

从仿生学的角度，人类希望 AI 能够模仿人脑的运行机制，对知识进行思考推理 —— 这就是通常所说的深度学习。

到底什么是“生成式 AI”？ - 9

为了实现深度学习，学者们提出了大量的神经网络架构：

深度神经网络（DNN）是最普遍的神经网络架构，但是随着数据对于网路架构的要求越来越复杂，这种方法逐渐有些吃力。

卷积神经网络（CNN）是一种专门为处理图像数据而设计的神经网络架构，能够有效地处理图像数据，但是需要对输入数据进行复杂的预处理。

随着任务复杂度的增加，循环神经网络（RNN）架构成为处理序列数据的常用方法。

由于 RNN 在处理长序列时容易遇到梯度消失和模型退化问题，著名的 Transformer 算法被提出。

到底什么是“生成式 AI”？ - 10

随着算力的发展，生成式 AI 的网络架构发展越来越成熟，也开始各有侧重：

Transformer 架构：是目前文本生成领域的主流架构，GPT、llama2 等 LLM（大语言模型）都是基于 Transformer 实现了卓越的性能。

GANs 架构：在图像生成、视频生成等领域有广泛应用，能够生成高质量的图像和视频内容。

Diffusion 架构：在图像生成、音频生成等领域取得了很好的效果，能够生成高质量、多样化的内容。

到底什么是“生成式 AI”？ - 11

网络架构搭建好了，脑子是有了，但是脑子里空空如也呀。所以我们通过数据训练给这个人造大脑喂知识。

Step3：喂知识 —— 数据训练

目前有两种训练方式：预训练和 SFT（有监督微调）

预训练：是指将一个大型、通用的数据集作为知识喂给 AI 进行初步学习。

经过预训练的模型叫作“基础模型”，它对每个领域都有所了解，但是无法成为某个领域的专家。

SFT：SFT 是指在预训练之后，将一个特定任务的数据集喂给 AI，进一步训练模型。

例如，在已经预训练的语言模型基础上，用专门的医学文本来微调模型，使其更擅长处理医学相关的问答或文本生成任务。

但是，无论是预训练还是 SFT，AI 的大脑是如何吸收这些知识的呢？

到底什么是“生成式 AI”？ - 12

这就涉及到“理解”能力了，我们以 Transformer 架构为例，讲讲 AI 对于文本的理解。

对于 AI 来说，理解分两步：理解词语和理解句子。

理解词语的本质就是词语的归类。研究人员提出了一种方法：将词语在不同维度上进行拆解，从而对词语进行归类。

假设有四个词语：西瓜、草莓、番茄和樱桃。AI 在两个维度上对这些词语拆解：

颜色维度：用 1 代表红色，2 代表绿色。

形状维度：用 1 代表圆形，2 代表椭圆形。

到底什么是“生成式 AI”？ - 13

基于这个维度，AI 对词语进行打分归类。

西瓜：颜色 = 2（绿色），形状 = 1（圆形）

草莓：颜色 = 1（红色），形状 = 2（椭圆形）

番茄：颜色 = 1（红色），形状 = 1（圆形）

樱桃：颜色 = 1（红色），形状 = 1（圆形）

到底什么是“生成式 AI”？ - 14

通过这些打分，我们可以看到词语在不同维度上的分类。

例如，“番茄”和“樱桃”在颜色和形状维度上都是相同的，说明它们在这两个维度上的含义相同；“草莓”和“西瓜”在颜色和形状维度上都有所不同，说明它们在这两个维度上的含义不同。

当然，区分他们的维度不仅仅只有两个，AI 还可以从大小、甜度、是否有籽等大量维度对他们进行打分，从而分类。

只要维度足够多、打分足够准确，AI 模型就可以越精准地理解一个词语的含义。

到底什么是“生成式 AI”？ - 15

对于目前较为先进的 AI 模型来说，通常维度的数量可以达到上千个。

学习词语并理解为量化的结果只完成了第一步，接下来 AI 就需要进一步理解一组词语的合集：句子。

我们知道即使同一个词语在不同语句中，也会具备不同的含义。

例如：

这是一顶绿色的帽子。

到底什么是“生成式 AI”？ - 16

某某公司致力于打造绿色机房。

到底什么是“生成式 AI”？ - 17

在不同句子中，“绿色”这个词含义不同，AI 是如何知道他们有不同的含义呢?

这就得益于 transformer 架构的“自注意力（Self Attention）”机制。

简单来说，当 AI 理解包含了一组词语的句子时，除了理解词语本身，还会“看一看”身边的词。单个词语和句子中其他词语之间的关联性，称之为“注意力”，由于是和同一个句子自身的词语结合理解，所以称之为“自注意力”。

因此，在 Transformer 架构中，可以分为以下两步：

将每个词语转换为一个向量。这个向量表示词语在多维空间中的位置，反映了词语的各种特征。

使用自注意力机制来关注句子中的不同部分。它能够在处理每个词语时，同时考虑句子中其他词语的信息。

Step4：有产出 —— 内容生成

在理解完大量词语、句子之后，AI 就可以生成内容了。它是如何生成内容的呢？

这就是一个概率的问题了。

问大家一个问题：

我在餐厅吃 ×。

× 填个字，你会填什么？

根据你既往的经验，大概率你会填“饭”。

其实，× 还可以是“饼”、“面”、“蛋”等等。

到底什么是“生成式 AI”？ - 18

像人一样，生成式 AI 也会根据它第三步中学到的经验，给这些字加上概率。然后选择概率高的词作为生成的内容。接着，AI 将重复这一过程，选择下一个可能性最高的词语，从而生成更多内容。

但有的时候，我们希望答案是丰富多彩的，回到刚刚那个例子，我们现在不希望 AI 接的下一个字是“饭”，那要怎么办呢?

AI 提供了一个调节参数，叫温度，范围从 0 到 1。

在温度为 0 时，说明匹配概率要选尽量大的，在以上例子中，AI 很可能选择“饭”；

在温度为 1 时，说明匹配概率要选尽量小的，在以上例子中，AI 很可能选择“饼”。

数值越接近 1，得到的内容越天马行空。

比如，温度设为 0.8，那么 AI 生成的句子可能是：

我在餐厅吃饼，这个饼又大又圆，我想把它套在脖子上......

到底什么是“生成式 AI”？ - 19

但是，我们看到大多数 AI 产品，只有一个对话框，如何修改温度参数呢？

答案是“提示词”，也就是我们通常所说的 prompt。

如果你输入是“你是一名某某领域的专家，请用严谨的口吻写一篇关于 xx 的文献综述。”这时 AI 的温度接近 0，就会选择匹配概率尽量高的词语生成句子。

如果你输入是“请你请畅想一下 xx 的未来。”这时 AI 的温度接近 1，就会选择匹配概率尽量低的词语组成句子，生成意想不到的内容。

现在知道 prompt 的重要性了吧！

所以，我们可以认为，AI 生成的本质就是一场词语接龙：AI 根据当前字，联系它之前记录的下个字的出现概率以及你的期望，选择接下来的字。

到底什么是“生成式 AI”？ - 20

当然，生成式 AI 的内部原理远比小编讲的要复杂，小编这里只能算一个基础的科普。

4、“生成式 AI”去向何方？

那么生成式 AI 真的会实现通用人工智能，从而替代人类嘛？目前，有两种看法：

积极派：以 OpenAI 的 CEO Altman、英伟达 CEO 黄仁勋为首的积极派，非常看好生成式 AI 的未来，他们曾表示“再过几年，人工智能将会比现在更加强大和成熟；而再过十年，它定将大放异彩“，“AI 可能在 5 年内超越人类智能”。

到底什么是“生成式 AI”？ - 21

消极派：以深度学习先驱杨立昆为首的消极派，一直认为生成式 AI 无法通向用人工智能。他在多个场合表示“像 ChatGPT 这样的大型语言模型将永远无法达到人类的智能水平”，“人类训练的人工智能，难以超越人类”。

到底什么是“生成式 AI”？ - 22

那么对于我们普通人来说，我们要怎么对待生成式 AI 呢？

文档君觉得，我们普通人不妨就把它当做一个工具，学会使用它，提高我们的工作效率，丰富我们的日常生活，保持对世界的好奇心，充分享受科技带来的便利就好啦！

本文来自微信公众号：中兴文档（ID：ztedoc）

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。

关键词： AI 生成式词语生成维度架构

转载声明：本文为转载发布，仅代表原作者或原平台态度，不代表我方观点。今日澳洲仅提供信息发布平台，文章或有适当删改。对转载有异议和删稿要求的原著方，可联络content@sydneytoday.com。