一次性弄懂LLM：理解大语言模型，得先理解这些关键词……_可思数据

时至今日，没听说过「大语言模型」、「LLM」的，或者不知道「ChatGPT」「Deepseek」们就是「大语言模型」的，应该是极少数。

可是再深究，什么是大语言模型？大语言模型的原理是什么？大语言模型的核心要素包含了什么？能做到对这些也熟稔于心的，应该也是极少数。

当我带着「弄懂大语言模型、并能快速给别人讲明白」这个目的去试着了解它时，说实话，想完成这个话题还真的挺复杂的。

不过有一点倒是很清晰：「大语言模型」虽然并不是AGI，但是目前的它相比其他AI领域的成果，的确看起来最接近我们所想的那种AGI，甚至某些情况下都快引发恐慌了。

一次性弄懂LLM：理解大语言模型，得先理解这些关键词

理解大语言模型，有助于理解AGI。

那么开始今天的问题：「大语言模型」（Large Language Model，LLM）。

凡是AI产出，都肯定承载着我们对AGI这个终极梦想上的某个目的。

大语言模型，它承载着的是在「自然语言处理」（Natural Language Processing，NLP）领域，实现「让机器人说人话」的目的。

我们需要的AGI，可能样子千奇百怪、甚至连个实体都没有，但是它起码得能听得懂我们的语言、能自然地和我们对话、回答我们的问题，然后再说能不能给出反馈、能不能解决我们的问题。

而从字面上理解，「大语言模型」占着一个「大」字，又占着「语言模型」，我们需要分开来看。

这个「大」，多数时候我们会认为它在表述的是其如今动不动千亿、万亿的训练参数的规模，但更容易被忽略的，是这个「大」其实还是个相较于「小」的存在，也就是在「大语言模型」参数量并没有做到那么大之前（一般把这个界限定在了10B，也就是百亿以下），「小语言模型」（Small Language Model，SLM）是更早的存在，它应用在某些特定的专业领域或设备，在有限的数据支撑下，从事着一些并不跨界、也没办法跨界的工作，比如，手机语音助手Siri、智能音箱小爱同学等，这都是SLM的代表。

LLM相比这些不能跨领域的SLM，第一个典型特征就是具备了跨领域、跨专业的「通用能力」，在庞大的数据量支撑下，做到了上知天文下知地理。

「庞大的数据」以及「通用能力」，是大语言模型的基础。

是说在这之前就没有足够庞大的数据吗？当然不是。互联网都几十年了，人类文明这都几千年了，数据量是足够的，可是让一个模型能够把这些数据做到融会贯通、随取随用，甚至举一反三、推陈出新，这件事的难度非常高。而倘若实现了这个效果，这个机器人也就能实现NLP的目的了。

这是怎么一步步实现的呢？带着这个问题，我们来理解「语言模型」。

1966年，美国MIT的约瑟夫·魏岑鲍姆做出了世界上第一个聊天机器人，ELIZA，它可以通过设计好的脚本，理解简单的自然语言，并实现一种「互动」体验。为什么说是体验？因为这个互动本来就是脚本设定出来的，是一个冷冰冰的机器在假装有了人性，不恰当地讲，某些情况下和充气娃娃没什么区别。

但在之后很长一段时间里，人类对于这种「聊天机器人」的研究进展，主要都还是集中在了「脚本设定」这个逻辑上，海量的回应需要海量的脚本，一问对应一答。

后来又更进一步的，是以「神经网络」、「神经语言模型」、「Core NLP」等为代表的路线，可以被笼统归为「分析式AI」的范畴，依赖的是循环神经网络（Recurrent Neural Network, RNN）、卷积神经网络（Convolutional Neural Network, CNN）或者长短期记忆（Long Short-Term Memory, LSTM）等技术。它们不再拘泥于一问一答，而是能够基于所提供数据进行分类、预测、决策，因为能够分类且预测了，所以这类模型的回答会比之前更拟真，比如Siri。

不用说，这类技术路线肯定都有着各自的缺陷弊病，导致瓶颈无法突破，反映在对话效果上就是不够自然、不够通用。

经过持续的思考，人类得出的答案是，要想突破瓶颈，只能进行分析、预测是不够的，必须要让模型具备创新能力。这就是相对「分析式AI」的，「生成式AI」。

「生成式AI」（Generative AI），顾名思义就是能够自主直接生成内容的AI，而不只是基于数据的分析、预测、决策，数据对于它来说是学习技能的资料包，而不是说话的唯一信源。因此，相比分析式AI，生成式AI强调能举一反三，要能原创，要能有自己的分析。

确认过眼神，既然生成式AI才是我们想要的，既然RNN、CNN、LSTM无法实现生成式AI，那么就得接着换路线。

新的路线什么时候出现的？

2017年，谷歌发布了一篇名为《Attention is all you need》的论文，文中提出了Attention（注意力）机制，以及基于此机制的「Transformer架构」。

概括来说，相比之前的神经网络路线，Transformer架构以及「注意力机制」的价值在于：

1、实现了对「长距离依赖关系」的建模，比如「猫吃了鱼，因为它饿了」这个句子，此前的RNN等模型下，「它」一般只会指向相近的「鱼」，而Transformer架构下，「它」能够指向更远、但才是其真正所指的「猫」了，这就意味着，Transformer架构能处理长文本；

2、相比神经网络在处理数据时需要顺序处理序列，Transformer架构可以同时处理整个序列，因此在相等算力下，Transformer架构能够处理的参数量也大幅度提升，此前因为无法处理更多数据而只有「小语言模型」、不具备「通用能力」等问题，也有了解决的可能。

2017年的《Attention is all you need》和Transformer架构，改变了这个世界。Transformer架构，让「生成式AI」有了实现的可能。

我们可以基于Transformer架构开始对模型进行海量参数投喂，这个动作学名为「预训练」（Pre-trained）。

现在，我们再梳理一下，截止2017年时，在「让机器人说人话」这件事上，我们已经掌握的：

我们需要它以「生成式AI」（Generative AI）的形式存在，我们可以且会对它投喂海量的训练参数来进行「预训练」（Pre-trained），我们所依赖的，是注意力机制下的「Transformer架构」。

Generative、Pre-trained、Transformer，它们的首字母，即是让「大语言模型」彻底火出圈的、「GPT」的全称。当它被应用在「对话」（Chat）这个单一目的时，产品即为「ChatGPT」。

这个来自「OpenAI」这家公司的大语言模型，以及来自谷歌AI研究院的BERT（Bidirectional Encoder Representation from Transformers），均诞生于2018年，那年的GPT包含的训练参数量仅有1.17亿，等到三年后的2020年GPT-3发布时，这个模型包含的参数量已经进化到了1750亿，这个数量同样也标志着，GPT模型实现了我们梦寐以求的「通用能力」，也即在「自然语言处理领域」的「大语言模型」，我们正式进入了「大语言模型」时代。

多说一句谷歌BERT，这是第一个采用了「预训练+参数微调」的模式，由它开始以及之后的绝大多数大语言模型在进行训练时，基本走的都是这条路。

大语言模型带来的突破，不仅是终于有了个自然的「聊天机器人」那么简单，就比如，GPT是OpenAI家的大语言模型，ChatGPT是OpenAI基于GPT而打造的生成式对话的产品，基于GPT，它还打造了生成视频的Sora、生成图片的DALL·E、生成语音的Whisper、生成全多模态的GPT-4o。

总之，在「生成式AI」这个领域，各家的LLM们纷纷在海量数据投喂后、在掌握了「学习」、「理解」、「分析」、「表达」等能力后，「对话」只是生成成果之一，「图片」、「视频」、「语音」、「音乐」、「论文」、「方案」、「一本书」……能生成的东西可太多了。

而借助Transformer架构、基于大语言模型、循着生成式AI路线所生成的这一切，学名叫「人工智能生成内容」，（Artificial Intelligence Generated Content），简称，「AIGC」。

大语言模型的实现，当然要感谢Transformer架构。

而由LLM，我们人类也彻底见识到了Transformer架构恐怖的进化能力：还是拿GPT举例，2018年GPT参数是1.17亿，2020年是1750亿，2023年是GPT-4是1.8-2万亿，而即将在今年（或明年）发布的GPT5，预计为52万亿。

这种堪称炸裂的递增规模不仅是砸钱那么简单，更不仅意味着Transformer架构拥有海量数据的处理能力、或者让ChatGPT们更自然更全知全能那么简单，更大的恐怖在于，人类意外发现，当基于Transformer架构的大语言模型们在投喂参数突破临界点后，竟纷纷出现了性能的非线性跃升，出现了参数里压根就没有的能力，有的甚至是人类完全没掌握过的内容。

这种跃升，我们叫它，「涌现能力」。无数人，把「涌现能力」当作了那个恐怖的「潘多拉魔盒」。

「预训练」、「参数微调」、「涌现能力」，有关「大语言模型」的关键词我们当然还没有说完，这就留给下一期再展开了。

参考

[1]深入理解Transformer架构：从原理到实践.CNDS.2025

[2]大语言模型.百度百科.2025

[3]LLM（大语言模型）——大模型简介.CNDS.2025

[4]ChatGPT浪潮下，看中国大语言模型产业发展.艾瑞咨询.2025

[5]LLM、SLM、NLP、神经网络、分析式AI、生成式AI、Transformer架构、预训练、AIGC等概念补充生成.腾讯元宝（Deepseek）.2025

转载请注明：可思数据 » 一次性弄懂LLM：理解大语言模型，得先理解这些关键词……

免责声明：本站来源的信息均由网友自主投稿和发布、编辑整理上传，或转载于第三方平台，对此类作品本站仅提供交流平台，不为其版权负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。若有来源标注错误或侵犯了您的合法权益，请作者持权属证明与本站联系，我们将及时更正、删除，谢谢。联系邮箱：elon368@sina.com

可思数据

相关文章