时至今日,没听说过「大语言模型」、「LLM」的,或者不知道「ChatGPT」「Deepseek」们就是「大语言模型」的,应该是极少数。
可是再深究,什么是大语言模型?大语言模型的原理是什么?大语言模型的核心要素包含了什么?能做到对这些也熟稔于心的,应该也是极少数。
当我带着「弄懂大语言模型、并能快速给别人讲明白」这个目的去试着了解它时,说实话,想完成这个话题还真的挺复杂的。
不过有一点倒是很清晰:「大语言模型」虽然并不是AGI,但是目前的它相比其他AI领域的成果,的确看起来最接近我们所想的那种AGI,甚至某些情况下都快引发恐慌了。
理解大语言模型,有助于理解AGI。
那么开始今天的问题:「大语言模型」(Large Language Model,LLM)。
凡是AI产出,都肯定承载着我们对AGI这个终极梦想上的某个目的。
大语言模型,它承载着的是在「自然语言处理」(Natural Language Processing,NLP)领域,实现「让机器人说人话」的目的。
我们需要的AGI,可能样子千奇百怪、甚至连个实体都没有,但是它起码得能听得懂我们的语言、能自然地和我们对话、回答我们的问题,然后再说能不能给出反馈、能不能解决我们的问题。
而从字面上理解,「大语言模型」占着一个「大」字,又占着「语言模型」,我们需要分开来看。
这个「大」,多数时候我们会认为它在表述的是其如今动不动千亿、万亿的训练参数的规模,但更容易被忽略的,是这个「大」其实还是个相较于「小」的存在,也就是在「大语言模型」参数量并没有做到那么大之前(一般把这个界限定在了10B,也就是百亿以下),「小语言模型」(Small Language Model,SLM)是更早的存在,它应用在某些特定的专业领域或设备,在有限的数据支撑下,从事着一些并不跨界、也没办法跨界的工作,比如,手机语音助手Siri、智能音箱小爱同学等,这都是SLM的代表。
LLM相比这些不能跨领域的SLM,第一个典型特征就是具备了跨领域、跨专业的「通用能力」,在庞大的数据量支撑下,做到了上知天文下知地理。
「庞大的数据」以及「通用能力」,是大语言模型的基础。
是说在这之前就没有足够庞大的数据吗?当然不是。互联网都几十年了,人类文明这都几千年了,数据量是足够的,可是让一个模型能够把这些数据做到融会贯通、随取随用,甚至举一反三、推陈出新,这件事的难度非常高。而倘若实现了这个效果,这个机器人也就能实现NLP的目的了。
这是怎么一步步实现的呢?带着这个问题,我们来理解「语言模型」。
1966年,美国MIT的约瑟夫·魏岑鲍姆做出了世界上第一个聊天机器人,ELIZA,它可以通过设计好的脚本,理解简单的自然语言,并实现一种「互动」体验。为什么说是体验?因为这个互动本来就是脚本设定出来的,是一个冷冰冰的机器在假装有了人性,不恰当地讲,某些情况下和充气娃娃没什么区别。
但在之后很长一段时间里,人类对于这种「聊天机器人」的研究进展,主要都还是集中在了「脚本设定」这个逻辑上,海量的回应需要海量的脚本,一问对应一答。
后来又更进一步的,是以「神经网络」、「神经语言模型」、「Core NLP」等为代表的路线,可以被笼统归为「分析式AI」的范畴,依赖的是循环神经网络(Recurrent Neural Network, RNN)、卷积神经网络(Convolutional Neural Network, CNN)或者长短期记忆(Long Short-Term Memory, LSTM)等技术。它们不再拘泥于一问一答,而是能够基于所提供数据进行分类、预测、决策,因为能够分类且预测了,所以这类模型的回答会比之前更拟真,比如Siri。
不用说,这类技术路线肯定都有着各自的缺陷弊病,导致瓶颈无法突破,反映在对话效果上就是不够自然、不够通用。
经过持续的思考,人类得出的答案是,要想突破瓶颈,只能进行分析、预测是不够的,必须要让模型具备创新能力。这就是相对「分析式AI」的,「生成式AI」。
「生成式AI」(Generative AI),顾名思义就是能够自主直接生成内容的AI,而不只是基于数据的分析、预测、决策,数据对于它来说是学习技能的资料包,而不是说话的唯一信源。因此,相比分析式AI,生成式AI强调能举一反三,要能原创,要能有自己的分析。
确认过眼神,既然生成式AI才是我们想要的,既然RNN、CNN、LSTM无法实现生成式AI,那么就得接着换路线。
新的路线什么时候出现的?
2017年,谷歌发布了一篇名为《Attention is all you need》的论文,文中提出了Attention(注意力)机制,以及基于此机制的「Transformer架构」。
概括来说,相比之前的神经网络路线,Transformer架构以及「注意力机制」的价值在于:
1、实现了对「长距离依赖关系」的建模,比如「猫吃了鱼,因为它饿了」这个句子,此前的RNN等模型下,「它」一般只会指向相近的「鱼」,而Transformer架构下,「它」能够指向更远、但才是其真正所指的「猫」了,这就意味着,Transformer架构能处理长文本;
2、相比神经网络在处理数据时需要顺序处理序列,Transformer架构可以同时处理整个序列,因此在相等算力下,Transformer架构能够处理的参数量也大幅度提升,此前因为无法处理更多数据而只有「小语言模型」、不具备「通用能力」等问题,也有了解决的可能。
2017年的《Attention is all you need》和Transformer架构,改变了这个世界。Transformer架构,让「生成式AI」有了实现的可能。
我们可以基于Transformer架构开始对模型进行海量参数投喂,这个动作学名为「预训练」(Pre-trained)。
现在,我们再梳理一下,截止2017年时,在「让机器人说人话」这件事上,我们已经掌握的:
我们需要它以「生成式AI」(Generative AI)的形式存在,我们可以且会对它投喂海量的训练参数来进行「预训练」(Pre-trained),我们所依赖的,是注意力机制下的「Transformer架构」。
Generative、Pre-trained、Transformer,它们的首字母,即是让「大语言模型」彻底火出圈的、「GPT」的全称。当它被应用在「对话」(Chat)这个单一目的时,产品即为「ChatGPT」。
这个来自「OpenAI」这家公司的大语言模型,以及来自谷歌AI研究院的BERT(Bidirectional Encoder Representation from Transformers),均诞生于2018年,那年的GPT包含的训练参数量仅有1.17亿,等到三年后的2020年GPT-3发布时,这个模型包含的参数量已经进化到了1750亿,这个数量同样也标志着,GPT模型实现了我们梦寐以求的「通用能力」,也即在「自然语言处理领域」的「大语言模型」,我们正式进入了「大语言模型」时代。
多说一句谷歌BERT,这是第一个采用了「预训练+参数微调」的模式,由它开始以及之后的绝大多数大语言模型在进行训练时,基本走的都是这条路。
大语言模型带来的突破,不仅是终于有了个自然的「聊天机器人」那么简单,就比如,GPT是OpenAI家的大语言模型,ChatGPT是OpenAI基于GPT而打造的生成式对话的产品,基于GPT,它还打造了生成视频的Sora、生成图片的DALL·E、生成语音的Whisper、生成全多模态的GPT-4o。
总之,在「生成式AI」这个领域,各家的LLM们纷纷在海量数据投喂后、在掌握了「学习」、「理解」、「分析」、「表达」等能力后,「对话」只是生成成果之一,「图片」、「视频」、「语音」、「音乐」、「论文」、「方案」、「一本书」……能生成的东西可太多了。
而借助Transformer架构、基于大语言模型、循着生成式AI路线所生成的这一切,学名叫「人工智能生成内容」,(Artificial Intelligence Generated Content),简称,「AIGC」。
大语言模型的实现,当然要感谢Transformer架构。
而由LLM,我们人类也彻底见识到了Transformer架构恐怖的进化能力:还是拿GPT举例,2018年GPT参数是1.17亿,2020年是1750亿,2023年是GPT-4是1.8-2万亿,而即将在今年(或明年)发布的GPT5,预计为52万亿。
这种堪称炸裂的递增规模不仅是砸钱那么简单,更不仅意味着Transformer架构拥有海量数据的处理能力、或者让ChatGPT们更自然更全知全能那么简单,更大的恐怖在于,人类意外发现,当基于Transformer架构的大语言模型们在投喂参数突破临界点后,竟纷纷出现了性能的非线性跃升,出现了参数里压根就没有的能力,有的甚至是人类完全没掌握过的内容。
这种跃升,我们叫它,「涌现能力」。无数人,把「涌现能力」当作了那个恐怖的「潘多拉魔盒」。
「预训练」、「参数微调」、「涌现能力」,有关「大语言模型」的关键词我们当然还没有说完,这就留给下一期再展开了。
参考
[1]深入理解Transformer架构:从原理到实践.CNDS.2025
[2]大语言模型.百度百科.2025
[3]LLM(大语言模型)——大模型简介.CNDS.2025
[4]ChatGPT浪潮下,看中国大语言模型产业发展.艾瑞咨询.2025
[5]LLM、SLM、NLP、神经网络、分析式AI、生成式AI、Transformer架构、预训练、AIGC等概念补充生成.腾讯元宝(Deepseek).2025
转载请注明:可思数据 » 一次性弄懂LLM:理解大语言模型,得先理解这些关键词……
免责声明:本站来源的信息均由网友自主投稿和发布、编辑整理上传,或转载于第三方平台,对此类作品本站仅提供交流平台,不为其版权负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。若有来源标注错误或侵犯了您的合法权益,请作者持权属证明与本站联系,我们将及时更正、删除,谢谢。联系邮箱:elon368@sina.com