掘金 人工智能 08月18日
LLM大语言模型入门
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文深入解析了大语言模型(LLM)的核心概念、工作原理及其关键技术。LLM被比作“吃书长大的话痨学霸”,通过海量数据训练,能够处理多模态输入并生成文本、代码等。其核心特征在于巨大的训练数据和参数量,以及长上下文窗口。文章详细介绍了Token作为文本处理的最小单元,词表的作用,以及LLM的文本生成流程——从输入文本到Token化、向量编码、神经网络计算,再到概率预测和最终输出。此外,还阐述了统计预测和机器学习预测的机制,并简述了模型的训练流程。文章最后也指出了LLM的局限性,如实时性、数据依赖和数学能力等,并介绍了AIGC、AGI、Agent、Prompt、LoRA、向量数据库和数据蒸馏等新一代交互模式的关键概念。

💡 LLM的核心在于其庞大的训练数据和参数量,使其能够理解和生成复杂的文本内容。它被形象地比喻为“吃书长大的话痨学霸”,能够处理多模态输入并生成多样化的输出,但需注意其可能出现的“一本正经地胡说八道”。

🔢 LLM处理文本的最小单位是“Token”,它构成了模型计算长度的基础。中文处理中,一个汉字通常约等于1.5个Token。词表则负责存储所有Token与ID的映射关系,并因语言差异(如英文和中文)而有所不同。

⚙️ LLM的工作原理遵循文本生成流程:输入文本经过Token化、向量编码,进入神经网络进行计算,然后进行概率预测,最终生成新的Token构成输出文本。这一过程是自回归的,模型会根据已生成的Token序列来预测下一个Token。

📈 LLM的预测机制包括统计预测和机器学习预测。统计预测依赖于大量数据的分布表,而机器学习预测则通过文本向量化、计算向量间概率/距离来选择最高概率的Token,例如“肚子饿了”之后预测“吃什么”。

⚠️ LLM虽然强大,但也存在局限性,包括无法获取互联网实时数据、仅依赖公开语料库、复杂数学问题准确率低、可能输出虚假信息以及长上下文处理易出现逻辑断裂等问题,这需要通过Agent等方式进行集成和弥补。

什么是LLM大语言模型

核心概念

定义:基于海量数据训练的深度学习模型,可处理文本/音频/视频等多模态输入并生成输出。

简单理解:大语言模型(LLM)就是个「吃书长大的话痨学霸」 🤓📚💬

它像一只 吞了全世界图书馆的电子鹦鹉 🦜,你问它啥,它都能从肚子里(其实是神经网络)掏出一串像模像样的回答,甚至能写诗、编代码、装莎士比亚…
但小心!它偶尔会一本正经地胡说八道 😅(比如告诉你“番茄是蓝色的” —— 因为它只“读书”没亲手摸过番茄)。

核心特征:训练数据大和参数量大

基础单位(Token)

以下是一个词汇表(vocab)的片段示例,展示了token到id的映射关系。包括特殊符号、字节token、英文token和中文token等

{    "vocab": {        # 特殊符号部分        "<unk>": 0,           # 未知符号占位符        "<|startoftext|>": 1, # 文本起始标记                # 字节token(用于处理特殊字符)        "<0x00>": 305,        # 十六进制00的字节表示        "<0x01>": 306,        # 十六进制01的字节表示        # ...(其他字节token)                # 英文token(带_前缀表示单词开头)        "ct": 611,            # 普通英文片段        "__re": 612,          # 单词开头片段(如"re"开头)        # ...(其他英文token)                # 中文token        "安徽省": 28560,       # 中国省份名称        "子和": 28561,         # 中文词汇片段        # ...(其他中文token)    }}

工作原理

(1) 文本生成流程

graph LRA[输入文本] --> B(Token化)B --> C[向量编码]C --> D[神经网络计算]D --> E[概率预测]E --> F[Token生成]F --> G[输出文本]
graph LRA[输入文本: “你是谁”] --> B[词表转换]B --> C[Token ID序列: 154, 5412, 15]C --> D[参数计算]subgraph Transformer模型    D --> E[多层自注意力<br>前馈神经网络]endE --> F[输出概率分布:<br>0.015, 0.0025, 0.005,...]F --> G[选择概率最大的Token]G --> H[输出新Token]H --> I[叠加到输入序列]I --> DH --> J[最终输出文本]

以下是大模型(如Transformer)工作原理的图示说明。图中展示了从输入到输出的自回归生成过程:

(2) 预测机制

1.统计预测:基于历史数据计算下一个token的概率分布

何快速预测下一个 token 是什么呢?一种最简单的办法就是基于统计,通过大量数据的统计,找到下一个 token。

    采集大量文本进行扫描计算,并记录所有片段的输入以及下 一个文本出现的次数,得到一张巨大的分布表。将输入的文本对照分布表查询,找到所有 token 的出现次数 或概率,找到出现次数最大的 token 即为预测结果。

2.机器学习预测

    文本→向量转换计算向量间概率/距离选择最高概率token
graph LR    A[输入文本<br>“肚子饿了”] --> B[Token转换<br>“肚”→123<br>“子”→456<br>“饿”→789<br>“了”→101]    B --> C[模型计算概率分布]    C --> D[“怎么办”:31%]    C --> E[“吃什么”:24.3%]    C --> F[“为什么”:15%]    E --> G[选择Token 243<br>“吃什么”]    G --> H[新输入序列<br>123+456+789+101+243]    H --> I[最终输出<br>“肚子饿了吃什么”]

训练流程

graph TD    A[初始化模型参数] --> B[输入样本: “程”]    B --> C[模型计算输出: “hello”]    C --> D[计算损失<br>比较预测与真实标签]    D --> E{是否达到停止条件?}    E -- 否 --> F[梯度下降更新参数]    F --> B    E -- 是 --> G[停止训练]

5. 核心局限性

限制类型具体表现
实时性无法获取互联网实时数据
数据依赖仅能基于公开语料库回答
环境交互默认无法主动访问外部系统
数学能力复杂数学问题准确率低
可靠性风险可能输出虚假/错误信息
长上下文处理复杂上下文易出现逻辑断裂
交互适配需集成到软件作为AI智能体

二、LLM应用开发关键概念

1. 核心术语

术语定义关键特征
AIGCAI生成内容支持文字/图像/音频/视频生成,ChatGPT是其对话场景实现
AGI人工通用智能终极目标,具备类人的理解/学习/应用能力(非仅内容生成)
Agent智能代理自主感知环境并执行任务的计算实体(如自动驾驶系统)
Prompt提示词人机交互的核心媒介,引导模型生成响应
LoRA插件式微调低秩矩阵分解技术(W≈ABᵀ),显著降低微调成本
向量数据库非结构化数据存储支持图像/音频/文本的相似性检索(如人脸识别)
数据蒸馏数据浓缩技术将大数据集提炼为小数据集,保持模型效果同时降低训练成本

2. 新一代交互模式

模式特点典型场景
嵌入模式AI作为工具,人类主导决策内容创作(小说/3D设计)
副驾驶模式人机协同工作GitHub Copilot编程辅助
智能体模式AI自主完成任务AutoGPT自动目标拆解与执行

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

大语言模型 LLM 人工智能 自然语言处理 AI工作原理
相关文章