大模型技术原理第二章

模型架构概览

扩展法则

注意下面的是曲线，因为横轴做了指数化

意义 1739254598361

Chinchilla 发展把参数量和数据规模写到了同一个式子里

两个法则之间的区别：

这导致后面两家公司（google llama 和 openai gpt）的技术路线有不同

可以看出 gpt-3 参数量超过主流基线（gpt-4 的参数量目前未知）

基于 transformer 的三种架构

Encoder-only 架构

需要搭配一个专门的任务处理模块

Decoder-only 架构

解码模块与编码模块的主要区别是带掩码（需要生成上下文，不能提前泄露下文的内容）

交叉注意力模块好像是实现 Encoder 的特征与 Decoder 的特征直接数据交互的

Encoder-Decoder 架构

三种架构对比

基于Encoder-only 架构的模型

Bert

RoBERTa

结构和参数量基本不变，

但是数据扩大了

同时还有以下的区别

对预训练任务也进行了调整

ALBERT

实际就是参数复用

基于Encoder-Decoder 架构的模型

BART 和 T5

BART

T5

——使用一个模型适配多个下游任务

Prompt 工程技术

加前缀

基于Decoder-only架构的模型

GPT-1

GPT-2

GPT-3

InstructGPT 等衍生模型

从这开始 gpt 就不再开源

ChatGPT 及 GPT-4 等模型

LLaMA 模型

LLaMA1 模型

注意仔细看下面的区别：

对 transformer 做了修改

LLaMA2 模型

LLaMA3 模型

Decoder-only 架构总结

Mamda架构

State Space Model（SSM）

n 阶系统，使用 n 个一阶系统进行矩阵表达

这里 h1（t）h2（t）视为状态

这里进行符号重新定义简化下：

这里 h（t）定义如下：

上面的式子怎么用到机器学习呢？

先离散化

零阶状态保持