注意下面的是曲线,因为横轴做了指数化
意义 
Chinchilla 发展把参数量和数据规模写到了同一个式子里
两个法则之间的区别:
这导致后面两家公司(google llama 和 openai gpt)的技术路线有不同
可以看出 gpt-3 参数量超过主流基线(gpt-4 的参数量目前未知)
需要搭配一个专门的任务处理模块
解码模块与编码模块的主要区别是带掩码(需要生成上下文,不能提前泄露下文的内容)
交叉注意力模块 好像是实现 Encoder 的特征与 Decoder 的特征直接数据交互的
结构和参数量基本不变,
但是数据扩大了
同时还有以下的区别
实际就是参数复用
——使用一个模型适配多个下游任务
加前缀
从这开始 gpt 就不再开源
对 transformer 做了修改
n 阶系统,使用 n 个一阶系统进行矩阵表达
这里 h1(t)h2(t)视为状态
这里进行符号重新定义简化下:
这里 h(t)定义如下:
上面的式子怎么用到机器学习呢?
先离散化
零阶状态保持