Articles
165
Tags
34
Categories
0
Home
Archives
Tags
Categories
List
Music
Movie
Link
About
ALTNT's Hexo Blog
Home
Archives
Tags
Categories
List
Music
Movie
Link
About
大模型技术原理第一章
Created
2025-02-10
|
Updated
2025-02-25
|
Post Views:
Hey, password is required here.
Author:
ALTNT
Link:
http://blog.705553939.xyz/2025/02/10/%E8%B5%84%E6%96%99/%E5%A4%A7%E6%A8%A1%E5%9E%8B/%E7%AC%AC%E4%B8%80%E7%AB%A0/
Copyright Notice:
All articles in this blog are licensed under
CC BY-NC-SA 4.0
unless stating additionally.
资料
大模型
LLM
Previous
大模型技术原理第二章
Next
周报2025年2月9日
Related Articles
2025-02-10
大模型技术原理第二章
2025-03-10
大模型技术原理第五章
2025-03-25
大模型技术原理第六章
2025-02-12
大模型技术原理第四章
2025-02-12
大模型技术原理第三章
2024-11-11
命令
ALTNT
Articles
165
Tags
34
Categories
0
Follow Me
Announcement
This is my Blog
Contents
1.
大模型技术原理第一章
1.1.
序言
1.1.1.
分类
1.2.
基于统计的语言模型
1.2.1.
最有名的 n-gram
1.3.
基于学习的语言模型
1.3.1.
假设类
1.3.2.
归纳偏置
1.4.
RNN 与 transformer
1.4.1.
RNN
1.4.1.1.
RNN的缺陷——梯度爆炸
1.4.1.2.
针对梯度爆炸进行改进——LSTM
1.4.1.2.1.
解决梯度爆炸的原理
1.4.1.2.2.
lstm遗忘门
1.4.1.2.3.
lstm 输入门
1.4.1.2.4.
lstm 输出门
1.4.1.3.
GRU
1.4.2.
Transformer
1.4.3.
语言模型的训练
1.4.3.1.
训练过程1——自回归过程
1.4.3.2.
自回归的问题
1.4.3.3.
训练过程 2——Teacher Forcing
1.4.3.4.
Teacher Forcing的问题
1.5.
语言模型的采样和评测
1.5.1.
采样
1.5.1.1.
概率最大化方法
1.5.1.1.1.
贪心搜索的问题
1.5.1.1.2.
波束搜索
1.5.1.1.3.
概率最大化方法总的问题
1.5.1.2.
随机采样方法
1.5.1.2.1.
top-k采样方法
1.5.1.2.2.
top-k采样方法的问题
1.5.1.2.3.
top-k采样方法的问题的改进——top-p 方法
1.5.1.2.4.
Temperature 机制
1.5.2.
评测
1.5.2.1.
内在评测
1.5.2.1.1.
困惑度
1.5.2.2.
外在评测
1.5.2.2.1.
基于统计指标的评测——BLEU
1.5.2.2.2.
基于语言模型的评测
1.5.2.2.2.1.
(1)基于上下文嵌入的评测
1.5.2.2.2.2.
(2)基于生成模型的评测
Recent Post
周报2025年6月8日
2025-06-09
The 20 m Africa rice distribution map of 2023
2025-06-04
DCM————DeepCropMapping: A multi-temporal deep learning approach with improved spatial generalizability for dynamic corn and soybean mapping
2025-06-04
重新复现CACM记录
2025-06-04
机器学习相关概念
2025-05-26