avatar
Articles
165
Tags
34
Categories
0

Home
Archives
Tags
Categories
List
  • Music
  • Movie
Link
About
ALTNT's Hexo Blog
Home
Archives
Tags
Categories
List
  • Music
  • Movie
Link
About

大模型技术原理第一章

Created2025-02-10|Updated2025-02-25
|Post Views:
Author: ALTNT
Link: http://blog.705553939.xyz/2025/02/10/%E8%B5%84%E6%96%99/%E5%A4%A7%E6%A8%A1%E5%9E%8B/%E7%AC%AC%E4%B8%80%E7%AB%A0/
Copyright Notice: All articles in this blog are licensed under CC BY-NC-SA 4.0 unless stating additionally.
资料大模型LLM
Previous
大模型技术原理第二章
Next
周报2025年2月9日
Related Articles
2025-02-10
大模型技术原理第二章
2025-03-10
大模型技术原理第五章
2025-03-25
大模型技术原理第六章
2025-02-12
大模型技术原理第四章
2025-02-12
大模型技术原理第三章
2024-11-11
命令
avatar
ALTNT
Articles
165
Tags
34
Categories
0
Follow Me
Announcement
This is my Blog
Contents
  1. 1. 大模型技术原理第一章
    1. 1.1. 序言
      1. 1.1.1. 分类
    2. 1.2. 基于统计的语言模型
      1. 1.2.1. 最有名的 n-gram
    3. 1.3. 基于学习的语言模型
      1. 1.3.1. 假设类
      2. 1.3.2. 归纳偏置
    4. 1.4. RNN 与 transformer
      1. 1.4.1. RNN
        1. 1.4.1.1. RNN的缺陷——梯度爆炸
        2. 1.4.1.2. 针对梯度爆炸进行改进——LSTM
          1. 1.4.1.2.1. 解决梯度爆炸的原理
          2. 1.4.1.2.2. lstm遗忘门
          3. 1.4.1.2.3. lstm 输入门
          4. 1.4.1.2.4. lstm 输出门
        3. 1.4.1.3. GRU
      2. 1.4.2. Transformer
      3. 1.4.3. 语言模型的训练
        1. 1.4.3.1. 训练过程1——自回归过程
        2. 1.4.3.2. 自回归的问题
        3. 1.4.3.3. 训练过程 2——Teacher Forcing
        4. 1.4.3.4. Teacher Forcing的问题
    5. 1.5. 语言模型的采样和评测
      1. 1.5.1. 采样
        1. 1.5.1.1. 概率最大化方法
          1. 1.5.1.1.1. 贪心搜索的问题
          2. 1.5.1.1.2. 波束搜索
          3. 1.5.1.1.3. 概率最大化方法总的问题
        2. 1.5.1.2. 随机采样方法
          1. 1.5.1.2.1. top-k采样方法
          2. 1.5.1.2.2. top-k采样方法的问题
          3. 1.5.1.2.3. top-k采样方法的问题的改进——top-p 方法
          4. 1.5.1.2.4. Temperature 机制
      2. 1.5.2. 评测
        1. 1.5.2.1. 内在评测
          1. 1.5.2.1.1. 困惑度
        2. 1.5.2.2. 外在评测
          1. 1.5.2.2.1. 基于统计指标的评测——BLEU
          2. 1.5.2.2.2. 基于语言模型的评测
            1. 1.5.2.2.2.1. (1)基于上下文嵌入的评测
            2. 1.5.2.2.2.2. (2)基于生成模型的评测
Recent Post
周报2025年6月8日2025-06-09
The 20 m Africa rice distribution map of 20232025-06-04
DCM————DeepCropMapping: A multi-temporal deep learning approach with improved spatial generalizability for dynamic corn and soybean mapping2025-06-04
重新复现CACM记录2025-06-04
机器学习相关概念2025-05-26
©2020 - 2025 By ALTNT
Framework Hexo|Theme Butterfly