ShiSe的notebook

TRPO

正在初始化搜索引擎

ShiSeAB/notebook

HOME
AI
CS课程
论文阅读

ShiSe的notebook

ShiSeAB/notebook

HOME
HOME
AI
AI
- 强化学习
  强化学习
  - 基础知识
  - TRPO TRPO
    目录
    
    Trust Region
    
    TRPO
    
    Approximation
    
    Maximization
  - PPO
- 深度学习
  深度学习
CS课程
CS课程
- 编译原理
  编译原理
  - Introduction
  - 词法分析
  - 语法分析
    语法分析
    
    Top-Down
    
    Bottom-Up
  - 抽象语法
  - 语义分析
  - 活动记录
  - 中间代码生成
  - 基本块
  - 指令选择
  - 活跃变量分析
  - 寄存器分配
  - 垃圾回收
  - 面向对象语言
  - 循环优化
- 自然语言处理导论
  自然语言处理导论
  - 深度学习基础
论文阅读
论文阅读
- RL
  RL
  - DeepSeek-R1
- CoT
  CoT
  - TokenSkip
  - DEER
  - ThoughtTerminator
  - SEAL
  - MRT
- Social
  Social
  - SocialGenome
  - MiMeQA
  - EgoToM
  - TextSocial

目录

Trust Region
TRPO
- Approximation
- Maximization

TRPO¶

Trust Region¶

\(\theta_{old}\) 是当前网络参数的值，定义：

如果存在函数 \(L(\theta|\theta_{old})\) 能够在 \(N(\theta_{old})\) 内很好的近似 \(J(\theta)\) ，那么称 \(N(\theta_{old})\) 为置信域(trust region)。

算法内容：

近似：给定 \(\theta_{old}\) ，构造函数 L 以在 \(\theta_{old}\) 的邻域（trust region）近似函数 J

最大化：在置信域内寻找 L 的最大值，从而得到 \(\theta_{new}\)

TRPO¶

重复 Approxination 和 Maximization 两步。

Approximation¶

已知：\(J(\theta)=E_{S,A}[\frac{\pi(A|S,\theta)}{\pi(A|,S;\theta_{old})}·Q_\pi(S,A)]\)

S 通过环境的 state transition 来抽样
A 通过 Policy \(\pi(A|s;\theta_{old})\) 来抽样

通过蒙特卡洛近似来获取 \(L(\theta|\theta_{old})\) 函数(i为trajectory中的第i步):

将 \(Q_\pi(s_i,a_i)\) 替换成 \(u_i=r_i+\gamma r_{i+1}+\gamma^2 r_{i+2}+...+\gamma^{n-i}·r_n\) (蒙特卡罗近似)

Maximization¶

两个 Option 用于确保 \(\theta\) 在 trust region 内。

更新参数需要多轮。

评论

Copyright © 2023 ~ now | 🚀 Chen Wu (ShiSe)

Made with Material for MkDocs