Skip to content
我有点酷

我有点酷

woyou.cool

  • Home
  • Toolkit
    • Board
    • SimpliSync
    • Music
    • 无聊图
    • files
    • 说明
  • AboutMe
  • Privacy Policy

reinforce learning

DDPG训练时如何判断有效收敛

2023-07-12 by hunt

摆烂用于避免损失

Categories 机器学习 Tags reinforce learning Leave a comment

DDPG中各trick效果对比

2023-07-06 by hunt

难怪我前面那么多实验都失败了

Categories 机器学习 Tags reinforce learning Leave a comment

Ornstein Uhlenbeck 噪声

2023-07-05 by hunt

带方向的噪声

Categories 机器学习 Tags reinforce learning Leave a comment

Actor-Critic优缺点

2023-06-28 by hunt

增程式汽车

Categories 机器学习 Tags reinforce learning Leave a comment

SAC、TD3、DDPG

2023-06-262023-06-26 by hunt

SAC和TD3是DDPG的升级

Categories 机器学习 Tags reinforce learning Leave a comment

policy gradient处理连续动作空间

2023-06-26 by hunt

仍然是想办法转换为概率

Categories 机器学习 Tags reinforce learning Leave a comment

PPO:on policy OR off policy?

2023-06-24 by hunt

两者都是对的,只是理解的方式不同

Categories 机器学习 Tags reinforce learning Leave a comment

正梯度仍然使得policy的probability增大

2023-06-152023-06-14 by hunt

学习率是一个非常重要的超参数

Categories 机器学习 Tags reinforce learning Leave a comment
Older posts
Page1 Page2 Next →

Categories

  • 吐槽
  • 工程技术
  • 文摘
  • 无聊图
  • 机器学习
  • 杂记
  • 理论研究
  • 计算机视觉
  • 量化交易
© 2023 我有点酷 • Built with GeneratePress