直观理解
在DDPG(一种强化学习方法)采集数据过程中,会在actor输出的action上加上随机噪声以获得更好的探索性。
action是一个连续值,下图中的origin表示一个输出序列(一段时间内模型输出的action值)

最简单的加噪声方式就是直接在输出上加随机噪声,例如高斯噪声(第二行图像)
假如此时actor控制的是一个一辆汽车的方向盘,方向盘转动的角度是有限的,所以此时如果采用随机噪声的方式,则会有很多action被clip到最值,也就是浪费了很多探索的机会。
OU噪声的基本思路就是,先将原始值往其历史均值靠拢一点,然后再加噪声,这样一来,噪声被clip的几率就大大减小,同时,还能通过超参数控制将原始值向均值靠拢多少(上图第三行的图)
数学理解
OU噪声公式为:
事实上理解起来相当简单,将其换一种形式写出来就是:
\[ X_{new} – X_{old} = -\theta (X_{old} – \overline X) + βW\]
它分为两部分:\( \theta (X_{old} – \overline X) \) 表示当前输出X与历史均值的差值,前面加个负号表示如果大于均值就往回拉一点,反之亦然。\( βW \) 则表示一个随机噪声(例如高斯噪声)
这里的两个超参数 θ 和 β 分别用来控制 1)往均值方向拉多少。2)添加多大的噪声