对大家有帮助的问答会被标记为“推荐”,看完课程过来浏览一下别人提的问题,会帮你学得更全面
老师,请问能推荐一些强化学习的教材吗?希望能够自己闲暇时看看书。
Pendulum的action的取值怎么就可以确定是一个符合N(μ,σ)的正态分布
neg_log_prob = tf.nn.sparse_softmax_cross_entropy_with_logits(logits=all_act, labels=self.tf_acts)
使用这个交叉熵计算loss,在模型迭代的时候一直迭代学习到reward=9,奖励值就不变了
QLearn.RL_brain 这个库文件怎么安装?