DQN Algorithm Explained

About 12,600,000 results

Open links in new tab

Any time

zhihu.com
https://www.zhihu.com › tardis › bd › art
强化学习——从Q-Learning到DQN到底发生了什么？
Sep 3, 2023 · 1 学习目标 1. 复习Q-Learning； 2. 理解什么是值函数近似（Function Approximation）； 3. 理解什么是DQN，弄清它和Q-Learning的区别是什么。 2 用Q-Learning …
zhihu.com
https://www.zhihu.com › question
DQN算法的Q-Loss是否必须收敛？ - 知乎
DQN算法的Q-Loss是否必须收敛？正在研究的问题中使用了DQN算法，我已经调整了一些超参数（网络架构，探索，学习率），每个epiode的奖励在训练期间增加，Q值也在收敛（参见 …
zhihu.com
https://www.zhihu.com › question
DQN 网络的算法原理是怎样的？ - 知乎
DQN即深度Q网络（Deep Q Network），是一种基于价值的算法。对于每一个状态 s 下所有可能动作 a 的动作价值函数 Q_w (s,a) ，可以通过一个神经网络拟合上述函数，该神经网络被称 …
zhihu.com
https://www.zhihu.com › question
关于DQN (deep Q-network)，代码中的参数如何取? - 知乎
Apr 14, 2023 · Deep Q-Network (DQN) 是强化学习算法 Q-learning 的一种深度学习扩展。在 DQN 中，神经网络（通常是卷积神经网络）被用来近似 Q 函数，从而在大规模状态空间和动作 …
zhihu.com
https://www.zhihu.com › question
QR-DQN中的QR（分位数回归）是如何工作的？ - 知乎
QR-DQN 在自举时，对每个分位数都进行更新，以估计下一状态的回报分位数，然后用来更新当前分位数估计。每个输出节点对应一个固定的分位数 \tau_j\。
zhihu.com
https://www.zhihu.com › question
强化学习中，target network究竟在什么情景下使用？ - 知乎
Nov 20, 2023 · 强化学习中，target network究竟在什么情景下使用？为什么在DQN中，需要使用target network来加强训练的稳定性，而Actor-Critic中，critic使用了Q网络，却不需要引入targ…
zhihu.com
https://www.zhihu.com › question
DQN一直不收敛怎么办？ - 知乎
DQN一直不收敛怎么办？在用DQN做课题，调整了各种可能的，包括超参数，神经网络结构（输入层激活函数等），buffer_size，但DQN始终无法收敛，而且求解速度非常慢，求…
zhihu.com
https://www.zhihu.com › question
强化学习是否可以训练买卖股票？ - 知乎
6. 总结展望本文工作将DQN用于资产管理组合，从一组资产中随机抽取单个资产来进行交易作为环境，通过以资产组的平均回报计算奖励，将单个资产环境中的交易回报和投资组合回报联系 …
zhihu.com
https://www.zhihu.com › question
现在的日本家长给小孩取名读音都这么前卫了吗？ - 知乎
Dec 22, 2014 · 另外虽然DQN名字是确实存在的现象，题主的图依然存疑，名字部分不论，但比如女子第九名的姓，田山拼为TANAKA（田中）就很奇怪= = 而且题主给的这个图已经挺老的了 …
zhihu.com
https://www.zhihu.com › question
强化学习是不是主要吃cpu而不怎么吃gpu? - 知乎
之前长期存在的认知是：比较简单的RL tasks（非图像输入，features维度不高，batch size不是特别大）是不需要GPU的。因为这种较简单的tasks，大多不是GPU计算密集型的。与监督学习 …

Pagination
- Next
- Next