Skip to content
Merged
Changes from all commits
Commits
File filter

Filter by extension

Filter by extension

Conversations
Failed to load comments.
Loading
Jump to
Jump to file
Failed to load files.
Loading
Diff view
Diff view
2 changes: 1 addition & 1 deletion chap12/chap12.tex
Original file line number Diff line number Diff line change
Expand Up @@ -93,7 +93,7 @@ \section{奖励信号、强化信号、价值和预测误差} \label{sec:reward_

神经科学和计算强化学习之间的联系始于大脑中的信号与在强化学习理论和算法中发挥重要作用的信号之间的相似之处。
在有限马尔可夫决策过程中,任何学习目标导向行为的问题都可以归结为代表动作、状态和奖励的三个信号。
然而,为了解释神经科学和强化学习之间的联系,我们必须不那么抽象,而是考虑在某些方面与大脑中的信号相对应的其他强化学习信号。
然而,为了解释神经科学和强化学习之间的联系,我们不能那么抽象,而是考虑在某些方面与大脑中的信号相对应的其他强化学习信号。
除了奖励信号之外,这些信号还包括强化信号(我们认为这与奖励信号不同)、价值信号和传达预测误差的信号。
当我们以这种方式通过信号的函数来标记信号时,我们是在强化学习理论的背景下进行的,在该理论中,信号对应于方程或算法中的一个项。
另一方面,当我们提到大脑中的信号时,我们指的是一种生理事件,如动作电位的爆发或神经递质的分泌。
Expand Down
Loading