From f21b8ae430ae1dd76d95c8167ec8bd868fdbb987 Mon Sep 17 00:00:00 2001 From: xiao-ma-gua <17358869549@163.com> Date: Thu, 2 Apr 2026 19:45:12 +0800 Subject: [PATCH] =?UTF-8?q?=E5=B0=86=E5=8F=A5=E5=AD=90=E6=94=B9=E9=80=9A?= =?UTF-8?q?=E9=A1=BA?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- chap12/chap12.tex | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/chap12/chap12.tex b/chap12/chap12.tex index ce319d2..e302d87 100644 --- a/chap12/chap12.tex +++ b/chap12/chap12.tex @@ -93,7 +93,7 @@ \section{奖励信号、强化信号、价值和预测误差} \label{sec:reward_ 神经科学和计算强化学习之间的联系始于大脑中的信号与在强化学习理论和算法中发挥重要作用的信号之间的相似之处。 在有限马尔可夫决策过程中,任何学习目标导向行为的问题都可以归结为代表动作、状态和奖励的三个信号。 -然而,为了解释神经科学和强化学习之间的联系,我们必须不那么抽象,而是考虑在某些方面与大脑中的信号相对应的其他强化学习信号。 +然而,为了解释神经科学和强化学习之间的联系,我们不能那么抽象,而是考虑在某些方面与大脑中的信号相对应的其他强化学习信号。 除了奖励信号之外,这些信号还包括强化信号(我们认为这与奖励信号不同)、价值信号和传达预测误差的信号。 当我们以这种方式通过信号的函数来标记信号时,我们是在强化学习理论的背景下进行的,在该理论中,信号对应于方程或算法中的一个项。 另一方面,当我们提到大脑中的信号时,我们指的是一种生理事件,如动作电位的爆发或神经递质的分泌。