Vés al contingut

State–action–reward–state–action: historial de revisions

Selecció de diferències: Marqueu els botons corresponents de les revisions per comparar i premeu Intro o el botó inferior. Llegenda: (act) = diferències amb la revisió actual, (prev) = diferències amb revisió anterior, m = edició menor.

(les més noves | les més antigues) Mostra (50 posteriors | ) (20 | 50 | 100 | 250 | 500)

1 juny 2024

21 maig 2024

13 des 2023

5 des 2023

27 nov 2023

9 ago 2023

17 maig 2023

30 des 2022

1 nov 2022

31 oct 2022

3 jul 2022

2 jul 2022

4 maig 2022

5 des 2021

29 set 2021

12 jul 2021

6 maig 2021

4 març 2021

6 gen 2021

5 des 2020

21 set 2020

7 jul 2020

3 jul 2020

3 maig 2020

6 feb 2020

3 des 2019

26 nov 2019

17 oct 2019

10 jul 2019

5 jul 2019

26 feb 2019

15 feb 2019

9 nov 2018

10 jul 2018

11 març 2018

9 març 2018

28 feb 2018

6 feb 2018

3 feb 2018

1 feb 2018

29 oct 2017

  • actprev 10:0910:09, 29 oct 20172.242.24.134 discussió 4.767 octets +4 corrected the formular according to: http://incompleteideas.net/sutton/book/ebook/node64.html . r_t or r_{t+1} depends on whether the environment reacts instantaneaously or one time step later. it appears to make more sense to assume a temporal delay. desfés

20 set 2017

4 jul 2017

10 maig 2017

22 març 2017

  • actprev 23:0523:05, 22 març 2017JGMath discussió contribucions 4.760 octets −4 The formula should be r_t, not r_{t+1}. r_t captures the reward at t and \gamma Q(s_{t+1}, a_{t+1}) captures the discounted future reward. The incorrect version that was posted is double-counting the reward at time t+1 because it's in r and Q. desfés
(les més noves | les més antigues) Mostra (50 posteriors | ) (20 | 50 | 100 | 250 | 500)