> **å‰è¨€ï¼š** 本次笔记对《强化å¦ä¹ ï¼ˆç¬¬äºŒç‰ˆï¼‰ã€‹ç¬¬å…«ç« è¿›è¡Œæ¦‚æ‹¬æ€§æ述。åŒæ—¶ï¼Œä¹Ÿå¯¹æœ¬ä¹¦çš„ç¬¬ä¸€éƒ¨åˆ†ï¼ˆå…±ä¸‰éƒ¨åˆ†ï¼‰è¡¨æ ¼åž‹æ±‚è§£æ–¹æ³•è¿›è¡Œäº†ç³»ç»Ÿæ€§é˜è¿°ã€‚ *以下概括都是基于我个人的ç†è§£ï¼Œå¯èƒ½æœ‰è¯¯ï¼Œæ¬¢è¿Žäº¤æµï¼špiperliu@qq.com。* **** ### 一ã€è¡¨æ ¼åž‹æ±‚解方法梳ç†çŸ¥è¯† #### ç¬¬äºŒåˆ°ä¸ƒç« çŸ¥è¯†æ€»ç»“ ç¬¬å…«ç« å¦ä¹ 完æˆåŽï¼Œæ ‡å¿—ç€ä¹¦ä¸ç¬¬I部分 **è¡¨æ ¼åž‹æ±‚è§£æ–¹æ³•** 的完结,目å‰å·²å¦ä¹ 到的知识包括: - **多臂赌åšæœºé—®é¢˜ï¼š** 在一个稳定的å•çŠ¶æ€çŽ¯å¢ƒä¸ï¼Œå¦‚何评估å„动作价值,并进行控制(选择下一动作,试探 exploration è¿˜æ˜¯å¼€å‘ exploitation,开å‘çš„ä¾æ®æ˜¯ä»€ä¹ˆï¼‰ï¼› - **有é™é©¬å°”科夫决ç–过程:** 如何对环境ã€åŠ¨ä½œã€æ”¶ç›Šå»ºæ¨¡ï¼ˆå¦‚何把待解决问题抽象æˆæ•°å¦ä¸Šçš„表达)?什么是幕 episode ?强化å¦ä¹ çš„åŸºæœ¬å…ƒç´ æœ‰ï¼Ÿ - **动æ€è§„划:** 在环境已知的æ¡ä»¶ä¸‹ï¼ˆä»€ä¹ˆæ˜¯çŽ¯å¢ƒå·²çŸ¥ï¼šçŠ¶æ€è½¬ç§»æ¦‚率已知,且环境稳定ä¸éšæœºå˜åŠ¨ï¼›æˆ–者说状æ€è½¬ç§»å¯ä»¥ç”¨æ¦‚率æ述),如何评估基于æŸç–略的状æ€çš„价值 $v_\pi(s)$ ?如何评估基于æŸç–略的,在æŸçŠ¶æ€ä¸‹é€‰æ‹©è¯¥åŠ¨ä½œçš„价值 $q_\pi(s,a)$ ?并且,如何通过è¿ä»£ï¼Œé€¼è¿‘该环境下的最优ç–略(得到最优ç–略,å«åšæŽ§åˆ¶ï¼‰ï¼Ÿ - **蒙特å¡æ´›æ–¹æ³•ï¼š** 在环境ä¸å¯çŸ¥çš„æ¡ä»¶ä¸‹ï¼Œå¯ä»¥é€šè¿‡ä¸ŽçŽ¯å¢ƒçš„交æ¢èŽ·å–ä¿¡æ¯ã€‚那么,这ç§æ¡ä»¶ä¸‹å¦‚何进行 $v_\pi(s)$ 〠$q_\pi(s,a)$ 的评估?蒙特å¡æ´›æ–¹æ³•åŸºäºŽå¾ˆå¤šå¹•çš„æ•°æ®è¿›è¡Œâ€œå¦ä¹ â€ã€‚环境对于动作的选择是基于我们è¦è¯„ä¼°çš„ç–ç•¥ $\pi$ 的,称之为åŒè½¨ç–ç•¥ on-policy ,å¦åˆ™ç§°ä¹‹ä¸º 离轨ç–ç•¥ off-policy 。è¦å®žçŽ°ç¦»è½¨ç–略下的控制,就必须对交互得到的信æ¯è¿›è¡Œå¤„ç†ï¼Œä¸€èˆ¬åœ°ï¼Œæˆ‘ä»¬ä½¿ç”¨é‡‡æ ·çŽ‡ sampling ratio 进行处ç†ã€‚ - **æ—¶åºå·®åˆ†å¦ä¹ :** 蒙特å¡æ´›æ–¹æ³•è¦æ±‚到幕结æŸæ—¶ï¼Œæ‰å¯ä½¿ç”¨å¹•çš„过程ä¸çš„ä¿¡æ¯ã€‚有没有å¯ä»¥ä¸ç”¨ç‰åˆ°å¹•ç»“æŸï¼Œç«‹å³æ›´æ–°å¯¹ä»·å€¼çš„评估的方法呢?时åºå·®åˆ†å¦ä¹ 给出了ç”案。这涉åŠåˆ°äº†ä¸€ä¸ªé—®é¢˜ï¼šä¸ºäº†æ›´æ–°å½“å‰çŠ¶æ€/动作的价值,那就è¦ç”¨åˆ°ä¸‹ä¸€æ¥çŠ¶æ€çš„价值,如何评估下一æ¥çŠ¶æ€çš„价值? Sarsa 〠Q-Learning 〠期望 Sarsa 给出了å‚考。åŒæ ·ï¼Œåœ¨æŽ§åˆ¶ä¸ï¼Œè®¨è®ºäº†åŒè½¨ç–略与离轨ç–略。并且,在å¯èƒ½äº§ç”Ÿæœ€å¤§åŒ–å差的背景介ç»ä¸‹ï¼Œä»‹ç»äº†åŒå¦ä¹ 这个解决办法,åŒå¦ä¹ çš„æœŸæœ›æ˜¯æ— å的。 - **n æ¥è‡ªä¸¾æ³•ï¼š** 蒙特å¡æ´›æ–¹æ³•ç‰åˆ°å¹•ç»“æŸï¼Œæ—¶åºå·®åˆ†å¦ä¹ ç«‹å³æ›´æ–°ï¼Œä½†äº‹å®žè¯æ˜Žï¼ŒåŸºäºŽä¸¤ç§ä¹‹é—´çš„å¦ä¹ 方法好于两者,å³å¹¶éžâ€œæ— é™æ¥ç›´åˆ°å¹•ç»“æŸâ€æˆ–“1æ¥â€ï¼Œä½¿ç”¨næ¥æœ€å¥½ã€‚这涉åŠåˆ°å¤šä¸ªç»“点,æ¯ä¸ªç»“点采用何ç§è§„则回溯,æ¥è¯„估当å‰ä»·å€¼çŠ¶æ€å‘¢ï¼Ÿæœ‰é‡‡æ ·çŽ‡ã€æ ‘回溯ã€é‡‡æ ·çŽ‡+期望ã€äº¤å‰è¿›è¡ŒæœŸæœ›ä¸Žé‡‡æ ·çŽ‡ç‰ç‰æ–¹æ³•ã€‚ å¯ä»¥æ³¨æ„到,åŽä¸‰ç« **蒙特å¡æ´›æ–¹æ³•ã€æ—¶åºå·®åˆ†å¦ä¹ ã€n æ¥è‡ªä¸¾æ³•**并ä¸åŸºäºŽè§„划,å³ï¼Œ**æ— éœ€å¯¹çŽ¯å¢ƒå»ºæ¨¡**,åªéœ€è¦åˆ©ç”¨çŽ¯å¢ƒçš„ output 与 input å°±å¯ä»¥è¿›è¡Œå¦ä¹ 。 **ä½†ç¬¬å…«ç« åˆå›žåˆ°äº†è§„划上。** #### ç¬¬å…«ç« ï¼šä¸ŽäºŒåˆ°ä¸ƒç« çš„å…³ç³» 尽管è¦ç”¨åˆ°æ¨¡åž‹ï¼ˆä¸Žè§„åˆ’ï¼‰ï¼Œä½†æ˜¯ç¬¬å…«ç« ä¸çš„æ¡ä»¶å¹¶ä¸éœ€è¦åƒç¬¬å››ç« **动æ€è§„划**ä¸é‚£æ ·è‹›åˆ»ï¼š - ä¸çŸ¥é“环境的完备模型也行,我å¯ä»¥è‡ªå·±ä»¿çœŸä¸€ä¸ªçŽ¯å¢ƒï¼Œå¯¹â€œä»¿çœŸç³»ç»Ÿâ€è¿›è¡Œè¾“入输出,æ¥å¦ä¹ å„个状æ€/动作的价值; - 现在有了(仿真好的)环境,也**未必è¦ä½¿ç”¨ä¼ 统动æ€è§„划的更新方法(期望更新)**,对æ¯ä¸ªåèŠ‚ç‚¹åŠ æƒæ±‚和(å³æ±‚çˆ¶ç»“ç‚¹æœŸæœ›ï¼‰ï¼Œå› ä¸ºçŽ¯å¢ƒå¯èƒ½å¾ˆå¤æ‚,而很多状æ€æ˜¯æ— 用的(任何一ç§â€œèªæ˜Žçš„â€ç–略都ä¸ä¼šåˆ°è¾¾é‚£ç§çŠ¶æ€ï¼‰ï¼Œä¹Ÿå°±æ²¡å¿…è¦é历,或者评估价值 **(在规划的å‰æ下,ä¾æ—§ä½¿ç”¨é‡‡æ ·æ›´æ–°ï¼Œæ¥å‡å°‘计算é‡ï¼‰**ï¼› - å› æ¤ï¼Œæœ¬ç« æ出了许多有趣而有用的方法:**基于更新效果(走这一æ¥ï¼Œæ˜¯å¦ä¼šä»¤åŽŸä»·å€¼å˜åŒ–很å°ï¼Œè‹¥å¾ˆå°ï¼Œåˆ™æ²¡å¿…è¦è€ƒè™‘这个更新)决定更新优先级的优先é历**ã€**åŸºäºŽè½¨è¿¹è¿›è¡Œé‡‡æ ·**ã€**实时动æ€è§„划(åªæ›´æ–°ç»åŽ†è¿‡çš„状æ€ï¼Œon-policyï¼Œé‡‡æ ·æ›´æ–°çš„åŠ¨æ€è§„划)**ã€**å¯å‘å¼æœç´¢/决ç–时规划(èšç„¦å½“å‰çŠ¶æ€/决ç–,计算å„ç§åŽç»å¯èƒ½åŠ¨ä½œçš„价值,但ä¸å˜å‚¨ä»–们,åªè¿›è¡Œå¯å‘å¼æœç´¢ï¼‰**ã€**预演算法**与**蒙特å¡æ´›æ ‘æœç´¢**。 å¯ä»¥çœ‹å‡ºï¼Œç¬¬å…«ç« 就是: - 使用了动æ€è§„划的“规划â€æ€æƒ³ï¼› - 或者说 Dyna-Q 将规划与时åºå·®åˆ†ç»“åˆäº†èµ·æ¥ï¼› - 但在规划ä¸æœªå¿…è¦ä½¿ç”¨â€œæœŸæœ›æ›´æ–°â€ï¼Œå¾ˆå¤šçŠ¶æ€å¯ä»¥å¿½ç•¥ï¼› - 在更新时å¯ä»¥åˆ©ç”¨â€œè§„划â€ï¼Œé¢„演出åŽç»çŠ¶æ€ï¼Œåªä¸ºäº†å¯¹å½“å‰çŠ¶æ€/决ç–进行评估(预演出的状æ€äº§ç”Ÿçš„ä»·å€¼æ— éœ€å‚¨å˜ï¼‰ã€‚ **** ### 二ã€ç¬¬å…«ç« åŸºäºŽè¡¨æ ¼åž‹æ–¹æ³•çš„è§„åˆ’å’Œå¦ä¹ å„节概括 > å‚考了下述项目的笔记部分: > [https://github.com/brynhayder/reinforcement_learning_an_introduction](https://github.com/brynhayder/reinforcement_learning_an_introduction) #### 8.1 模型和规划 Models and Planning 对环境建模,å³å¸®åŠ©æ™ºèƒ½ä½“去预测环境对于动作的å馈是什么,模型分为两类: - 分布模型 distribution model ,返回å馈的概率分布; - æ ·æœ¬æ¨¡åž‹ sample ,返回一个具体的å馈。 模型时用于仿真环境的。 #### 8.2 Dyna:集æˆåœ¨ä¸€èµ·çš„规划ã€åŠ¨ä½œå’Œå¦ä¹ Dyna: Integrated Planning, Acting and Learning  如上图, Dyna-Q 算法结åˆäº† Q-Learning 与 规划: - æ£å¸¸çš„Q更新结æŸä¹‹åŽï¼Œå¯¹æ¨¡åž‹è¿›è¡Œæ›´æ–°ï¼› - ä¾æ®çŽ°æœ‰æ¨¡åž‹ï¼Œè¿›è¡Œn次循环,对已出现过的 $Q(S, A)$ 进行更新。 #### 8.3 当模型错误的时候 When the Model is Wrong å½“é‡‡æ ·ä¸è¶³æˆ–者陷入局部次优解时,就会让模型产生å差。 Dyna-Q+ ç”¨ä¸€ä¸ªæŒ‡æ ‡é¼“åŠ±æ¨¡åž‹é‡‡å–未采å–过的动作,æ¥è§£å†³è¿™ä¸ªé—®é¢˜ã€‚ ### 8.4 优先é历 Prioritized Sweeping 许多状æ€æ˜¯ä¸Žæœ€ä¼˜ç–ç•¥æ— å…³çš„ï¼Œæ¢è¨€ä¹‹ï¼Œé€¼è¿‘最优ç–略,用ä¸ç€å¯¹æ— 关状æ€é‡‡æ ·ã€‚ 好比,å°æ˜Žä»Žæ²ˆé˜³å‡ºå‘去æˆéƒ½ï¼Œè¢«è¦æ±‚找一æ¡æœ€è¿‘的路,他å¯ä»¥æ¥æ¥å›žå›žå¥½å‡ 趟。他å¯èƒ½ç»è¿‡åŒ—京,å¯èƒ½ç»è¿‡è¥¿å®‰ï¼Œä½†ä¸€å®šæ²¡æœ‰å¿…è¦å…ˆåŽ»ä¸œäº¬ï¼Œå†åŽ»æˆéƒ½ã€‚这里,“抵达东京â€è¿™ä¸ªçŠ¶æ€ä¸Žæˆ‘们“从沈阳到达æˆéƒ½çš„最çŸè·¯å¾„â€è¿™ä¸ªæœ€ä¼˜ç–ç•¥ç›®æ ‡æ— å…³ã€‚ 优先é历的方法被æ出,æ¥è¿‡æ»¤é‚£äº›æ²¡æœ‰ç”¨çš„é‡‡æ ·ã€‚æ¯”å¦‚ï¼Œåœ¨ä¸€ä¸ªéžéšæœºçš„环境ä¸ï¼Œä½¿ç”¨ Q-Learning ,如果: $$|R+\gamma \max_a Q(S',a) - Q(S, A)| < \theta$$ 那么,æ‰æŠŠè¿™ä¸ª P 对应的状æ€æ”¾åœ¨ PQueue ä¸ï¼Œè¿›è¡Œæ›´æ–°ã€‚ #### 8.5 æœŸæœ›æ›´æ–°ä¸Žé‡‡æ ·æ›´æ–°çš„å¯¹æ¯” Expected vs. Sample Updates 当模型时分布模型时,或者有很多很多状æ€åˆ†æ”¯æ—¶ï¼Œè¿›è¡ŒæœŸæœ›æ›´æ–°è®¡ç®—é‡å¤ªå¤§ï¼ˆ $\sum_i^{s\_number} p_i q_i$ )ä¸s_numberè¿‡å¤§ã€‚å› æ¤ï¼Œé‡‡ç”¨é‡‡æ ·æ›´æ–°ä»£æ›¿æœŸæœ›æ›´æ–°ã€‚ 事实è¯æ˜Žï¼Œåœ¨è®¡ç®—é‡å¾ˆå¤§/è¿ä»£æ¬¡æ•°å¾ˆå¤šæ—¶ï¼Œé‡‡æ ·æ›´æ–°çš„效果ä¸é€ŠäºŽæœŸæœ›æ›´æ–°ã€‚  è¿™æ˜¯ä¸€å¼ è¾ƒä¸ºç²¾è¾Ÿçš„å›¾ï¼Œæ¥è‡ªä¹¦ä¸ã€‚这是一个三维图: - 维度一:**当å‰ç–略还是最优ç–ç•¥**,按照我的ç†è§£ï¼Œå› 为åŒè½¨ç–ç•¥ on-policy ä¸ï¼Œç–ç•¥å¯ä»¥éšç€è¿ä»£è€Œæ›´æ–°ï¼Œé‡‡æ ·ä¹Ÿå¯ä»¥éšä¹‹æ›´æ–°ï¼Œå› æ¤å½“å‰ç–略多用于åŒè½¨ç–略,而最优ç–略下的估计多用于离轨ç–略; - 维度二:**状æ€ä»·å€¼è¿˜æ˜¯çŠ¶æ€-动作价值期望**,å‰è€…多用于价值评估,或者多用于控制; - 维度三:**æœŸæœ›æ›´æ–°è¿˜æ˜¯é‡‡æ ·æ›´æ–°**。 #### 8.6 è½¨è¿¹é‡‡æ · Trajectory Sampling 对平å‡åˆ†å¸ƒè¿›è¡Œé‡‡æ ·ï¼Œå¯èƒ½ä¼šå¸¦æ¥åå·®ã€‚å› ä¸ºï¼Œå¾ˆå¤šâ€œæ ·æœ¬â€å…¶å®žæ˜¯æ ¹æœ¬ä¸ä¼šå‡ºçŽ°çš„。在规划ä¸å¯¹åŒè½¨ç–ç•¥é‡‡æ ·å¯ä»¥å¸¦æ¥â€œåˆæœŸå¿«é€Ÿæ”¶æ•›â€çš„效果。 #### 8.7 实时动æ€è§„划 Real-time Dynamic Programming 实时动æ€è§„划是一ç§ç‰¹æ®Šçš„价值è¿ä»£ï¼šä¸åŒäºŽä¼ 统动æ€è§„划,实时动æ€è§„划ä¸é‡‡ç”¨æœŸæœ›æ›´æ–°ï¼Œä½¿ç”¨é‡‡æ ·æ›´æ–°ï¼Œå¯¹åŒè½¨ç–ç•¥ä¸‹çš„è½¨è¿¹è¿›è¡Œé‡‡æ ·ã€‚ #### 8.8 决ç–时规划 Planning at Decision Time 何为在决ç–时规划? 在之å‰æ到的算法ä¸ï¼Œæˆ‘们都是基于已有的ç»éªŒè¿›è¡Œè§„划(background planning);决ç–时规划å³ï¼Œè€ƒè™‘与环境的交æ¢ï¼Œå³æ¨¡æ‹Ÿä½œå‡ºåŠ¨ä½œåŽå¯ä»¥è¿›è¡Œçš„é‡‡æ ·ï¼ˆæœ‰å¯èƒ½è€ƒè™‘很多æ¥ï¼‰ã€‚ #### 8.9 å¯å‘å¼æœç´¢ Heuristic Search 在我看æ¥ï¼Œæ˜¯å¯¹å°†è¦é€‰æ‹©çš„动作进行“推演â€ï¼Œå»ºç«‹ä¸€ä¸ªâ€œå†³ç–æ ‘â€ï¼Œå¹¶ä¸”ä¾ç…§æŸç§é¡ºåºï¼ˆæ·±åº¦ä¼˜å…ˆï¼‰å¯¹åˆ†æ”¯è¿›è¡Œâ€œä¸é›†ä¸â€çš„回溯。这往往比“集ä¸å›žæº¯æ›´æ–°â€äº§ç”Ÿçš„决ç–效果好。 #### 8.10 预演算法 Rollout Algorithm 预演算法是基于蒙特å¡æ´›æŽ§åˆ¶çš„ã€é€šè¿‡ä»¿çœŸè¿¹è¿›è¡Œé‡‡æ ·çš„决ç–时规划。 预演算法å³ï¼š - 从æŸä¸ªçŠ¶æ€å‡ºå‘ï¼› - 基于一个ç–略(预演ç–略),进行仿真,评估价值; - 选择仿真ä¸ä»·å€¼æœ€é«˜çš„动作,以æ¤ç±»æŽ¨ã€‚ 预演算法用于改进预演ç–略的性能,而éžæ‰¾åˆ°æœ€ä¼˜ç–略。 #### 8.11 蒙特å¡æ´›æ ‘æœç´¢ Monte Carlo Tree Search 蒙特å¡æ´›æ ‘æœç´¢æ˜¯å†³ç–时规划ã€é¢„演算法的集大æˆè€…。预演算法是其价值评估的框架,在仿真时,应用蒙特å¡æ´›ä»¿çœŸæ¥å¼•å¯¼æœç´¢ã€‚AlphaGo使用了这ç§æŠ€æœ¯ã€‚ MCTSå¯ä»¥æ¦‚括为四æ¥ï¼š - 选择 Selection ï¼ŒåŸºäºŽæ ‘ç–ç•¥ï¼ˆæ ‘ç–ç•¥è€ƒè™‘äº†æ ‘è¾¹ç¼˜çš„åŠ¨ä½œä»·å€¼ï¼‰ä»·å€¼é€‰æ‹©ä¸€ä¸ªå¶å结点; - 扩展 Expansion ,对选定的结点进行éžè¯•æŽ¢åŠ¨ä½œï¼Œä¸ºå…¶å¢žåŠ å结点; - 仿真 Simulation ,从å¶å结点或新增å¶å结点开始,基于预演ç–ç•¥è¿›è¡Œæ•´ä¸ªä¸€ä¸ªå¹•çš„ä»¿çœŸã€‚åœ¨æ ‘ä¸çš„部分,基于蒙特å¡æ´›æ ‘çš„ç–略进行ç–ç•¥é€‰æ‹©ï¼Œåœ¨æ ‘å¤–çš„éƒ¨åˆ†ï¼Œåˆ™åŸºäºŽé¢„æ¼”ç–略; - 回溯 Backup ,在本次更新ä¸ï¼Œå¯¹è½¨è¿¹çš„å›žæŠ¥å€¼ä¸Šä¼ ï¼Œæ ‘å¤–çš„çŠ¶æ€å’ŒåŠ¨ä½œéƒ½ä¸ä¼šè¢«ä¿å˜ä¸‹æ¥ã€‚  如上图,按照我的ç†è§£ï¼ŒMCTS的这四个æ¥éª¤ï¼Œå³ï¼š - **é€æ¸æ‰©å¼ æ ‘çš„è¿‡ç¨‹ï¼š** æ ‘æœ¬èº«ä»£è¡¨äº†ä¸€ç§ç–略,但是在第一次更新å‰ï¼Œæ ‘是ä¸å˜åœ¨çš„,æ¯ä¸€æ¬¡æ›´æ–°ï¼ˆä¸€æ¬¡æ›´æ–°ä¸è¿›è¡Œä¸Šè¿°å››ä¸ªæ¥éª¤ï¼‰ï¼Œæ ‘都将生长一点(生长一个å¶åï¼Œè¿˜æ˜¯å‡ ä¸ªå¶å,it depends); - **é€æ¸æ›´æ–°æ ‘的过程:** 在仿真的æ¥éª¤ä¸ï¼Œå¦‚果状æ€æ˜¯æ ‘å†…çš„ï¼Œåˆ™åŸºäºŽæ ‘ç–ç•¥è¿›è¡Œä»¿çœŸï¼Œä¸€æ—¦è·‘å‡ºæ ‘å¤–ï¼Œåˆ™åŸºäºŽé¢„æ¼”ç–略进行仿真;由æ¤å›žæº¯ï¼Œ**æ ‘ä¼šè¶Šæ¥è¶Šå¥å£®**ï¼› - å¯¹æ ‘å¤–ç–略进行仿真,并且基于蒙特å¡æ´›æŽ§åˆ¶ï¼ˆè¦ä»¿çœŸåˆ°å¹•ç»“æŸï¼‰ï¼Œåº”è¯¥æ˜¯ä¸ºäº†è®©å›žæŠ¥æ›´å‡†ç¡®ï¼Œä¸ŽçŽ¯å¢ƒäº¤äº’æ›´åŠ å……åˆ†ï¼› - 就好比,高级的围棋手会在脑ä¸æŽ¨æ¼”å¥½å‡ æ¥ï¼šå¦‚果我们这下了,对方会怎么下,我å†æ€Žä¹ˆä¸‹... - 应该注æ„ï¼Œè¿™å¼ å›¾ç‰‡å¯¹äºŽåˆå¦è€…(如今天上åˆçš„我)有一定误导性:**æ¯æ¬¡å¦ä¹ 时,我们é‡åˆ°çš„状æ€æœªå¿…æ˜¯æ ‘çš„è¾¹ç¼˜ç»“ç‚¹æˆ–è€…æ ¹ç»“ç‚¹ï¼›åœ¨å¾ˆå¤šæ¬¡å¦ä¹ 之åŽï¼ˆæœºå™¨ä¸‹äº†å¾ˆå¤šç›˜æ£‹ä¹‹åŽï¼‰ï¼Œå†å¼€å±€ï¼Œæ ‘å·²ç»å¾ˆå…¨é¢ï¼Œå¾ˆå¥å£®äº†ã€‚** ### 强化å¦ä¹ åˆæ¥/è¡¨æ ¼åž‹æ±‚è§£æ–¹æ³•æ€»ç»“ Sutton的书所æ到的所有强化å¦ä¹ 方法都包å«ä¸‰ä¸ªé‡è¦æ€æƒ³ï¼š 1. 需è¦ä¼°è®¡ä»·å€¼å‡½æ•°ï¼› 2. 需è¦æ²¿ç€çœŸå®žæˆ–者模拟的状æ€è½¨è¿¹è¿›è¡Œå›žæº¯æ“作æ¥æ›´æ–°ä»·å€¼ä¼°è®¡ï¼› 3. éµå¾ªå¹¿ä¹‰ç–ç•¥è¿ä»£ï¼ˆGPI)的通用æµç¨‹ï¼Œå³ä¼šç»´æŠ¤ä¸€ä¸ªè¿‘似的价值函数和一个近似的ç–略,æŒç»åœ°åŸºäºŽä¸€æ–¹çš„结果æ¥æ”¹å–„å¦ä¸€æ–¹ã€‚ **** 期待åŽç»çš„å¦ä¹ 。 *Piper Liu* *2020-1-31 23:38:22*