Apprentissage par réinforcement

Table de matière

Introduction
Itération de la valeur
Analyse d’un pont séparateur
Stratégies
Apprentissage Q
Pont séparateur revisité
Apprentissage Q et Pacman

Pacman est maintenant entouré des phantomes. Doit il approcher la nouriture ou fuir les fantômes. En situation de doutes, *Q learn*.

Introduction

Le but de ce projet est d’implémenter les deux algorithmes d’apprentissage Value iteration et policy iteration. Pour permettre à un agent débutant d’apprendre toutes les règles et stratégies de Pacman et devinir l’ultime Joueur.