Table de matière

  1. Introduction
  2. Itération de la valeur
  3. Analyse d’un pont séparateur
  4. Stratégies
  5. Apprentissage Q
  6. Pont séparateur revisité
  7. Apprentissage Q et Pacman
Pacman est maintenant entouré des phantomes. Doit il approcher la nouriture ou fuir les fantômes. En situation de doutes, *Q learn*.

Introduction

Le but de ce projet est d’implémenter les deux algorithmes d’apprentissage Value iteration et policy iteration. Pour permettre à un agent débutant d’apprendre toutes les règles et stratégies de Pacman et devinir l’ultime Joueur.