ROADEF 2020, Tutoriel GDR RO, 20 février 2020, Jean Philippe Gayon (LIMOS Clermont Ferrand)

11 mars 2020
Durée : 00:38:04
Nombre de vues 50
Nombre d’ajouts dans une liste de lecture 0
Nombre de favoris 0
Prise de décision sous incertitude : de la programmation dynamique stochastique à l'apprentissage par renforcement

ABSTRACT. Après quelques rappels sur les chaînes de Markov, nous présenterons les principes fondamentaux des processus de décision markovien ainsi que les liens avec l'apprentissage par renforcement. Dans un processus de décision markovien, un agent observe l'état d'un système et choisit une action parmi celles disponibles. Suite à son action, le système évolue vers un autre état de manière probabiliste et obtient une récompense. Ce processus est réitéré un certain nombre de fois, l'objectif de l'agent étant de maximiser ses gains (en espérance). Si le processus s'achève lorsqu'un état terminal est atteint, on parle de plus court chemin stochastique. Lorsque les récompenses et probabilités de transition sont inconnues et découvertes au fil de l'eau, on rentre dans le paradigme de l'apprentissage par renforcement

 Informations

  • Ajouté par : Julien Noel (p00000007898)
  • Mis à jour le : 11 mars 2020 10:28
  • Type : Colloque / Conférence
  • Langue principale : Français