ROADEF 2020, Tutoriel GDR RO, 20 février 2020, Jean Philippe Gayon (LIMOS Clermont Ferrand)

Prendre des notes

Il n’y a pas de note disponible pour vous pour cette vidéo.

Connectez-vous pour en créer une nouvelle.

Disciplines

Types

Mots clés

Prise de décision sous incertitude : de la programmation dynamique stochastique à l'apprentissage par renforcement

ABSTRACT. Après quelques rappels sur les chaînes de Markov, nous présenterons les principes fondamentaux des processus de décision markovien ainsi que les liens avec l'apprentissage par renforcement. Dans un processus de décision markovien, un agent observe l'état d'un système et choisit une action parmi celles disponibles. Suite à son action, le système évolue vers un autre état de manière probabiliste et obtient une récompense. Ce processus est réitéré un certain nombre de fois, l'objectif de l'agent étant de maximiser ses gains (en espérance). Si le processus s'achève lorsqu'un état terminal est atteint, on parle de plus court chemin stochastique. Lorsque les récompenses et probabilités de transition sont inconnues et découvertes au fil de l'eau, on rentre dans le paradigme de l'apprentissage par renforcement

Infos

Ajouté par : Julien Noel
Ajouté le : 11 mars 2020 10:28
Type : Colloque / Conférence
Langue principale : Français

Réseaux sociaux