ABSTRACT. Après quelques rappels sur les chaînes de Markov, nous présenterons les principes fondamentaux des processus de décision markovien ainsi que les liens avec l'apprentissage par renforcement. Dans un processus de décision markovien, un agent observe l'état d'un système et choisit une action parmi celles disponibles. Suite à son action, le système évolue vers un autre état de manière probabiliste et obtient une récompense. Ce processus est réitéré un certain nombre de fois, l'objectif de l'agent étant de maximiser ses gains (en espérance). Si le processus s'achève lorsqu'un état terminal est atteint, on parle de plus court chemin stochastique. Lorsque les récompenses et probabilités de transition sont inconnues et découvertes au fil de l'eau, on rentre dans le paradigme de l'apprentissage par renforcement