Ho implementato l'algoritmo di iterazione del valore per il processo decisionale Markov semplice Wikipedia in Python. Al fine di mantenere la struttura (stati, azioni, transizioni, premi) del particolare processo di Markov e scorrere su di esso ho usato le seguenti strutture di dati:Struttura dati per processo decisionale Markov
dizionario per gli stati e le azioni che sono disponibili per coloro afferma:
SA = { 'state A': {' action 1', 'action 2', ..}, ...}
dizionario per probabilità di transizione:
T = {('state A', 'action 1'): {'state B': probability}, ...}
dizionario per i premi:
R = {('state A', 'action 1'): {'state B': reward}, ...}
.
La mia domanda è: è questo l'approccio giusto? Quali sono le strutture dati più adatte (in Python) per MDP?
Grazie mille per i vostri commenti. Prenderò in considerazione il tuo approccio almeno in caso di MDP più complessi da risolvere. – JackAW