Processo de decisão de Markov (MDP, do inglês Markov decision process) é um modelo matemático para a tomada de decisão sequencial quando os resultados são incertos.[1] É um tipo de processo de decisão estocástico,[2] e é frequentemente resolvido usando os métodos da programação dinâmica estocástica.
Originário da pesquisa operacional na década de 1950,[3][4] os MDPs desde então ganharam reconhecimento em uma variedade de campos, incluindo ecologia, economia, saúde, telecomunicações e aprendizado por reforço.[5] O aprendizado por reforço utiliza a estrutura dos MDPs para modelar a interação entre um agente de aprendizado e seu ambiente. Nesta estrutura, a interação é caracterizada por estados, ações e recompensas. A estrutura MDP é projetada para fornecer uma representação simplificada de elementos-chave de desafios da inteligência artificial. Esta estrutura de modelagem incorpora a compreensão de causa e efeito, o gerenciamento de incerteza e não determinismo, e a busca de objetivos explícitos.[5]
O nome vem de sua conexão com as Cadeias de Markov, um conceito desenvolvido pelo matemático russo Andrey Markov. O termo "Markov" em "Processo de decisão de Markov" refere-se à estrutura subjacente das transições de estado que ainda seguem a Propriedade de Markov. O processo é chamado de "processo de decisão" porque envolve tomar decisões que influenciam essas transições de estado, estendendo o conceito de uma cadeia de Markov para o reino da tomada de decisão sob incerteza.
Definição
editar
Um Processo de Decisão de Markov é uma 4-tupla , onde:
- é um conjunto de estados chamado de espaço de estados. O espaço de estados pode ser discreto ou contínuo, como o conjunto dos números reais.
- é um conjunto de ações chamado de espaço de ações (alternativamente, é o conjunto de ações disponíveis a partir do estado ). Assim como para o estado, este conjunto pode ser discreto ou contínuo.
- é, em um nível intuitivo, a probabilidade de que a ação no estado no tempo levará ao estado no tempo . Em geral, esta probabilidade de transição é definida para satisfazer para todo mensurável. Caso o espaço de estados seja discreto, a integral é pretendida em relação à medida de contagem, de modo que esta última se simplifica como ; caso , a integral é usualmente pretendida em relação à Medida de Lebesgue.
- é a recompensa imediata (ou recompensa imediata esperada) recebida após a ação ser tomada para a transição do estado para o estado . A recompensa é, em geral, uma variável aleatória.
Uma função de política é um mapeamento (potencialmente probabilístico) do espaço de estados () para o espaço de ações ().
Objetivo de otimização
editarO objetivo em um processo de decisão de Markov é encontrar uma boa "política" para o tomador de decisão: uma função que especifica a ação que o tomador de decisão escolherá quando estiver no estado . Uma vez que um processo de decisão de Markov é combinado com uma política dessa maneira, isso fixa a ação para cada estado e a combinação resultante se comporta como uma cadeia de Markov (já que a ação escolhida no estado é completamente determinada por ).
O objetivo é escolher uma política que maximize alguma função cumulativa das recompensas aleatórias, tipicamente a soma descontada esperada ao longo de um horizonte potencialmente infinito:
- (onde escolhemos , ou seja, ações dadas pela política). E a esperança é tomada sobre
onde é o fator de desconto satisfazendo , que geralmente é próximo de (por exemplo, para alguma taxa de desconto ). Um fator de desconto menor torna o tomador de decisão mais "míope", no sentido de que ele desconsidera comparativamente o efeito que seguir sua política atual tem em momentos mais no futuro.
Outro objetivo possível, mas estritamente relacionado e comumente usado, é o retorno de passos. Desta vez, em vez de usar um fator de desconto , o agente está interessado apenas nos primeiros passos do processo, com cada recompensa tendo o mesmo peso.
- (onde escolhemos , ou seja, ações dadas pela política). E a esperança é tomada sobre
onde é o horizonte temporal. Comparado ao objetivo anterior, este último é mais utilizado na Teoria da Aprendizagem.
Uma política que maximiza a função acima é chamada de política ótima e é usualmente denotada por . Um MDP específico pode ter várias políticas ótimas distintas. Devido à propriedade de Markov, pode-se demonstrar que a política ótima é uma função do estado atual, conforme assumido acima. Quando é determinístico, sempre existirá uma política ótima que também seja determinística.
Assuma que é determinístico, o que significa que para as constantes o valor também é constante. Para sabe-se que existe um único ponto fixo que satisfaz a recursão de iteração de valor (equação de Bellman)
Por inspeção, note que este ponto fixo é a função de valor associada à seguinte política.
Ao desenrolar a recursão de Bellman, pode-se demonstrar que é de fato ótimo (simultaneamente para todos os estados) sobre o conjunto de políticas determinísticas.
Considere o caso onde é probabilístico, o que significa que a ação tomada é uma variável aleatória. Pode-se demonstrar que qualquer política não determinística desse tipo é dominada por uma determinística da seguinte forma.
Modelos de simulador
editarEm muitos casos, é difícil representar as distribuições de probabilidade de transição, , explicitamente. Nesses casos, um simulador pode ser usado para modelar o MDP implicitamente, fornecendo amostras das distribuições de transição. Uma forma comum de modelo MDP implícito é um simulador de ambiente episódico que pode ser iniciado a partir de um estado inicial e que rende um estado e recompensa subsequentes cada vez que recebe uma entrada de ação. Desta maneira, trajetórias de estados, ações e recompensas, muitas vezes chamadas de episódios, podem ser produzidas.
Outra forma de simulador é um modelo generativo, um simulador de passo único que pode gerar amostras do próximo estado e da recompensa, dado qualquer estado e ação.[6] (Note que este é um significado diferente do termo modelo generativo no contexto da classificação estatística.) Em algoritmos que são expressos usando pseudocódigo, é frequentemente usado para representar um modelo generativo. Por exemplo, a expressão pode denotar a ação de amostragem a partir do modelo generativo, onde e são o estado e a ação atuais, e e são o novo estado e a recompensa. Comparado a um simulador episódico, um modelo generativo tem a vantagem de poder produzir dados a partir de qualquer estado, não apenas daqueles encontrados em uma trajetória.
Essas classes de modelo formam uma hierarquia de conteúdo de informação: um modelo explícito trivialmente gera um modelo generativo através da amostragem das distribuições, e a aplicação repetida de um modelo generativo gera um simulador episódico. Na direção oposta, só é possível aprender modelos aproximados através de análise de regressão. O tipo de modelo disponível para um MDP específico desempenha um papel significativo na determinação de quais algoritmos de solução são apropriados. Por exemplo, os algoritmos de programação dinâmica descritos na próxima seção exigem um modelo explícito, e a busca em árvore de Monte Carlo exige um modelo generativo (ou um simulador episódico que pode ser copiado em qualquer estado), enquanto a maioria dos algoritmos de aprendizado por reforço exige apenas um simulador episódico.
Exemplo
editar
Um exemplo de MDP é o modelo do Pêndulo Invertido (Pole-Balancing), que advém da teoria de controle clássico.
Neste exemplo, temos:
- é o conjunto de tuplas ordenadas dadas pelo ângulo do mastro, velocidade angular, posição do carrinho e sua velocidade.
- é , correspondendo à aplicação de uma força para a esquerda (ou direita) no carrinho.
- é a transição do sistema, que neste caso será determinística e impulsionada pelas leis da mecânica.
- é se o mastro estiver para cima após a transição, ou zero caso contrário. Portanto, essa função depende apenas de neste caso específico.
Algoritmos
editarSoluções para MDPs com espaços finitos de estados e ações podem ser encontradas através de uma variedade de métodos, como a programação dinâmica. Os algoritmos nesta seção se aplicam a MDPs com espaços finitos de estados e ações, probabilidades de transição e funções de recompensa dadas explicitamente, mas os conceitos básicos podem ser estendidos para lidar com outras classes de problemas, por exemplo, usando aproximação de funções. Além disso, alguns processos com espaços de estados e ações infinitos contáveis podem ser exatamente reduzidos a processos com espaços finitos de estados e ações.[7]
A família padrão de algoritmos para calcular políticas ótimas para MDPs de estado e ação finitos requer armazenamento para dois arrays indexados por estado: valor , que contém valores reais, e política , que contém ações. Ao final do algoritmo, conterá a solução e conterá a soma descontada das recompensas a serem ganhas (em média) ao se seguir essa solução a partir do estado .
O algoritmo tem dois passos: (1) uma atualização de valor e (2) uma atualização de política, que são repetidas em alguma ordem para todos os estados até que nenhuma mudança adicional ocorra. Ambos atualizam recursivamente uma nova estimativa da política ótima e do valor do estado usando uma estimativa mais antiga desses valores.
A ordem deles depende da variante do algoritmo; pode-se também fazê-los para todos os estados de uma só vez ou estado por estado, e com mais frequência para alguns estados do que para outros. Desde que nenhum estado seja permanentemente excluído de qualquer um dos passos, o algoritmo eventualmente chegará à solução correta.[8]
Variantes notáveis
editarIteração de valor
editarNa iteração de valor (Bellman 1957), que também é chamada de indução retroativa (backward induction), a função não é usada; em vez disso, o valor de é calculado dentro de sempre que for necessário. Substituir o cálculo de no cálculo de dá o passo combinado;[mais explicações necessárias]
onde é o número da iteração. A iteração de valor começa com e como um palpite da função de valor. Em seguida, ela itera, computando repetidamente para todos os estados , até que convirja com o lado esquerdo igual ao lado direito (que é a "Equação de Bellman" para este problema[necessário esclarecer]). O artigo de 1953 de Lloyd Shapley sobre jogos estocásticos incluía, como um caso especial, o método de iteração de valor para MDPs,[9] mas isso foi reconhecido apenas mais tarde.[10]
A iteração de valor tem convergência garantida para pelo Teorema do ponto fixo de Banach.
O teorema do ponto fixo de Banach afirma que um dado mapeamento de contração tem um único ponto fixo; além disso, pode-se aproximar assintoticamente esse ponto fixo pela aplicação iterada do mapeamento de contração. Basta então mostrar que a iteração de valor é um mapeamento de contração, o que é demonstrado abaixo para .
Denotamos e por conveniência.
Iteração de política
editarNa iteração de política,[11] primeiro se executa a Determinação de Valor resolvendo para a partir do sistema linear descrito no passo um, depois se executa a Melhoria de Política computando como no passo dois, repetindo-se ambos os passos até que a política convirja. (A iteração de política foi inventada por Howard para otimizar as correspondências do catálogo da Sears, que ele vinha otimizando usando iteração de valor.[12])
Uma vez que a iteração de política intercala efetivamente um problema inverso linear com uma operação não linear, ela pode ser interpretada como um tipo de método de relaxamento.
Essa variante tem a vantagem de ter uma condição de parada definida. Como existe uma solução única para cada política , o algoritmo é concluído assim que a Melhoria de Política produzir a mesma política duas vezes consecutivas.
Embora existam situações em que a iteração de política possa ser mais rápida que a iteração de valor (por exemplo, quando o espaço de ações é significativamente maior que o espaço de estados), a iteração de política costuma ser mais lenta que a iteração de valor para um grande número de estados possíveis.
Iteração de política modificada
editarNa iteração de política modificada (van Nunen 1976; Puterman & Shin 1978), o passo um é repetido várias vezes, e então o passo dois é executado uma vez.[13][14] Depois, o passo um é novamente repetido várias vezes e assim por diante.
Varredura priorizada
editarNesta variante (Prioritized sweeping), os passos são aplicados preferencialmente a estados que são de alguma forma importantes – seja com base no algoritmo (houve grandes mudanças em ou ao redor desses estados recentemente) ou com base no uso (aqueles estados estão próximos ao estado inicial, ou são de outro modo interessantes para a pessoa ou programa que está usando o algoritmo).
Complexidade computacional
editarExistem algoritmos para encontrar políticas ótimas com complexidade de tempo polinomial no tamanho da representação do problema para MDPs finitos. Assim, problemas de decisão baseados em MDPs pertencem à classe de complexidade P.[15] No entanto, devido à maldição da dimensionalidade, o tamanho da representação do problema é frequentemente exponencial no número de variáveis de estado e de ação, limitando as técnicas de solução exata a problemas que têm uma representação compacta. Na prática, técnicas de planejamento online, como a busca em árvore de Monte Carlo, podem encontrar soluções úteis em problemas maiores e, em teoria, é possível construir algoritmos de planejamento online que podem encontrar uma política arbitrariamente quase ótima sem dependência da complexidade computacional no tamanho do espaço de estados.[16]
Extensões e generalizações
editarUm processo de decisão de Markov é um jogo estocástico com apenas um jogador.
Observabilidade parcial
editarA solução acima pressupõe que o estado é conhecido no momento em que a ação deve ser tomada; caso contrário, não pode ser calculado. Quando essa suposição não é verdadeira, o problema é chamado de processo de decisão de Markov parcialmente observável ou POMDP.
Processos de decisão de Markov restritos
editarProcessos de decisão de Markov restritos (CMDPs) são extensões dos processos de decisão de Markov (MDPs). Existem três diferenças fundamentais entre MDPs e CMDPs.[17]
- Existem múltiplos custos incorridos após a aplicação de uma ação em vez de um só.
- Os CMDPs são resolvidos apenas com programas lineares, e a programação dinâmica não funciona.
- A política final depende do estado inicial.
O método dos Multiplicadores de Lagrange aplica-se aos CMDPs. Muitos algoritmos baseados em Lagrangianos foram desenvolvidos.
- Método primal-dual de gradiente de política natural.[18]
Existem várias aplicações para CMDPs. Recentemente, foi utilizado em cenários de planejamento de movimento na robótica.[19]
Processo de decisão de Markov de tempo contínuo
editarNos Processos de Decisão de Markov de tempo discreto, as decisões são tomadas em intervalos de tempo discretos. No entanto, para os processos de decisão de Markov de tempo contínuo, as decisões podem ser tomadas a qualquer momento que o tomador de decisão escolher. Em comparação com os processos de tempo discreto, os processos de decisão de Markov de tempo contínuo podem modelar melhor o processo de tomada de decisão para um sistema que tem dinâmicas contínuas, ou seja, a dinâmica do sistema é definida por equações diferenciais ordinárias (EDOs). Esta estrutura de modelagem pode ser aplicada a áreas como sistemas de filas, processos epidêmicos e processos populacionais.
Assim como os processos de tempo discreto, nos processos de decisão de Markov de tempo contínuo, o agente busca encontrar a política ótima que maximizaria a recompensa cumulativa esperada. A diferença fundamental em relação ao caso padrão é que, devido à natureza contínua da variável tempo, a soma é substituída por uma integral:
onde
Espaço discreto: Formulação em programação linear
editarSe o espaço de estados e o espaço de ações forem finitos, poderíamos usar programação linear para encontrar a política ótima, que foi uma das primeiras abordagens aplicadas. Aqui, consideramos apenas o modelo ergódico, o que significa que nosso MDP de tempo contínuo se torna uma cadeia de Markov de tempo contínuo ergódica sob uma política estacionária. Sob essa premissa, embora o tomador de decisão possa tomar uma decisão a qualquer momento no estado atual, não há benefício em tomar múltiplas ações. É melhor tomar uma ação apenas no momento em que o sistema está transitando do estado atual para outro estado. Sob algumas condições,[20] se nossa função de valor ótima for independente do estado , teremos a seguinte desigualdade:
Se existe uma função , então será o menor que satisfaz a equação acima. Para encontrar , poderíamos usar o seguinte modelo de programação linear:
- Programa linear primal (P-LP)
- Programa linear dual (D-LP)
é uma solução viável para o D-LP se for não negativo e satisfizer as restrições no problema D-LP. Uma solução viável para o D-LP é considerada uma solução ótima se
para toda solução viável do D-LP. Uma vez encontrada a solução ótima , podemos usá-la para estabelecer as políticas ótimas.
Espaço contínuo: Equação de Hamilton–Jacobi–Bellman
editarEm um MDP de tempo contínuo, se o espaço de estados e o espaço de ações forem contínuos, o critério ótimo pode ser encontrado resolvendo a equação diferencial parcial de Hamilton–Jacobi–Bellman (HJB). Para discutir a equação HJB, precisamos reformular nosso problema
é a função de recompensa terminal, é o vetor de estado do sistema, é o vetor de controle do sistema que tentamos encontrar. mostra como o vetor de estado muda ao longo do tempo. A equação de Hamilton–Jacobi–Bellman é a seguinte:
Poderíamos resolver a equação para encontrar a função de valor ótima , que por sua vez fornece o controle ótimo a qualquer momento , , através de
Aprendizado por reforço
editarO Aprendizado por reforço é uma área interdisciplinar do aprendizado de máquina e do controle ótimo que tem, como principal objetivo, encontrar uma política aproximadamente ótima para MDPs nos quais as probabilidades de transição e recompensas são desconhecidas.[21]
O aprendizado por reforço pode resolver processos de Decisão de Markov sem a especificação explícita das probabilidades de transição que são necessárias para realizar a iteração de política. Neste cenário, as probabilidades de transição e recompensas devem ser aprendidas a partir da experiência, ou seja, permitindo que um agente interaja com o MDP por um determinado número de passos. Tanto no nível teórico quanto no prático, o esforço é direcionado para a maximização da eficiência da amostra, ou seja, minimizar o número de amostras necessárias para aprender uma política cujo desempenho seja próximo do ideal (devido à natureza estocástica do processo, aprender a política ótima com um número finito de amostras é, em geral, impossível).
Aprendizado por Reforço para MDPs discretos
editarPara os propósitos desta seção, é útil definir uma função adicional, que corresponde a tomar a ação e depois continuar de forma otimizada (ou de acordo com a política que se possui atualmente):
Embora essa função também seja desconhecida, a experiência durante o aprendizado baseia-se em pares (junto com o resultado ; ou seja, "Eu estava no estado , tentei fazer e aconteceu "). Assim, tem-se um array e utiliza-se a experiência para atualizá-lo diretamente. Isso é conhecido como Q-learning.
Outros escopos
editarAutômatos de aprendizado
editarOutra aplicação do processo MDP na teoria do aprendizado de máquina é chamada de autômatos de aprendizado. Este também é um tipo de aprendizado por reforço se o ambiente for estocástico. O primeiro artigo detalhado sobre autômatos de aprendizado foi revisado por Narendra e Thathachar (1974), que foram originalmente descritos explicitamente como autômatos de estado finito.[22] Assim como no aprendizado por reforço, um algoritmo de autômatos de aprendizado também possui a vantagem de resolver o problema quando as probabilidades ou recompensas são desconhecidas. A diferença entre os autômatos de aprendizado e o Q-learning é que a técnica anterior omite a memória dos valores-Q, mas atualiza a probabilidade de ação diretamente para encontrar o resultado do aprendizado. Os autômatos de aprendizado são um esquema de aprendizado com uma prova rigorosa de convergência.[23]
Na teoria dos autômatos de aprendizado, um autômato estocástico consiste em:
- um conjunto x de entradas possíveis,
- um conjunto Φ = { Φ1, ..., Φs } de estados internos possíveis,
- um conjunto α = { α1, ..., αr } de saídas ou ações possíveis, com r ≤ s,
- um vetor de probabilidade de estado inicial p(0) = ≪ p1(0), ..., ps(0) ≫,
- uma função computável A que, após cada passo de tempo t, gera p(t + 1) a partir de p(t), da entrada atual e do estado atual, e
- uma função G: Φ → α que gera a saída a cada passo de tempo.
Os estados de tal autômato correspondem aos estados de um "processo de Markov de parâmetros discretos e estados discretos".[24] A cada passo de tempo t = 0,1,2,3,..., o autômato lê uma entrada de seu ambiente, atualiza P(t) para P(t + 1) pela função A, escolhe aleatoriamente um estado sucessor de acordo com as probabilidades P(t + 1) e emite a ação correspondente. O ambiente do autômato, por sua vez, lê a ação e envia a próxima entrada para o autômato.[23]
Interpretação teórica por categorias
editarAlém das recompensas, um processo de decisão de Markov pode ser compreendido em termos da Teoria das categorias. Nomeadamente, seja o monoide livre com conjunto gerador A. Seja Dist a categoria de Kleisli da mônada de Giry. Então um funtor codifica tanto o conjunto S de estados quanto a função de probabilidade P.
Desta forma, os processos de decisão de Markov poderiam ser generalizados de monoides (categorias com um objeto) para categorias arbitrárias. Pode-se chamar o resultado de um processo de decisão de Markov dependente de contexto, porque mudar de um objeto para outro em muda o conjunto de ações disponíveis e o conjunto de estados possíveis.
Notações alternativas
editarA terminologia e a notação para MDPs não estão inteiramente consolidadas. Existem duas correntes principais — uma foca em problemas de maximização de contextos como economia, usando os termos ação, recompensa, valor e chamando o fator de desconto de β ou γ, enquanto a outra se concentra em problemas de minimização de engenharia e navegação, usando os termos controle, custo, custo a percorrer e chamando o fator de desconto de α. Além disso, a notação para a probabilidade de transição varia.
| neste artigo | alternativa | comentário |
|---|---|---|
| ação a | controle u | |
| recompensa R | custo g | g é o negativo de R |
| valor V | custo-a-percorrer (cost-to-go) J | J é o negativo de V |
| política π | política μ | |
| fator de desconto γ | fator de desconto α | |
| probabilidade de transição | probabilidade de transição |
Ademais, a probabilidade de transição é por vezes escrita como , ou, raramente,
Veja também
editar- Autômatos probabilísticos
- Algoritmo de chances
- Autômatos finitos quânticos
- Processo de decisão de Markov parcialmente observável
- Programação dinâmica
- Equação de Bellman para aplicações em economia.
- Equação de Hamilton–Jacobi–Bellman
- Controle ótimo
- Economia recursiva
- Problema das ovelhas de Mabinogion
- Jogos estocásticos
- Q-learning
- Cadeia de Markov
Referências
editar- ↑ Puterman, Martin L. (1994). Markov decision processes: discrete stochastic dynamic programming. Col: Wiley series in probability and mathematical statistics. Applied probability and statistics section. New York: Wiley. ISBN 978-0-471-61977-2
- ↑ Yin, Bo (2021). Airtime Management for Low-Latency Densely Deployed Wireless Networks (Tese de PhD). Japan: Kyoto University
- ↑ Schneider, S.; Wagner, D. H. (26 de fevereiro de 1957). «Error detection in redundant systems». Papers presented at the February 26-28, 1957, western joint computer conference: Techniques for reliability on - IRE-AIEE-ACM '57 (Western). New York, NY, USA: Association for Computing Machinery. pp. 115–121. ISBN 978-1-4503-7861-1. doi:10.1145/1455567.1455587
- ↑ Bellman, Richard (1 de setembro de 1958). «Dynamic programming and stochastic control processes». Information and Control. 1 (3): 228–239. Bibcode:1958InfCo...1..228B. ISSN 0019-9958. doi:10.1016/S0019-9958(58)80003-0
- ↑ a b Sutton, Richard S.; Barto, Andrew G. (2018). Reinforcement learning: an introduction. Col: Adaptive computation and machine learning series 2nd ed. Cambridge, Massachusetts: The MIT Press. ISBN 978-0-262-03924-6
- ↑ Kearns, Michael; Mansour, Yishay; Ng, Andrew (2002). «A Sparse Sampling Algorithm for Near-Optimal Planning in Large Markov Decision Processes». Machine Learning. 49 (193–208): 193–208. doi:10.1023/A:1017932429737
- ↑ Wrobel, A. (1984). «On Markovian decision models with a finite skeleton». Zeitschrift für Operations Research. 28 (1): 17–27. doi:10.1007/bf01919083
- ↑ Reinforcement Learning: Theory and Python Implementation. Beijing: China Machine Press. 2019. 44 páginas. ISBN 9787111631774
- ↑ Shapley, Lloyd (1953). «Stochastic Games». Proceedings of the National Academy of Sciences of the United States of America. 39 (10): 1095–1100. Bibcode:1953PNAS...39.1095S. PMC 1063912
. PMID 16589380. doi:10.1073/pnas.39.10.1095
- ↑ Kallenberg, Lodewijk (2002). «Finite state and action MDPs». In: Feinberg, Eugene A.; Shwartz, Adam. Handbook of Markov decision processes: methods and applications. [S.l.]: Springer. ISBN 978-0-7923-7459-6
- ↑ Howard, Ronald A. (1960). Dynamic Programming and Markov Processes. [S.l.]: The M.I.T. Press
- ↑ Howard 2002, "Comments on the Origin and Application of Markov Decision Processes"
- ↑ Puterman, M. L.; Shin, M. C. (1978). «Modified Policy Iteration Algorithms for Discounted Markov Decision Problems». Management Science. 24 (11): 1127–1137. doi:10.1287/mnsc.24.11.1127
- ↑ van Nunen, J.A. E. E (1976). «A set of successive approximation methods for discounted Markovian decision problems». Zeitschrift für Operations Research. 20 (5): 203–208. doi:10.1007/bf01920264
- ↑ Papadimitriou, Christos; Tsitsiklis, John (1987). «The Complexity of Markov Decision Processes». Mathematics of Operations Research. 12 (3): 441–450. doi:10.1287/moor.12.3.441. hdl:1721.1/2893
. Consultado em 2 de novembro de 2023
- ↑ Kearns, Michael; Mansour, Yishay; Ng, Andrew (novembro de 2002). «A Sparse Sampling Algorithm for Near-Optimal Planning in Large Markov Decision Processes». Machine Learning. 49 (2/3): 193–208. doi:10.1023/A:1017932429737
- ↑ Altman, Eitan (1999). Constrained Markov decision processes. 7. [S.l.]: CRC Press
- ↑ Ding, Dongsheng; Zhang, Kaiqing; Jovanovic, Mihailo; Basar, Tamer (2020). Natural policy gradient primal-dual method for constrained Markov decision processes. Advances in Neural Information Processing Systems
- ↑ Feyzabadi, S.; Carpin, S. (18–22 de agosto de 2014). «Risk-aware path planning using hierarchical constrained Markov Decision Processes». Automation Science and Engineering (CASE). IEEE International Conference. pp. 297, 303
- ↑ Continuous-Time Markov Decision Processes. Col: Stochastic Modelling and Applied Probability (em inglês). 62. [S.l.: s.n.] 2009. ISBN 978-3-642-02546-4. doi:10.1007/978-3-642-02547-1
- ↑ Shoham, Y.; Powers, R.; Grenager, T. (2003). «Multi-agent reinforcement learning: a critical survey» (PDF). Technical Report, Stanford University: 1–13. Consultado em 12 de dezembro de 2018
- ↑ Narendra, K. S.; Thathachar, M. A. L. (1974). «Learning Automata – A Survey». IEEE Transactions on Systems, Man, and Cybernetics. SMC-4 (4): 323–334. Bibcode:1974ITSMC...4..323N. CiteSeerX 10.1.1.295.2280
. ISSN 0018-9472. doi:10.1109/TSMC.1974.5408453
- ↑ a b Narendra, Kumpati S.; Thathachar, Mandayam A. L. (1989). Learning automata: An introduction (em inglês). [S.l.]: Prentice Hall. ISBN 9780134855585
- ↑ Narendra & Thathachar 1974, p.325 left.
Bibliografia
editar- Bellman, R. (1957), Dynamic Programming, ISBN 978-0-486-42809-3, Princeton University Press. Edição de bolso da Dover (2003)
- Bellman., R. E. (2003) [1957]. Dynamic Programming Dover paperback ed. Princeton, NJ: Princeton University Press. ISBN 978-0-486-42809-3
- Bertsekas, D. (1995). Dynamic Programming and Optimal Control. 2. MA: Athena
- Derman, C. (1970). Finite state Markovian decision processes. [S.l.]: Academic Press
- Feinberg, E.A.; Shwartz, A., eds. (2002). Handbook of Markov Decision Processes. Boston, MA: Kluwer. ISBN 9781461508052
- Guo, X.; Hernández-Lerma, O. (2009). Continuous-Time Markov Decision Processes. Col: Stochastic Modelling and Applied Probability. [S.l.]: Springer. ISBN 9783642025464
- Meyn, S. P. (2007). Control Techniques for Complex Networks. [S.l.]: Cambridge University Press. ISBN 978-0-521-88441-9. Cópia arquivada em 19 de junho de 2010 Apêndice contém resumo de «Meyn & Tweedie». Cópia arquivada em 18 de dezembro de 2012
- Puterman., M. L. (1994). Markov Decision Processes. [S.l.]: Wiley
- Ross, S. M. (1983). Introduction to stochastic dynamic programming (PDF). [S.l.]: Academic press. Consultado em 19 de janeiro de 2019. Arquivado do original (PDF) em 4 de março de 2022
- Sutton, R. S.; Barto, A. G. (2017). Reinforcement Learning: An Introduction. Cambridge, MA: The MIT Press
- Tijms., H.C. (2003). A First Course in Stochastic Models. [S.l.]: Wiley. ISBN 9780470864289