Processo de decisão de Markov 📖 Wikipedia

Processo de decisão de Markov (MDP, do inglês Markov decision process) é um modelo matemático para a tomada de decisão sequencial quando os resultados são incertos.^[1] É um tipo de processo de decisão estocástico,^[2] e é frequentemente resolvido usando os métodos da programação dinâmica estocástica.

Originário da pesquisa operacional na década de 1950,^[3]^[4] os MDPs desde então ganharam reconhecimento em uma variedade de campos, incluindo ecologia, economia, saúde, telecomunicações e aprendizado por reforço.^[5] O aprendizado por reforço utiliza a estrutura dos MDPs para modelar a interação entre um agente de aprendizado e seu ambiente. Nesta estrutura, a interação é caracterizada por estados, ações e recompensas. A estrutura MDP é projetada para fornecer uma representação simplificada de elementos-chave de desafios da inteligência artificial. Esta estrutura de modelagem incorpora a compreensão de causa e efeito, o gerenciamento de incerteza e não determinismo, e a busca de objetivos explícitos.^[5]

O nome vem de sua conexão com as Cadeias de Markov, um conceito desenvolvido pelo matemático russo Andrey Markov. O termo "Markov" em "Processo de decisão de Markov" refere-se à estrutura subjacente das transições de estado que ainda seguem a Propriedade de Markov. O processo é chamado de "processo de decisão" porque envolve tomar decisões que influenciam essas transições de estado, estendendo o conceito de uma cadeia de Markov para o reino da tomada de decisão sob incerteza.

Definição

editar

Um Processo de Decisão de Markov é uma 4-tupla $(S,A,P_{a},R_{a})$ , onde:

$S$ é um conjunto de estados chamado de espaço de estados. O espaço de estados pode ser discreto ou contínuo, como o conjunto dos números reais.
$A$ é um conjunto de ações chamado de espaço de ações (alternativamente, $A_{s}$ é o conjunto de ações disponíveis a partir do estado $s$ ). Assim como para o estado, este conjunto pode ser discreto ou contínuo.
$P_{a}(s,s')$ é, em um nível intuitivo, a probabilidade de que a ação $a$ no estado $s$ no tempo $t$ levará ao estado $s'$ no tempo $t+1$ . Em geral, esta probabilidade de transição é definida para satisfazer $\Pr(s_{t+1}\in S'\mid s_{t}=s,a_{t}=a)=\int _{S'}P_{a}(s,s')ds',$ para todo $S'\subseteq S$ mensurável. Caso o espaço de estados seja discreto, a integral é pretendida em relação à medida de contagem, de modo que esta última se simplifica como $P_{a}(s,s')=\Pr(s_{t+1}=s'\mid s_{t}=s,a_{t}=a)$ ; caso $S\subseteq \mathbb {R} ^{d}$ , a integral é usualmente pretendida em relação à Medida de Lebesgue.
$R_{a}(s,s')$ é a recompensa imediata (ou recompensa imediata esperada) recebida após a ação $a$ ser tomada para a transição do estado $s$ para o estado $s'$ . A recompensa é, em geral, uma variável aleatória.

Uma função de política $\pi$ é um mapeamento (potencialmente probabilístico) do espaço de estados ( $S$ ) para o espaço de ações ( $A$ ).

Objetivo de otimização

editar

O objetivo em um processo de decisão de Markov é encontrar uma boa "política" para o tomador de decisão: uma função $\pi$ que especifica a ação $\pi (s)$ que o tomador de decisão escolherá quando estiver no estado $s$ . Uma vez que um processo de decisão de Markov é combinado com uma política dessa maneira, isso fixa a ação para cada estado e a combinação resultante se comporta como uma cadeia de Markov (já que a ação escolhida no estado $s$ é completamente determinada por $\pi (s)$ ).

O objetivo é escolher uma política $\pi$ que maximize alguma função cumulativa das recompensas aleatórias, tipicamente a soma descontada esperada ao longo de um horizonte potencialmente infinito:

E\left[\sum _{t=0}^{\infty }{\gamma ^{t}R_{a_{t}}(s_{t},s_{t+1})}\right]

(onde escolhemos

a_{t}=\pi (s_{t})

, ou seja, ações dadas pela política). E a esperança é tomada sobre

s_{t+1}\sim P_{a_{t}}(s_{t},s_{t+1})

onde $\ \gamma \$ é o fator de desconto satisfazendo $0\leq \ \gamma \ \leq \ 1$ , que geralmente é próximo de $1$ (por exemplo, $\gamma =1/(1+r)$ para alguma taxa de desconto $r$ ). Um fator de desconto menor torna o tomador de decisão mais "míope", no sentido de que ele desconsidera comparativamente o efeito que seguir sua política atual tem em momentos mais no futuro.

Outro objetivo possível, mas estritamente relacionado e comumente usado, é o retorno de $H-$ passos. Desta vez, em vez de usar um fator de desconto $\ \gamma \$ , o agente está interessado apenas nos primeiros $H$ passos do processo, com cada recompensa tendo o mesmo peso.

E\left[\sum _{t=0}^{H-1}{R_{a_{t}}(s_{t},s_{t+1})}\right]

(onde escolhemos

a_{t}=\pi (s_{t})

, ou seja, ações dadas pela política). E a esperança é tomada sobre

s_{t+1}\sim P_{a_{t}}(s_{t},s_{t+1})

onde $\ H\$ é o horizonte temporal. Comparado ao objetivo anterior, este último é mais utilizado na Teoria da Aprendizagem.

Uma política que maximiza a função acima é chamada de política ótima e é usualmente denotada por $\pi ^{*}$ . Um MDP específico pode ter várias políticas ótimas distintas. Devido à propriedade de Markov, pode-se demonstrar que a política ótima é uma função do estado atual, conforme assumido acima. Quando $R_{a}(s,s')$ é determinístico, sempre existirá uma política ótima $\pi ^{*}$ que também seja determinística.

[Prova]

Assuma que $R$ é determinístico, o que significa que para as constantes $a,s,s'$ o valor $R_{a}(s,s')$ também é constante. Para $\gamma <1$ sabe-se que existe um único ponto fixo $V^{*}$ que satisfaz a recursão de iteração de valor (equação de Bellman)

$V^{*}(s)=\max _{a}E\left[R_{a}(s,s')+\gamma V^{*}(s')\right]$

Por inspeção, note que este ponto fixo é a função de valor associada à seguinte política.

$\pi ^{*}(s):=\arg \max _{a}E\left[R_{a}(s,s')+\gamma V^{*}(s')\right]$

Ao desenrolar a recursão de Bellman, pode-se demonstrar que $V^{*}$ é de fato ótimo (simultaneamente para todos os estados) sobre o conjunto de políticas determinísticas.

${\begin{aligned}V^{*}(s_{0})&=\max _{a_{0}}E\left[R_{a_{0}}(s_{0},s_{1})+\gamma V^{*}(s_{1})\right]\\&=\max _{a_{0}}E\left[R_{a_{0}}(s_{0},s_{1})+\gamma \max _{a_{1}}E\left[R_{a_{1}}(s_{1},s_{2})+\gamma V^{*}(s_{2})\right]\right]\\&=\max _{a_{0},a_{1}}E\left[R_{a_{0}}(s_{0},s_{1})+\gamma \left(R_{a_{1}}(s_{1},s_{2})+\gamma V^{*}(s_{2})\right)\right]\\&=\sup _{\{a_{t}\}_{t=0}^{\infty }}E\left[\sum _{t=0}^{\infty }\gamma ^{t}R_{a_{t}}(s_{t},s_{t+1})\right]\end{aligned}}$

Considere o caso onde $\pi$ é probabilístico, o que significa que a ação tomada $a:=\pi (s)$ é uma variável aleatória. Pode-se demonstrar que qualquer política não determinística desse tipo é dominada por uma $\pi ^{*}$ determinística da seguinte forma.

${\begin{aligned}V^{*}(s_{0})&=\max _{a_{0}}E\left[R_{a_{0}}(s_{0},s_{1})+\gamma V^{*}(s_{1})\right]\\&\geq E\left[R_{\pi (s_{0})}(s_{0},s_{1})+\gamma V^{*}(s_{1})\right]\\&=E\left[R_{\pi (s_{0})}(s_{0},s_{1})+\gamma \max _{a_{1}}E\left[R_{a_{1}}(s_{1},s_{2})+\gamma V^{*}(s_{2})\right]\right]\\&\geq E\left[R_{\pi (s_{0})}(s_{0},s_{1})+\gamma \left(R_{\pi (s_{1})}(s_{1},s_{2})+\gamma V^{*}(s_{2})\right)\right]\\&\geq E\left[\sum _{t=0}^{\infty }\gamma ^{t}R_{\pi (s_{t})}(s_{t},s_{t+1})\right]\end{aligned}}$

Modelos de simulador

editar

Em muitos casos, é difícil representar as distribuições de probabilidade de transição, $P_{a}(s,s')$ , explicitamente. Nesses casos, um simulador pode ser usado para modelar o MDP implicitamente, fornecendo amostras das distribuições de transição. Uma forma comum de modelo MDP implícito é um simulador de ambiente episódico que pode ser iniciado a partir de um estado inicial e que rende um estado e recompensa subsequentes cada vez que recebe uma entrada de ação. Desta maneira, trajetórias de estados, ações e recompensas, muitas vezes chamadas de episódios, podem ser produzidas.

Outra forma de simulador é um modelo generativo, um simulador de passo único que pode gerar amostras do próximo estado e da recompensa, dado qualquer estado e ação.^[6] (Note que este é um significado diferente do termo modelo generativo no contexto da classificação estatística.) Em algoritmos que são expressos usando pseudocódigo, $G$ é frequentemente usado para representar um modelo generativo. Por exemplo, a expressão $s',r\gets G(s,a)$ pode denotar a ação de amostragem a partir do modelo generativo, onde $s$ e $a$ são o estado e a ação atuais, e $s'$ e $r$ são o novo estado e a recompensa. Comparado a um simulador episódico, um modelo generativo tem a vantagem de poder produzir dados a partir de qualquer estado, não apenas daqueles encontrados em uma trajetória.

Essas classes de modelo formam uma hierarquia de conteúdo de informação: um modelo explícito trivialmente gera um modelo generativo através da amostragem das distribuições, e a aplicação repetida de um modelo generativo gera um simulador episódico. Na direção oposta, só é possível aprender modelos aproximados através de análise de regressão. O tipo de modelo disponível para um MDP específico desempenha um papel significativo na determinação de quais algoritmos de solução são apropriados. Por exemplo, os algoritmos de programação dinâmica descritos na próxima seção exigem um modelo explícito, e a busca em árvore de Monte Carlo exige um modelo generativo (ou um simulador episódico que pode ser copiado em qualquer estado), enquanto a maioria dos algoritmos de aprendizado por reforço exige apenas um simulador episódico.

Exemplo

editar

Um exemplo de MDP é o modelo do Pêndulo Invertido (Pole-Balancing), que advém da teoria de controle clássico.

Neste exemplo, temos:

$S$ é o conjunto de tuplas ordenadas $(\theta ,{\dot {\theta }},x,{\dot {x}})$ dadas pelo ângulo do mastro, velocidade angular, posição do carrinho e sua velocidade.
$A$ é $\{-1,1\}$ , correspondendo à aplicação de uma força para a esquerda (ou direita) no carrinho.
$P_{a}(s,s')$ é a transição do sistema, que neste caso será determinística e impulsionada pelas leis da mecânica.
$R_{a}(s,s')$ é $1$ se o mastro estiver para cima após a transição, ou zero caso contrário. Portanto, essa função depende apenas de $s'$ neste caso específico.

Algoritmos

editar

Soluções para MDPs com espaços finitos de estados e ações podem ser encontradas através de uma variedade de métodos, como a programação dinâmica. Os algoritmos nesta seção se aplicam a MDPs com espaços finitos de estados e ações, probabilidades de transição e funções de recompensa dadas explicitamente, mas os conceitos básicos podem ser estendidos para lidar com outras classes de problemas, por exemplo, usando aproximação de funções. Além disso, alguns processos com espaços de estados e ações infinitos contáveis podem ser exatamente reduzidos a processos com espaços finitos de estados e ações.^[7]

A família padrão de algoritmos para calcular políticas ótimas para MDPs de estado e ação finitos requer armazenamento para dois arrays indexados por estado: valor $V$ , que contém valores reais, e política $\pi$ , que contém ações. Ao final do algoritmo, $\pi$ conterá a solução e $V(s)$ conterá a soma descontada das recompensas a serem ganhas (em média) ao se seguir essa solução a partir do estado $s$ .

O algoritmo tem dois passos: (1) uma atualização de valor e (2) uma atualização de política, que são repetidas em alguma ordem para todos os estados até que nenhuma mudança adicional ocorra. Ambos atualizam recursivamente uma nova estimativa da política ótima e do valor do estado usando uma estimativa mais antiga desses valores.

V(s):=\sum _{s'}P_{\pi (s)}(s,s')\left(R_{\pi (s)}(s,s')+\gamma V(s')\right)

\pi (s):=\operatorname {argmax} _{a}\left\{\sum _{s'}P_{a}(s,s')\left(R_{a}(s,s')+\gamma V(s')\right)\right\}

A ordem deles depende da variante do algoritmo; pode-se também fazê-los para todos os estados de uma só vez ou estado por estado, e com mais frequência para alguns estados do que para outros. Desde que nenhum estado seja permanentemente excluído de qualquer um dos passos, o algoritmo eventualmente chegará à solução correta.^[8]

Variantes notáveis

editar

Iteração de valor

editar

Na iteração de valor (Bellman 1957), que também é chamada de indução retroativa (backward induction), a função $\pi$ não é usada; em vez disso, o valor de $\pi (s)$ é calculado dentro de $V(s)$ sempre que for necessário. Substituir o cálculo de $\pi (s)$ no cálculo de $V(s)$ dá o passo combinado;^{[mais explicações necessárias]}

V_{i+1}(s):=\max _{a}\left\{\sum _{s'}P_{a}(s,s')\left(R_{a}(s,s')+\gamma V_{i}(s')\right)\right\},

onde $i$ é o número da iteração. A iteração de valor começa com $i=0$ e $V_{0}$ como um palpite da função de valor. Em seguida, ela itera, computando repetidamente $V_{i+1}$ para todos os estados $s$ , até que $V$ convirja com o lado esquerdo igual ao lado direito (que é a "Equação de Bellman" para este problema^{[necessário esclarecer]}). O artigo de 1953 de Lloyd Shapley sobre jogos estocásticos incluía, como um caso especial, o método de iteração de valor para MDPs,^[9] mas isso foi reconhecido apenas mais tarde.^[10]

A iteração de valor tem convergência garantida para $\gamma <1$ pelo Teorema do ponto fixo de Banach.

[Prova]

O teorema do ponto fixo de Banach afirma que um dado mapeamento de contração tem um único ponto fixo; além disso, pode-se aproximar assintoticamente esse ponto fixo pela aplicação iterada do mapeamento de contração. Basta então mostrar que a iteração de valor é um mapeamento de contração, o que é demonstrado abaixo para $\gamma <1$ .

Denotamos $X_{a}^{V}(s):=\sum _{s'}P_{a}(s,s')\left(R_{a}(s,s')+\gamma V_{i}(s')\right)$ e $({\mathcal {B}}V)(s):=\max _{a}X_{a}^{V}(s)$ por conveniência.

${\begin{aligned}\|{\mathcal {B}}V-{\mathcal {B}}W\|_{\infty }&=\max _{s}\left|({\mathcal {B}}V)(s)-({\mathcal {B}}W)(s)\right|\\&=\max _{s}\left|\max _{a}X_{a}^{V}(s)-\max _{a}X_{a}^{W}(s)\right|\\&\leq \max _{s}\max _{a}\left|X_{a}^{V}(s)-X_{a}^{W}(s)\right|\\&=\max _{s}\max _{a}\gamma \left|\sum _{s'}P_{a}(s,s')\left(V_{i}(s')-W_{i}(s')\right)\right|\\&\leq \max _{s}\max _{a}\gamma \max _{s'}\left|V_{i}(s')-W_{i}(s')\right|\\&=\gamma \max _{s'}\left|V_{i}(s')-W_{i}(s')\right|\\&=\gamma \|V_{i}-W_{i}\|_{\infty }\end{aligned}}$

Iteração de política

editar

Na iteração de política,^[11] primeiro se executa a Determinação de Valor resolvendo para $V$ a partir do sistema linear descrito no passo um, depois se executa a Melhoria de Política computando $\pi$ como no passo dois, repetindo-se ambos os passos até que a política convirja. (A iteração de política foi inventada por Howard para otimizar as correspondências do catálogo da Sears, que ele vinha otimizando usando iteração de valor.^[12])

Uma vez que a iteração de política intercala efetivamente um problema inverso linear com uma operação não linear, ela pode ser interpretada como um tipo de método de relaxamento.

Essa variante tem a vantagem de ter uma condição de parada definida. Como existe uma solução única $V$ para cada política $\pi$ , o algoritmo é concluído assim que a Melhoria de Política produzir a mesma política duas vezes consecutivas.

Embora existam situações em que a iteração de política possa ser mais rápida que a iteração de valor (por exemplo, quando o espaço de ações é significativamente maior que o espaço de estados), a iteração de política costuma ser mais lenta que a iteração de valor para um grande número de estados possíveis.

Iteração de política modificada

editar

Na iteração de política modificada (van Nunen 1976; Puterman & Shin 1978), o passo um é repetido várias vezes, e então o passo dois é executado uma vez.^[13]^[14] Depois, o passo um é novamente repetido várias vezes e assim por diante.

Varredura priorizada

editar

Nesta variante (Prioritized sweeping), os passos são aplicados preferencialmente a estados que são de alguma forma importantes – seja com base no algoritmo (houve grandes mudanças em $V$ ou $\pi$ ao redor desses estados recentemente) ou com base no uso (aqueles estados estão próximos ao estado inicial, ou são de outro modo interessantes para a pessoa ou programa que está usando o algoritmo).

Complexidade computacional

editar

Existem algoritmos para encontrar políticas ótimas com complexidade de tempo polinomial no tamanho da representação do problema para MDPs finitos. Assim, problemas de decisão baseados em MDPs pertencem à classe de complexidade P.^[15] No entanto, devido à maldição da dimensionalidade, o tamanho da representação do problema é frequentemente exponencial no número de variáveis de estado e de ação, limitando as técnicas de solução exata a problemas que têm uma representação compacta. Na prática, técnicas de planejamento online, como a busca em árvore de Monte Carlo, podem encontrar soluções úteis em problemas maiores e, em teoria, é possível construir algoritmos de planejamento online que podem encontrar uma política arbitrariamente quase ótima sem dependência da complexidade computacional no tamanho do espaço de estados.^[16]

Extensões e generalizações

editar

Um processo de decisão de Markov é um jogo estocástico com apenas um jogador.

Observabilidade parcial

editar

A solução acima pressupõe que o estado $s$ é conhecido no momento em que a ação deve ser tomada; caso contrário, $\pi (s)$ não pode ser calculado. Quando essa suposição não é verdadeira, o problema é chamado de processo de decisão de Markov parcialmente observável ou POMDP.

Processos de decisão de Markov restritos

editar

Processos de decisão de Markov restritos (CMDPs) são extensões dos processos de decisão de Markov (MDPs). Existem três diferenças fundamentais entre MDPs e CMDPs.^[17]

Existem múltiplos custos incorridos após a aplicação de uma ação em vez de um só.
Os CMDPs são resolvidos apenas com programas lineares, e a programação dinâmica não funciona.
A política final depende do estado inicial.

O método dos Multiplicadores de Lagrange aplica-se aos CMDPs. Muitos algoritmos baseados em Lagrangianos foram desenvolvidos.

Método primal-dual de gradiente de política natural.^[18]

Existem várias aplicações para CMDPs. Recentemente, foi utilizado em cenários de planejamento de movimento na robótica.^[19]

Processo de decisão de Markov de tempo contínuo

editar

Nos Processos de Decisão de Markov de tempo discreto, as decisões são tomadas em intervalos de tempo discretos. No entanto, para os processos de decisão de Markov de tempo contínuo, as decisões podem ser tomadas a qualquer momento que o tomador de decisão escolher. Em comparação com os processos de tempo discreto, os processos de decisão de Markov de tempo contínuo podem modelar melhor o processo de tomada de decisão para um sistema que tem dinâmicas contínuas, ou seja, a dinâmica do sistema é definida por equações diferenciais ordinárias (EDOs). Esta estrutura de modelagem pode ser aplicada a áreas como sistemas de filas, processos epidêmicos e processos populacionais.

Assim como os processos de tempo discreto, nos processos de decisão de Markov de tempo contínuo, o agente busca encontrar a política ótima que maximizaria a recompensa cumulativa esperada. A diferença fundamental em relação ao caso padrão é que, devido à natureza contínua da variável tempo, a soma é substituída por uma integral:

\max \operatorname {E} _{\pi }\left[\left.\int _{0}^{\infty }\gamma ^{t}r(s(t),\pi (s(t)))\,dt\;\right|s_{0}\right]

onde $0\leq \gamma <1.$

Espaço discreto: Formulação em programação linear

editar

Se o espaço de estados e o espaço de ações forem finitos, poderíamos usar programação linear para encontrar a política ótima, que foi uma das primeiras abordagens aplicadas. Aqui, consideramos apenas o modelo ergódico, o que significa que nosso MDP de tempo contínuo se torna uma cadeia de Markov de tempo contínuo ergódica sob uma política estacionária. Sob essa premissa, embora o tomador de decisão possa tomar uma decisão a qualquer momento no estado atual, não há benefício em tomar múltiplas ações. É melhor tomar uma ação apenas no momento em que o sistema está transitando do estado atual para outro estado. Sob algumas condições,^[20] se nossa função de valor ótima $V^{*}$ for independente do estado $i$ , teremos a seguinte desigualdade:

g\geq R(i,a)+\sum _{j\in S}q(j\mid i,a)h(j)\quad \forall i\in S{\text{ e }}a\in A(i)

Se existe uma função $h$ , então ${\bar {V}}^{*}$ será o menor $g$ que satisfaz a equação acima. Para encontrar ${\bar {V}}^{*}$ , poderíamos usar o seguinte modelo de programação linear:

Programa linear primal (P-LP)

{\begin{aligned}{\text{Minimizar}}\quad &g\\{\text{s.a}}\quad &g-\sum _{j\in S}q(j\mid i,a)h(j)\geq R(i,a)\,\,\forall i\in S,\,a\in A(i)\end{aligned}}

Programa linear dual (D-LP)

{\begin{aligned}{\text{Maximizar}}&\sum _{i\in S}\sum _{a\in A(i)}R(i,a)y(i,a)\\{\text{s.a.}}&\sum _{i\in S}\sum _{a\in A(i)}q(j\mid i,a)y(i,a)=0\quad \forall j\in S,\\&\sum _{i\in S}\sum _{a\in A(i)}y(i,a)=1,\\&y(i,a)\geq 0\qquad \forall a\in A(i){\text{ e }}\forall i\in S\end{aligned}}

$y(i,a)$ é uma solução viável para o D-LP se $y(i,a)$ for não negativo e satisfizer as restrições no problema D-LP. Uma solução viável $y^{*}(i,a)$ para o D-LP é considerada uma solução ótima se

{\begin{aligned}\sum _{i\in S}\sum _{a\in A(i)}R(i,a)y^{*}(i,a)\geq \sum _{i\in S}\sum _{a\in A(i)}R(i,a)y(i,a)\end{aligned}}

para toda solução viável $y(i,a)$ do D-LP. Uma vez encontrada a solução ótima $y^{*}(i,a)$ , podemos usá-la para estabelecer as políticas ótimas.

Espaço contínuo: Equação de Hamilton–Jacobi–Bellman

editar

Em um MDP de tempo contínuo, se o espaço de estados e o espaço de ações forem contínuos, o critério ótimo pode ser encontrado resolvendo a equação diferencial parcial de Hamilton–Jacobi–Bellman (HJB). Para discutir a equação HJB, precisamos reformular nosso problema

{\begin{aligned}V(s(0),0)={}&\max _{a(t)=\pi (s(t))}\int _{0}^{T}r(s(t),a(t))\,dt+D[s(T)]\\{\text{s.a.}}\quad &{\frac {ds(t)}{dt}}=f[t,s(t),a(t)]\end{aligned}}

$D(\cdot )$ é a função de recompensa terminal, $s(t)$ é o vetor de estado do sistema, $a(t)$ é o vetor de controle do sistema que tentamos encontrar. $f(\cdot )$ mostra como o vetor de estado muda ao longo do tempo. A equação de Hamilton–Jacobi–Bellman é a seguinte:

0=\max _{a}(r(t,s,a)+{\frac {\partial V(t,s)}{\partial s}}f(t,s,a))

Poderíamos resolver a equação para encontrar a função de valor ótima $V^{*}$ , que por sua vez fornece o controle ótimo a qualquer momento $t$ , $a(t)$ , através de $a(t)={\underset {a}{\text{argmax}}}(r(t,s,a)+{\frac {\partial V^{*}(t,s)}{\partial s}}f(t,s,a)).$

Aprendizado por reforço

editar

O Aprendizado por reforço é uma área interdisciplinar do aprendizado de máquina e do controle ótimo que tem, como principal objetivo, encontrar uma política aproximadamente ótima para MDPs nos quais as probabilidades de transição e recompensas são desconhecidas.^[21]

O aprendizado por reforço pode resolver processos de Decisão de Markov sem a especificação explícita das probabilidades de transição que são necessárias para realizar a iteração de política. Neste cenário, as probabilidades de transição e recompensas devem ser aprendidas a partir da experiência, ou seja, permitindo que um agente interaja com o MDP por um determinado número de passos. Tanto no nível teórico quanto no prático, o esforço é direcionado para a maximização da eficiência da amostra, ou seja, minimizar o número de amostras necessárias para aprender uma política cujo desempenho seja $\varepsilon -$ próximo do ideal (devido à natureza estocástica do processo, aprender a política ótima com um número finito de amostras é, em geral, impossível).

Aprendizado por Reforço para MDPs discretos

editar

Para os propósitos desta seção, é útil definir uma função adicional, que corresponde a tomar a ação $a$ e depois continuar de forma otimizada (ou de acordo com a política que se possui atualmente):

\ Q(s,a)=\sum _{s'}P_{a}(s,s')(R_{a}(s,s')+\gamma V(s')).\

Embora essa função também seja desconhecida, a experiência durante o aprendizado baseia-se em pares $(s,a)$ (junto com o resultado $s'$ ; ou seja, "Eu estava no estado $s$ , tentei fazer $a$ e aconteceu $s'$ "). Assim, tem-se um array $Q$ e utiliza-se a experiência para atualizá-lo diretamente. Isso é conhecido como Q-learning.

Outros escopos

editar

Autômatos de aprendizado

editar

Outra aplicação do processo MDP na teoria do aprendizado de máquina é chamada de autômatos de aprendizado. Este também é um tipo de aprendizado por reforço se o ambiente for estocástico. O primeiro artigo detalhado sobre autômatos de aprendizado foi revisado por Narendra e Thathachar (1974), que foram originalmente descritos explicitamente como autômatos de estado finito.^[22] Assim como no aprendizado por reforço, um algoritmo de autômatos de aprendizado também possui a vantagem de resolver o problema quando as probabilidades ou recompensas são desconhecidas. A diferença entre os autômatos de aprendizado e o Q-learning é que a técnica anterior omite a memória dos valores-Q, mas atualiza a probabilidade de ação diretamente para encontrar o resultado do aprendizado. Os autômatos de aprendizado são um esquema de aprendizado com uma prova rigorosa de convergência.^[23]

Na teoria dos autômatos de aprendizado, um autômato estocástico consiste em:

um conjunto x de entradas possíveis,
um conjunto Φ = { Φ₁, ..., Φ_s } de estados internos possíveis,
um conjunto α = { α₁, ..., α_r } de saídas ou ações possíveis, com r ≤ s,
um vetor de probabilidade de estado inicial p(0) = ≪ p₁(0), ..., p_s(0) ≫,
uma função computável A que, após cada passo de tempo t, gera p(t + 1) a partir de p(t), da entrada atual e do estado atual, e
uma função G: Φ → α que gera a saída a cada passo de tempo.

Os estados de tal autômato correspondem aos estados de um "processo de Markov de parâmetros discretos e estados discretos".^[24] A cada passo de tempo t = 0,1,2,3,..., o autômato lê uma entrada de seu ambiente, atualiza P(t) para P(t + 1) pela função A, escolhe aleatoriamente um estado sucessor de acordo com as probabilidades P(t + 1) e emite a ação correspondente. O ambiente do autômato, por sua vez, lê a ação e envia a próxima entrada para o autômato.^[23]

Interpretação teórica por categorias

editar

Além das recompensas, um processo de decisão de Markov $(S,A,P)$ pode ser compreendido em termos da Teoria das categorias. Nomeadamente, seja ${\mathcal {A}}$ o monoide livre com conjunto gerador A. Seja Dist a categoria de Kleisli da mônada de Giry. Então um funtor ${\mathcal {A}}\to \mathbf {Dist}$ codifica tanto o conjunto S de estados quanto a função de probabilidade P.

Desta forma, os processos de decisão de Markov poderiam ser generalizados de monoides (categorias com um objeto) para categorias arbitrárias. Pode-se chamar o resultado $({\mathcal {C}},F:{\mathcal {C}}\to \mathbf {Dist} )$ de um processo de decisão de Markov dependente de contexto, porque mudar de um objeto para outro em ${\mathcal {C}}$ muda o conjunto de ações disponíveis e o conjunto de estados possíveis.

Notações alternativas

editar

A terminologia e a notação para MDPs não estão inteiramente consolidadas. Existem duas correntes principais — uma foca em problemas de maximização de contextos como economia, usando os termos ação, recompensa, valor e chamando o fator de desconto de $β$ ou $γ$ , enquanto a outra se concentra em problemas de minimização de engenharia e navegação, usando os termos controle, custo, custo a percorrer e chamando o fator de desconto de $α$ . Além disso, a notação para a probabilidade de transição varia.

neste artigo	alternativa	comentário
ação $a$	controle $u$
recompensa $R$	custo $g$	$g$ é o negativo de $R$
valor $V$	custo-a-percorrer (cost-to-go) $J$	$J$ é o negativo de $V$
política $π$	política $μ$
fator de desconto $γ$	fator de desconto $α$
probabilidade de transição $P_{a}(s,s')$	probabilidade de transição $p_{ss'}(a)$

Ademais, a probabilidade de transição é por vezes escrita como $\Pr(s,a,s')$ , $\Pr(s'\mid s,a)$ ou, raramente, $p_{s's}(a).$

Veja também

editar

Referências

editar

↑ Puterman, Martin L. (1994). Markov decision processes: discrete stochastic dynamic programming. Col: Wiley series in probability and mathematical statistics. Applied probability and statistics section. New York: Wiley. ISBN 978-0-471-61977-2
↑ Yin, Bo (2021). Airtime Management for Low-Latency Densely Deployed Wireless Networks (Tese de PhD). Japan: Kyoto University
↑ Schneider, S.; Wagner, D. H. (26 de fevereiro de 1957). «Error detection in redundant systems». Papers presented at the February 26-28, 1957, western joint computer conference: Techniques for reliability on - IRE-AIEE-ACM '57 (Western). New York, NY, USA: Association for Computing Machinery. pp. 115–121. ISBN 978-1-4503-7861-1. doi:10.1145/1455567.1455587
↑ Bellman, Richard (1 de setembro de 1958). «Dynamic programming and stochastic control processes». Information and Control. 1 (3): 228–239. Bibcode:1958InfCo...1..228B. ISSN 0019-9958. doi:10.1016/S0019-9958(58)80003-0
↑ ^a ^b Sutton, Richard S.; Barto, Andrew G. (2018). Reinforcement learning: an introduction. Col: Adaptive computation and machine learning series 2nd ed. Cambridge, Massachusetts: The MIT Press. ISBN 978-0-262-03924-6
↑ Kearns, Michael; Mansour, Yishay; Ng, Andrew (2002). «A Sparse Sampling Algorithm for Near-Optimal Planning in Large Markov Decision Processes». Machine Learning. 49 (193–208): 193–208. doi:10.1023/A:1017932429737
↑ Wrobel, A. (1984). «On Markovian decision models with a finite skeleton». Zeitschrift für Operations Research. 28 (1): 17–27. doi:10.1007/bf01919083
↑ Reinforcement Learning: Theory and Python Implementation. Beijing: China Machine Press. 2019. 44 páginas. ISBN 9787111631774
↑ Shapley, Lloyd (1953). «Stochastic Games». Proceedings of the National Academy of Sciences of the United States of America. 39 (10): 1095–1100. Bibcode:1953PNAS...39.1095S. PMC 1063912. PMID 16589380. doi:10.1073/pnas.39.10.1095
↑ Kallenberg, Lodewijk (2002). «Finite state and action MDPs». In: Feinberg, Eugene A.; Shwartz, Adam. Handbook of Markov decision processes: methods and applications. [S.l.]: Springer. ISBN 978-0-7923-7459-6
↑ Howard, Ronald A. (1960). Dynamic Programming and Markov Processes. [S.l.]: The M.I.T. Press
↑ Howard 2002, "Comments on the Origin and Application of Markov Decision Processes"
↑ Puterman, M. L.; Shin, M. C. (1978). «Modified Policy Iteration Algorithms for Discounted Markov Decision Problems». Management Science. 24 (11): 1127–1137. doi:10.1287/mnsc.24.11.1127
↑ van Nunen, J.A. E. E (1976). «A set of successive approximation methods for discounted Markovian decision problems». Zeitschrift für Operations Research. 20 (5): 203–208. doi:10.1007/bf01920264
↑ Papadimitriou, Christos; Tsitsiklis, John (1987). «The Complexity of Markov Decision Processes». Mathematics of Operations Research. 12 (3): 441–450. doi:10.1287/moor.12.3.441. hdl:1721.1/2893. Consultado em 2 de novembro de 2023
↑ Kearns, Michael; Mansour, Yishay; Ng, Andrew (novembro de 2002). «A Sparse Sampling Algorithm for Near-Optimal Planning in Large Markov Decision Processes». Machine Learning. 49 (2/3): 193–208. doi:10.1023/A:1017932429737
↑ Altman, Eitan (1999). Constrained Markov decision processes. 7. [S.l.]: CRC Press
↑ Ding, Dongsheng; Zhang, Kaiqing; Jovanovic, Mihailo; Basar, Tamer (2020). Natural policy gradient primal-dual method for constrained Markov decision processes. Advances in Neural Information Processing Systems
↑ Feyzabadi, S.; Carpin, S. (18–22 de agosto de 2014). «Risk-aware path planning using hierarchical constrained Markov Decision Processes». Automation Science and Engineering (CASE). IEEE International Conference. pp. 297, 303
↑ Continuous-Time Markov Decision Processes. Col: Stochastic Modelling and Applied Probability (em inglês). 62. [S.l.: s.n.] 2009. ISBN 978-3-642-02546-4. doi:10.1007/978-3-642-02547-1
↑ Shoham, Y.; Powers, R.; Grenager, T. (2003). «Multi-agent reinforcement learning: a critical survey» (PDF). Technical Report, Stanford University: 1–13. Consultado em 12 de dezembro de 2018
↑ Narendra, K. S.; Thathachar, M. A. L. (1974). «Learning Automata – A Survey». IEEE Transactions on Systems, Man, and Cybernetics. SMC-4 (4): 323–334. Bibcode:1974ITSMC...4..323N. CiteSeerX 10.1.1.295.2280. ISSN 0018-9472. doi:10.1109/TSMC.1974.5408453
↑ ^a ^b Narendra, Kumpati S.; Thathachar, Mandayam A. L. (1989). Learning automata: An introduction (em inglês). [S.l.]: Prentice Hall. ISBN 9780134855585
↑ Narendra & Thathachar 1974, p.325 left.

Bibliografia

editar

Bellman, R. (1957), Dynamic Programming, ISBN 978-0-486-42809-3, Princeton University Press . Edição de bolso da Dover (2003)
Bellman., R. E. (2003) [1957]. Dynamic Programming Dover paperback ed. Princeton, NJ: Princeton University Press. ISBN 978-0-486-42809-3
Bertsekas, D. (1995). Dynamic Programming and Optimal Control. 2. MA: Athena
Derman, C. (1970). Finite state Markovian decision processes. [S.l.]: Academic Press
Feinberg, E.A.; Shwartz, A., eds. (2002). Handbook of Markov Decision Processes. Boston, MA: Kluwer. ISBN 9781461508052
Guo, X.; Hernández-Lerma, O. (2009). Continuous-Time Markov Decision Processes. Col: Stochastic Modelling and Applied Probability. [S.l.]: Springer. ISBN 9783642025464
Meyn, S. P. (2007). Control Techniques for Complex Networks. [S.l.]: Cambridge University Press. ISBN 978-0-521-88441-9. Cópia arquivada em 19 de junho de 2010 Apêndice contém resumo de «Meyn & Tweedie». Cópia arquivada em 18 de dezembro de 2012
Puterman., M. L. (1994). Markov Decision Processes. [S.l.]: Wiley
Ross, S. M. (1983). Introduction to stochastic dynamic programming (PDF). [S.l.]: Academic press. Consultado em 19 de janeiro de 2019. Arquivado do original (PDF) em 4 de março de 2022
Sutton, R. S.; Barto, A. G. (2017). Reinforcement Learning: An Introduction. Cambridge, MA: The MIT Press
Tijms., H.C. (2003). A First Course in Stochastic Models. [S.l.]: Wiley. ISBN 9780470864289

[1] Puterman, Martin L. (1994). Markov decision processes: discrete stochastic dynamic programming. Col: Wiley series in probability and mathematical statistics. Applied probability and statistics section. New York: Wiley. ISBN 978-0-471-61977-2

[2] Yin, Bo (2021). Airtime Management for Low-Latency Densely Deployed Wireless Networks (Tese de PhD). Japan: Kyoto University

[3] Schneider, S.; Wagner, D. H. (26 de fevereiro de 1957). «Error detection in redundant systems». Papers presented at the February 26-28, 1957, western joint computer conference: Techniques for reliability on - IRE-AIEE-ACM '57 (Western). New York, NY, USA: Association for Computing Machinery. pp. 115–121. ISBN 978-1-4503-7861-1. doi:10.1145/1455567.1455587

[4] Bellman, Richard (1 de setembro de 1958). «Dynamic programming and stochastic control processes». Information and Control. 1 (3): 228–239. Bibcode:1958InfCo...1..228B. ISSN 0019-9958. doi:10.1016/S0019-9958(58)80003-0

[:0-5] Sutton, Richard S.; Barto, Andrew G. (2018). Reinforcement learning: an introduction. Col: Adaptive computation and machine learning series 2nd ed. Cambridge, Massachusetts: The MIT Press. ISBN 978-0-262-03924-6

[Kearns_Sparse-6] Kearns, Michael; Mansour, Yishay; Ng, Andrew (2002). «A Sparse Sampling Algorithm for Near-Optimal Planning in Large Markov Decision Processes». Machine Learning. 49 (193–208): 193–208. doi:10.1023/A:1017932429737

[Wrobel_1984-7] Wrobel, A. (1984). «On Markovian decision models with a finite skeleton». Zeitschrift für Operations Research. 28 (1): 17–27. doi:10.1007/bf01919083

[8] Reinforcement Learning: Theory and Python Implementation. Beijing: China Machine Press. 2019. 44 páginas. ISBN 9787111631774

[9] Shapley, Lloyd (1953). «Stochastic Games». Proceedings of the National Academy of Sciences of the United States of America. 39 (10): 1095–1100. Bibcode:1953PNAS...39.1095S. PMC 1063912. PMID 16589380. doi:10.1073/pnas.39.10.1095

[10] Kallenberg, Lodewijk (2002). «Finite state and action MDPs». In: Feinberg, Eugene A.; Shwartz, Adam. Handbook of Markov decision processes: methods and applications. [S.l.]: Springer. ISBN 978-0-7923-7459-6

[11] Howard, Ronald A. (1960). Dynamic Programming and Markov Processes. [S.l.]: The M.I.T. Press

[12] Howard 2002, "Comments on the Origin and Application of Markov Decision Processes"

[13] Puterman, M. L.; Shin, M. C. (1978). «Modified Policy Iteration Algorithms for Discounted Markov Decision Problems». Management Science. 24 (11): 1127–1137. doi:10.1287/mnsc.24.11.1127

[14] van Nunen, J.A. E. E (1976). «A set of successive approximation methods for discounted Markovian decision problems». Zeitschrift für Operations Research. 20 (5): 203–208. doi:10.1007/bf01920264

[15] Papadimitriou, Christos; Tsitsiklis, John (1987). «The Complexity of Markov Decision Processes». Mathematics of Operations Research. 12 (3): 441–450. doi:10.1287/moor.12.3.441. hdl:1721.1/2893. Consultado em 2 de novembro de 2023

[16] Kearns, Michael; Mansour, Yishay; Ng, Andrew (novembro de 2002). «A Sparse Sampling Algorithm for Near-Optimal Planning in Large Markov Decision Processes». Machine Learning. 49 (2/3): 193–208. doi:10.1023/A:1017932429737

[17] Altman, Eitan (1999). Constrained Markov decision processes. 7. [S.l.]: CRC Press

[18] Ding, Dongsheng; Zhang, Kaiqing; Jovanovic, Mihailo; Basar, Tamer (2020). Natural policy gradient primal-dual method for constrained Markov decision processes. Advances in Neural Information Processing Systems

[19] Feyzabadi, S.; Carpin, S. (18–22 de agosto de 2014). «Risk-aware path planning using hierarchical constrained Markov Decision Processes». Automation Science and Engineering (CASE). IEEE International Conference. pp. 297, 303

[20] Continuous-Time Markov Decision Processes. Col: Stochastic Modelling and Applied Probability (em inglês). 62. [S.l.: s.n.] 2009. ISBN 978-3-642-02546-4. doi:10.1007/978-3-642-02547-1

[21] Shoham, Y.; Powers, R.; Grenager, T. (2003). «Multi-agent reinforcement learning: a critical survey» (PDF). Technical Report, Stanford University: 1–13. Consultado em 12 de dezembro de 2018

[22] Narendra, K. S.; Thathachar, M. A. L. (1974). «Learning Automata – A Survey». IEEE Transactions on Systems, Man, and Cybernetics. SMC-4 (4): 323–334. Bibcode:1974ITSMC...4..323N. CiteSeerX 10.1.1.295.2280. ISSN 0018-9472. doi:10.1109/TSMC.1974.5408453

[NarendraEtAl1989-23] Narendra, Kumpati S.; Thathachar, Mandayam A. L. (1989). Learning automata: An introduction (em inglês). [S.l.]: Prentice Hall. ISBN 9780134855585

[FOOTNOTENarendraThathachar1974p.325_left-24] Narendra & Thathachar 1974, p.325 left.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

Processo de decisão de Markov 📖 Wikipedia

Índice

Definição

Objetivo de otimização

Modelos de simulador

Exemplo

Algoritmos

Variantes notáveis

Iteração de valor

Iteração de política

Iteração de política modificada

Varredura priorizada

Complexidade computacional

Extensões e generalizações

Observabilidade parcial

Processos de decisão de Markov restritos

Processo de decisão de Markov de tempo contínuo

Espaço discreto: Formulação em programação linear

Espaço contínuo: Equação de Hamilton–Jacobi–Bellman

Aprendizado por reforço

Aprendizado por Reforço para MDPs discretos

Outros escopos

Autômatos de aprendizado

Interpretação teórica por categorias

Notações alternativas

Veja também

Referências

Bibliografia

📚 Artikel Terkait di Wikipedia

Matemática

Lista de jogos para Atari 2600