Método de Gradiente de Política 📖 Wikipedia

Métodos de gradiente de política (policy gradient methods) são uma classe de algoritmos de aprendizado por reforço e uma subclasse de métodos de otimização de política. Ao contrário dos métodos baseados em valor, que aprendem uma função de valor para derivar uma política, os métodos de otimização de política aprendem diretamente uma função de política $\pi$ que seleciona ações sem consultar uma função de valor. Para que o gradiente de política se aplique, a função de política $\pi _{\theta }$ é parametrizada por um parâmetro diferenciável $\theta$ .^[1]

Visão geral

editar

No aprendizado por reforço baseado em política, o ator é uma função de política parametrizada $\pi _{\theta }$ , onde $\theta$ são os parâmetros do ator. O ator recebe como argumento o estado do ambiente $s$ e produz uma distribuição de probabilidade $\pi _{\theta }(\cdot \mid s)$ .

Se o espaço de ação é discreto, então $\sum _{a}\pi _{\theta }(a\mid s)=1$ . Se o espaço de ação é contínuo, então $\int _{a}\pi _{\theta }(a\mid s)\mathrm {d} a=1$ .

O objetivo da otimização de política é encontrar algum $\theta$ que maximize a recompensa episódica esperada $J(\theta )$ : $J(\theta )=\mathbb {E} _{\pi _{\theta }}\left[\sum _{t\in 0:T}\gamma ^{t}R_{t}{\Big |}S_{0}=s_{0}\right]$ onde $\gamma$ é o fator de desconto, $R_{t}$ é a recompensa no passo $t$ , $s_{0}$ é o estado inicial e $T$ é o horizonte de tempo (que pode ser infinito).

O gradiente de política é definido como $\nabla _{\theta }J(\theta )$ . Diferentes métodos de gradiente de política estimam estocasticamente o gradiente de política de maneiras diferentes. O objetivo de qualquer método de gradiente de política é maximizar iterativamente $J(\theta )$ por meio da ascensão de gradiente. Como a parte fundamental de qualquer método de gradiente de política é a estimativa estocástica do gradiente de política, eles também são estudados sob o título de "Estimativa de gradiente de Monte Carlo".^[2]

REINFORCE

editar

Gradiente de política

editar

O algoritmo REINFORCE, introduzido por Ronald J. Williams em 1992, foi o primeiro método de gradiente de política.^[3]

É baseado na identidade do gradiente de política $\nabla _{\theta }J(\theta )=\mathbb {E} _{\pi _{\theta }}\left[\sum _{t=0}^{T}\nabla _{\theta }\ln \pi _{\theta }(A_{t}\mid S_{t})\;\sum _{\tau =0}^{T}(\gamma ^{\tau }R_{\tau }){\Big |}S_{0}=s_{0}\right]$

que pode ser aprimorada através do "truque da causalidade"^[1]

$\nabla _{\theta }J(\theta )=\mathbb {E} _{\pi _{\theta }}\left[\sum _{t=0}^{T}\nabla _{\theta }\ln \pi _{\theta }(A_{t}\mid S_{t})\sum _{\tau =t}^{T}(\gamma ^{\tau }R_{\tau }){\Big |}S_{0}=s_{0}\right]$

Lema —

A esperança da função escore é zero, condicionada a qualquer estado presente ou passado. Ou seja, para qualquer $0\leq i\leq j\leq T$ e qualquer estado $s_{i}$ , temos $\mathbb {E} _{\pi _{\theta }}[\nabla _{\theta }\ln \pi _{\theta }(A_{j}|S_{j})\mid S_{i}=s_{i}]=0.$

Além disso, se ${\textstyle \Psi _{i}}$ é uma variável aleatória que é independente de ${\textstyle A_{i},S_{i+1},A_{i+1},\dots }$ , então $\mathbb {E} _{\pi _{\theta }}[\nabla _{\theta }\ln \pi _{\theta }(A_{j}\mid S_{j})\cdot \Psi _{i}\mid S_{i}=s_{i}]=0.$

Demonstrações

Demonstração do lema

Use o truque da reparametrização.

${\begin{aligned}\mathbb {E} _{\pi _{\theta }}[\nabla _{\theta }\ln \pi _{\theta }(A_{j}|S_{j})\mid S_{i}=s_{i}]&=\sum _{s}Pr(S_{j}=s\mid S_{i}=s_{i})\sum _{a}\pi _{\theta }(a\mid s)\nabla _{\theta }\ln \pi _{\theta }(a\mid s)\\&=\sum _{s}Pr(S_{j}=s\mid S_{i}=s_{i})\sum _{a}\pi _{\theta }(a\mid s){\frac {\nabla _{\theta }\pi _{\theta }(a\mid s)}{\pi _{\theta }(a\mid s)}}\\&=\sum _{s}Pr(S_{j}=s\mid S_{i}=s_{i})\sum _{a}\nabla _{\theta }\pi _{\theta }(a\mid s)\\&=\sum _{s}Pr(S_{j}=s\mid S_{i}=s_{i})\nabla _{\theta }\sum _{a}\pi _{\theta }(a\mid s)\end{aligned}}$

Como a política $\pi _{\theta }(a\mid s)$ é uma distribuição de probabilidade sobre ações para um determinado estado, ${\textstyle \sum _{a}\pi _{\theta }(a\mid s)=1}$ .

${\begin{aligned}\mathbb {E} _{\pi _{\theta }}[\nabla _{\theta }\ln \pi _{\theta }(A_{j}\mid S_{j})]&=\sum _{s}Pr(S_{j}=s\mid S_{i}=s_{i})\nabla _{\theta }(1)\\&=\sum _{s}Pr(S_{j}=s\mid S_{i}=s_{i})\cdot 0\\&=0\end{aligned}}$

Pela lei da esperança iterada (lei da torre) e pelo lema anterior,

${\begin{aligned}\mathbb {E} _{\pi _{\theta }}\left[\Psi _{i}\nabla _{\theta }\ln \pi _{\theta }(A_{j}\mid S_{j}){\Big |}S_{i}=s_{i}\right]&=\mathbb {E} _{\pi _{\theta }}\left[\mathbb {E} _{\pi _{\theta }}[\Psi _{i}\nabla _{\theta }\ln \pi _{\theta }(A_{j}\mid S_{j})\mid S_{j}]{\Big |}S_{i}=s_{i}\right]\\&=\mathbb {E} _{\pi _{\theta }}\left[\Psi _{i}\mathbb {E} _{\pi _{\theta }}[\nabla _{\theta }\ln \pi _{\theta }(A_{j}\mid S_{j})\mid S_{j}]{\Big |}S_{i}=s_{i}\right]\\&=\mathbb {E} _{\pi _{\theta }}\left[\Psi _{i}\cdot 0{\Big |}S_{i}=s_{i}\right]\\&=0\end{aligned}}$

Demonstração das duas identidades

Aplicando o truque da reparametrização,

${\begin{aligned}\nabla _{\theta }J(\theta )&=\nabla _{\theta }\mathbb {E} _{\pi _{\theta }}\left[\sum _{i=0}^{T}\gamma ^{i}R_{i}{\Big |}S_{0}=s_{0}\right]\\&=\mathbb {E} _{\pi _{\theta }}\left[\left(\sum _{i=0}^{T}\gamma ^{i}R_{i}\right)\nabla _{\theta }\ln \pi _{\theta }(A_{0},\dots ,A_{T}\mid S_{0},\dots ,S_{T}){\Big |}S_{0}=s_{0}\right]\\&=\mathbb {E} _{\pi _{\theta }}\left[\left(\sum _{i=0}^{T}\gamma ^{i}R_{i}\right)\sum _{j=0}^{T}\nabla _{\theta }\ln \pi _{\theta }(A_{j}\mid S_{j}){\Big |}S_{0}=s_{0}\right]\\&=\mathbb {E} _{\pi _{\theta }}\left[\sum _{i=0}^{T}\sum _{j=0}^{T}(\gamma ^{i}R_{i})\nabla _{\theta }\ln \pi _{\theta }(A_{j}\mid S_{j}){\Big |}S_{0}=s_{0}\right]\end{aligned}}$

que é a primeira equação.

Pelo lema, $\mathbb {E} _{\pi _{\theta }}\left[(\gamma ^{i}R_{i})\nabla _{\theta }\ln \pi _{\theta }(A_{j}\mid S_{j}){\Big |}S_{0}=s_{0}\right]=0$ para qualquer ${\textstyle 0\leq i<j\leq T}$ . Substituindo isso na fórmula anterior, obtemos

${\begin{aligned}\nabla _{\theta }J(\theta )&=\mathbb {E} _{\pi _{\theta }}\left[\sum _{0\leq j\leq i\leq T}(\gamma ^{i}R_{i})\nabla _{\theta }\ln \pi _{\theta }(A_{j}\mid S_{j}){\Big |}S_{0}=s_{0}\right]\\&=\mathbb {E} _{\pi _{\theta }}\left[\sum _{j=0}^{T}\nabla _{\theta }\ln \pi _{\theta }(A_{j}\mid S_{j})\sum _{i=j}^{T}(\gamma ^{i}R_{i}){\Big |}S_{0}=s_{0}\right]\end{aligned}}$

que é a segunda equação.

Assim, temos um estimador não viesado do gradiente de política:

$\nabla _{\theta }J(\theta )\approx {\frac {1}{N}}\sum _{n=1}^{N}\left[\sum _{t=0}^{T}\nabla _{\theta }\ln \pi _{\theta }(A_{t,n}\mid S_{t,n})\sum _{\tau =t}^{T}(\gamma ^{\tau -t}R_{\tau ,n})\right]$

onde o índice $n$ varia sobre $N$ trajetórias geradas (rollouts) usando a política $\pi _{\theta }$ .

A função escore $\nabla _{\theta }\ln \pi _{\theta }(A_{t}\mid S_{t})$ pode ser interpretada como a direção no espaço de parâmetros que aumenta a probabilidade de tomar a ação $A_{t}$ no estado $S_{t}$ . O gradiente de política, então, é uma média ponderada de todas as direções possíveis, ponderada pelos sinais de recompensa: ações associadas a recompensas altas são reforçadas, e ações associadas a recompensas baixas são desencorajadas.

Algoritmo

editar

O algoritmo REINFORCE é um loop:

Realize o rollout de $N$ trajetórias no ambiente, usando $\pi _{\theta _{t}}$ como a função de política.
Calcule a estimativa do gradiente de política: $g_{i}\leftarrow {\frac {1}{N}}\sum _{n=1}^{N}\left[\sum _{t\in 0:T}\nabla _{\theta _{t}}\ln \pi _{\theta }(A_{t,n}\mid S_{t,n})\sum _{\tau \in t:T}(\gamma ^{\tau }R_{\tau ,n})\right]$
Atualize a política por ascensão de gradiente: $\theta _{i+1}\leftarrow \theta _{i}+\alpha _{i}g_{i}$

Aqui, $\alpha _{i}$ é a taxa de aprendizado na etapa de atualização $i$ .

Redução de variância

editar

REINFORCE é um algoritmo on-policy, o que significa que as trajetórias usadas para a atualização devem ser amostradas a partir da política atual $\pi _{\theta }$ . Isso pode levar a uma alta variância nas atualizações, pois os retornos $R(\tau )$ podem variar significativamente entre as trajetórias. Muitas variantes do REINFORCE foram introduzidas, sob o título de redução de variância.

REINFORCE com linha de base

editar

Uma forma comum de reduzir a variância é o algoritmo REINFORCE com linha de base (baseline), baseado na seguinte identidade: $\nabla _{\theta }J(\theta )=\mathbb {E} _{\pi _{\theta }}\left[\sum _{t\in 0:T}\nabla _{\theta }\ln \pi _{\theta }(A_{t}|S_{t})\left(\sum _{\tau \in t:T}(\gamma ^{\tau }R_{\tau })-b(S_{t})\right){\Big |}S_{0}=s_{0}\right]$ para qualquer função $b:{\text{Estados}}\to \mathbb {R}$ . Isso pode ser demonstrado aplicando o lema anterior.

O algoritmo usa o estimador de gradiente modificado $g_{i}\leftarrow {\frac {1}{N}}\sum _{n=1}^{N}\left[\sum _{t\in 0:T}\nabla _{\theta _{t}}\ln \pi _{\theta }(A_{t,n}|S_{t,n})\left(\sum _{\tau \in t:T}(\gamma ^{\tau }R_{\tau ,n})-b_{i}(S_{t,n})\right)\right]$ e o algoritmo REINFORCE original é o caso especial em que $b_{i}\equiv 0$ .

Métodos ator-crítico

editar

Se ${\textstyle b_{i}}$ for bem escolhido, de tal forma que ${\textstyle b_{i}(S_{t})\approx \sum _{\tau \in t:T}(\gamma ^{\tau }R_{\tau })=\gamma ^{t}V^{\pi _{\theta _{i}}}(S_{t})}$ , isso poderia diminuir significativamente a variância na estimativa do gradiente. Ou seja, a linha de base deve estar o mais próxima possível da função de valor $V^{\pi _{\theta _{i}}}(S_{t})$ , aproximando-se do ideal de: $\nabla _{\theta }J(\theta )=\mathbb {E} _{\pi _{\theta }}\left[\sum _{t\in 0:T}\nabla _{\theta }\ln \pi _{\theta }(A_{t}|S_{t})\left(\sum _{\tau \in t:T}(\gamma ^{\tau }R_{\tau })-\gamma ^{t}V^{\pi _{\theta }}(S_{t})\right){\Big |}S_{0}=s_{0}\right]$ Note que, à medida que a política $\pi _{\theta _{t}}$ é atualizada, a função de valor $V^{\pi _{\theta _{i}}}(S_{t})$ também é atualizada, portanto a linha de base também deve ser atualizada. Uma abordagem comum é treinar uma função separada que estima a função de valor e usá-la como a linha de base. Esse é um dos métodos ator-crítico, onde a função de política é o ator e a função de valor é o crítico.

A função Q $Q^{\pi }$ também pode ser usada como crítico, uma vez que $\nabla _{\theta }J(\theta )=E_{\pi _{\theta }}\left[\sum _{0\leq t\leq T}\gamma ^{t}\nabla _{\theta }\ln \pi _{\theta }(A_{t}|S_{t})\cdot Q^{\pi _{\theta }}(S_{t},A_{t}){\Big |}S_{0}=s_{0}\right]$ por um argumento semelhante usando a lei da esperança iterada.

Subtraindo a função de valor como linha de base, descobrimos que a função de vantagem $A^{\pi }(S,A)=Q^{\pi }(S,A)-V^{\pi }(S)$ também pode ser usada como o crítico: $\nabla _{\theta }J(\theta )=E_{\pi _{\theta }}\left[\sum _{0\leq t\leq T}\gamma ^{t}\nabla _{\theta }\ln \pi _{\theta }(A_{t}|S_{t})\cdot A^{\pi _{\theta }}(S_{t},A_{t}){\Big |}S_{0}=s_{0}\right]$ Em resumo, existem muitos estimadores não viesados para ${\textstyle \nabla _{\theta }J_{\theta }}$ , todos na forma de: $\nabla _{\theta }J(\theta )=E_{\pi _{\theta }}\left[\sum _{0\leq t\leq T}\nabla _{\theta }\ln \pi _{\theta }(A_{t}|S_{t})\cdot \Psi _{t}{\Big |}S_{0}=s_{0}\right]$ onde ${\textstyle \Psi _{t}}$ é qualquer soma linear dos seguintes termos:

${\textstyle \sum _{0\leq \tau \leq T}(\gamma ^{\tau }R_{\tau })}$ : nunca usado.
${\textstyle \gamma ^{t}\sum _{t\leq \tau \leq T}(\gamma ^{\tau -t}R_{\tau })}$ : usado pelo algoritmo REINFORCE.
${\textstyle \gamma ^{t}\sum _{t\leq \tau \leq T}(\gamma ^{\tau -t}R_{\tau })-b(S_{t})}$ : usado pelo algoritmo REINFORCE com linha de base.
${\textstyle \gamma ^{t}\left(R_{t}+\gamma V^{\pi _{\theta }}(S_{t+1})-V^{\pi _{\theta }}(S_{t})\right)}$ : Aprendizado por Diferença Temporal (TD) de 1 passo.
${\textstyle \gamma ^{t}Q^{\pi _{\theta }}(S_{t},A_{t})}$ .
${\textstyle \gamma ^{t}A^{\pi _{\theta }}(S_{t},A_{t})}$ .

Alguns outros possíveis ${\textstyle \Psi _{t}}$ são os seguintes, com demonstrações muito semelhantes.

${\textstyle \gamma ^{t}\left(R_{t}+\gamma R_{t+1}+\gamma ^{2}V^{\pi _{\theta }}(S_{t+2})-V^{\pi _{\theta }}(S_{t})\right)}$ : Aprendizado TD de 2 passos.
${\textstyle \gamma ^{t}\left(\sum _{k=0}^{n-1}\gamma ^{k}R_{t+k}+\gamma ^{n}V^{\pi _{\theta }}(S_{t+n})-V^{\pi _{\theta }}(S_{t})\right)}$ : Aprendizado TD de n passos.
${\textstyle \gamma ^{t}\sum _{n=1}^{\infty }{\frac {\lambda ^{n-1}}{1-\lambda }}\cdot \left(\sum _{k=0}^{n-1}\gamma ^{k}R_{t+k}+\gamma ^{n}V^{\pi _{\theta }}(S_{t+n})-V^{\pi _{\theta }}(S_{t})\right)}$ : Aprendizado TD(λ), também conhecido como GAE (estimativa generalizada de vantagem).^[4] Isso é obtido por uma soma decrescente exponencial dos aprendizados TD de n passos.

Gradiente de política natural

editar

O método do gradiente de política natural é uma variante do método do gradiente de política, proposto por Sham Kakade em 2001.^[5] Ao contrário dos métodos padrão de gradiente de política, que dependem da escolha de parâmetros $\theta$ (tornando as atualizações dependentes das coordenadas), o gradiente de política natural visa fornecer uma atualização livre de coordenadas, o que é geometricamente "natural".

Motivação

editar

As atualizações de gradiente de política padrão $\theta _{i+1}=\theta _{i}+\alpha \nabla _{\theta }J(\theta _{i})$ resolvem um problema de otimização com restrição: ${\begin{cases}\max _{\theta _{i+1}}J(\theta _{i})+(\theta _{i+1}-\theta _{i})^{T}\nabla _{\theta }J(\theta _{i})\\\|\theta _{i+1}-\theta _{i}\|\leq \alpha \cdot \|\nabla _{\theta }J(\theta _{i})\|\end{cases}}$ Embora a função objetivo (melhoria linearizada) seja geometricamente significativa, a restrição euclidiana $\|\theta _{i+1}-\theta _{i}\|$ introduz a dependência das coordenadas. Para resolver isso, o gradiente de política natural substitui a restrição euclidiana por uma restrição de Divergência de Kullback-Leibler (KL): ${\begin{cases}\max _{\theta _{i+1}}J(\theta _{i})+(\theta _{i+1}-\theta _{i})^{T}\nabla _{\theta }J(\theta _{i})\\{\bar {D}}_{KL}(\pi _{\theta _{i+1}}\|\pi _{\theta _{i}})\leq \epsilon \end{cases}}$ onde a divergência KL entre duas políticas é calculada em média sobre a distribuição de estado sob a política $\pi _{\theta _{i}}$ . Isto é, ${\bar {D}}_{KL}(\pi _{\theta _{i+1}}\|\pi _{\theta _{i}}):=\mathbb {E} _{s\sim \pi _{\theta _{i}}}[D_{KL}(\pi _{\theta _{i+1}}(\cdot |s)\|\pi _{\theta _{i}}(\cdot |s))]$ Isso garante que as atualizações sejam invariantes a transformações de parâmetros afins inversíveis.

Aproximação da informação de Fisher

editar

Para um $\epsilon$ pequeno, a divergência KL é aproximada pela Métrica de informação de Fisher: ${\bar {D}}_{KL}(\pi _{\theta _{i+1}}\|\pi _{\theta _{i}})\approx {\frac {1}{2}}(\theta _{i+1}-\theta _{i})^{T}F(\theta _{i})(\theta _{i+1}-\theta _{i})$ onde $F(\theta )$ é a Matriz de informação de Fisher da política, definida como: $F(\theta )=\mathbb {E} _{s,a\sim \pi _{\theta }}\left[\nabla _{\theta }\ln \pi _{\theta }(a|s)\left(\nabla _{\theta }\ln \pi _{\theta }(a|s)\right)^{T}\right]$ Isso transforma o problema em um problema de programação quadrática, resultando na atualização do gradiente de política natural: $\theta _{i+1}=\theta _{i}+\alpha F(\theta _{i})^{-1}\nabla _{\theta }J(\theta _{i})$ O tamanho do passo $\alpha$ é normalmente ajustado para manter a restrição de KL, com ${\textstyle \alpha \approx {\sqrt {\frac {2\epsilon }{(\nabla _{\theta }J(\theta _{i}))^{T}F(\theta _{i})^{-1}\nabla _{\theta }J(\theta _{i})}}}}$ .

Inverter $F(\theta )$ é computacionalmente intenso, especialmente para parâmetros de alta dimensão (por exemplo, redes neurais). Implementações práticas frequentemente usam aproximações.

Otimização de Política de Região de Confiança (TRPO)

editar

A Otimização de Política de Região de Confiança (TRPO - Trust Region Policy Optimization) é um método de gradiente de política que estende a abordagem do gradiente de política natural impondo uma restrição de região de confiança nas atualizações de política.^[6] Desenvolvido por Schulman et al. em 2015, a TRPO melhora o método de gradiente de política natural.

A descida de gradiente natural é teoricamente ideal, se a função objetivo for verdadeiramente uma função quadrática, mas isso é apenas uma aproximação. A restrição de KL e a busca linear da TRPO tentam restringir a solução a uma "região de confiança" na qual essa aproximação não se quebra. Isso torna a TRPO mais robusta na prática.

Formulação

editar

Assim como o gradiente de política natural, a TRPO atualiza iterativamente os parâmetros da política $\theta$ resolvendo um problema de otimização com restrição especificado livre de coordenadas: ${\begin{cases}\max _{\theta }L(\theta ,\theta _{i})\\{\bar {D}}_{KL}(\pi _{\theta }\|\pi _{\theta _{i}})\leq \epsilon \end{cases}}$ onde

$L(\theta ,\theta _{i})=\mathbb {E} _{s,a\sim \pi _{\theta _{i}}}\left[{\frac {\pi _{\theta }(a|s)}{\pi _{\theta _{i}}(a|s)}}A^{\pi _{\theta _{i}}}(s,a)\right]$ é a vantagem substituta (surrogate advantage), medindo o desempenho de $\pi _{\theta }$ em relação à política antiga $\pi _{\theta _{i}}$ .
$\epsilon$ é o raio da região de confiança.

Observe que, em geral, outras vantagens substitutas são possíveis: $L(\theta ,\theta _{i})=\mathbb {E} _{s,a\sim \pi _{\theta _{i}}}\left[{\frac {\pi _{\theta }(a|s)}{\pi _{\theta _{i}}(a|s)}}\Psi ^{\pi _{\theta _{i}}}(s,a)\right]$ onde $\Psi$ é qualquer soma linear do tipo mencionado anteriormente. De fato, a OpenAI recomendou o uso da Estimativa Generalizada de Vantagem (GAE), em vez da simples vantagem $A^{\pi _{\theta }}$ .

A vantagem substituta $L(\theta ,\theta _{t})$ é projetada para se alinhar com o gradiente de política $\nabla _{\theta }J(\theta )$ . Especificamente, quando $\theta =\theta _{t}$ , $\nabla _{\theta }L(\theta ,\theta _{t})$ é igual ao gradiente de política derivado da função de vantagem: $\nabla _{\theta }J(\theta )=\mathbb {E} _{(s,a)\sim \pi _{\theta }}\left[\nabla _{\theta }\ln \pi _{\theta }(a|s)\cdot A^{\pi _{\theta }}(s,a)\right]=\nabla _{\theta }L(\theta ,\theta _{t})$ No entanto, quando $\theta \neq \theta _{i}$ , isso não é necessariamente verdade. Portanto, é um "substituto" da função objetivo real.

Assim como no gradiente de política natural, para pequenas atualizações de política, a TRPO aproxima a vantagem substituta e a divergência KL usando as expansões de Taylor em torno de $\theta _{t}$ : ${\begin{aligned}L(\theta ,\theta _{i})&\approx g^{T}(\theta -\theta _{i}),\\{\bar {D}}_{\text{KL}}(\pi _{\theta }\|\pi _{\theta _{i}})&\approx {\frac {1}{2}}(\theta -\theta _{i})^{T}H(\theta -\theta _{i}),\end{aligned}}$ onde:

$g=\nabla _{\theta }L(\theta ,\theta _{i}){\big |}_{\theta =\theta _{i}}$ é o gradiente de política.
$F=\nabla _{\theta }^{2}{\bar {D}}_{\text{KL}}(\pi _{\theta }\|\pi _{\theta _{i}}){\big |}_{\theta =\theta _{i}}$ é a matriz de informação de Fisher.

Isso reduz o problema a uma otimização quadrática, produzindo a atualização do gradiente de política natural: $\theta _{i+1}=\theta _{i}+{\sqrt {\frac {2\epsilon }{g^{T}F^{-1}g}}}F^{-1}g.$ Até o momento, isso é essencialmente igual ao método do gradiente natural. No entanto, a TRPO o aprimora por meio de duas modificações:

Usa o método do gradiente conjugado para resolver para $x$ em $Fx=g$ iterativamente, sem inversão de matriz explícita.
Usa a busca linear com retrocesso para garantir que a restrição da região de confiança seja satisfeita. Especificamente, ele retrocede o tamanho do passo para garantir a restrição KL e a melhoria da política. Ou seja, ele testa cada uma das seguintes soluções de teste $\theta _{i+1}=\theta _{i}+{\sqrt {\frac {2\epsilon }{x^{T}Fx}}}x,\;\theta _{i}+\alpha {\sqrt {\frac {2\epsilon }{x^{T}Fx}}}x,\;\theta _{i}+\alpha ^{2}{\sqrt {\frac {2\epsilon }{x^{T}Fx}}}x,\;\dots$ até encontrar uma que satisfaça a restrição KL ${\bar {D}}_{KL}(\pi _{\theta _{i+1}}\|\pi _{\theta _{i}})\leq \epsilon$ e resulte em um $L(\theta _{i+1},\theta _{i})\geq L(\theta _{i},\theta _{i})$ maior. Aqui, $\alpha \in (0,1)$ é o coeficiente de retrocesso.

Otimização de Política Proximal (PPO)

editar

Uma melhoria adicional é a otimização de política proximal (PPO), que evita até mesmo calcular $F(\theta )$ e $F(\theta )^{-1}$ por meio de uma aproximação de primeira ordem usando razões de probabilidade limitadas (ou cortadas).^[7]

Especificamente, em vez de maximizar a vantagem substituta $\max _{\theta }L(\theta ,\theta _{t})=\mathbb {E} _{s,a\sim \pi _{\theta _{t}}}\left[{\frac {\pi _{\theta }(a|s)}{\pi _{\theta _{t}}(a|s)}}A^{\pi _{\theta _{t}}}(s,a)\right]$ sob uma restrição de divergência KL, ela insere a restrição diretamente na vantagem substituta: $\max _{\theta }\mathbb {E} _{s,a\sim \pi _{\theta _{t}}}\left[{\begin{cases}\min \left({\frac {\pi _{\theta }(a|s)}{\pi _{\theta _{t}}(a|s)}},1+\epsilon \right)A^{\pi _{\theta _{t}}}(s,a)&{\text{ se }}A^{\pi _{\theta _{t}}}(s,a)>0\\\max \left({\frac {\pi _{\theta }(a|s)}{\pi _{\theta _{t}}(a|s)}},1-\epsilon \right)A^{\pi _{\theta _{t}}}(s,a)&{\text{ se }}A^{\pi _{\theta _{t}}}(s,a)<0\end{cases}}\right]$ e o PPO maximiza a vantagem substituta pela descida estocástica de gradiente, como de costume.

Em outras palavras, o aumento de gradiente da nova função de vantagem substituta significa que, em algum estado $s,a$ , se a vantagem for positiva: $A^{\pi _{\theta _{t}}}(s,a)>0$ , então o gradiente deve direcionar $\theta$ na direção que aumenta a probabilidade de realizar a ação $a$ sob o estado $s$ . Contudo, assim que $\theta$ for tão alterado que $\pi _{\theta }(a|s)\geq (1+\epsilon )\pi _{\theta _{t}}(a|s)$ , então o gradiente deve parar de apontá-lo nessa direção. O mesmo vale para quando $A^{\pi _{\theta _{t}}}(s,a)<0$ . Dessa forma, o PPO evita forçar excessivamente a atualização de parâmetros e evita mudar muito a política.

Para ser mais exato, para atualizar $\theta _{t}$ para $\theta _{t+1}$ é preciso realizar várias etapas de atualização no mesmo lote (batch) de dados. Ele inicializaria com $\theta =\theta _{t}$ e então repetidamente aplicaria a descida de gradiente (como o otimizador Adam) para atualizar $\theta$ até que a vantagem substituta estivesse estabilizada. Ele então atribuiria $\theta _{t+1}$ a $\theta$ , e executaria novamente.

Durante esse loop interno, a primeira atualização em $\theta$ não atingiria os limites $1-\epsilon ,1+\epsilon$ , mas à medida que $\theta$ é cada vez mais atualizado e distanciado de $\theta _{t}$ , ele eventualmente começará a tocar os limites. Para cada toque no limite, o gradiente correspondente torna-se zero, e assim o PPO evita a atualização de $\theta$ muito longe de $\theta _{t}$ .

Isso é importante, pois a perda substituta (surrogate loss) assume que o par estado-ação $s,a$ é amostrado do que o agente veria se executasse a política $\pi _{\theta _{t}}$ , mas o gradiente de política deve ser on-policy. Assim, conforme $\theta$ se modifica, a perda substituta torna-se cada vez mais off-policy. É por isso que é necessário manter $\theta$ proximal a $\theta _{t}$ .

Se existir uma política de referência $\pi _{\text{ref}}$ da qual a política treinada não deva divergir muito, então pode-se adicionar uma penalização adicional de divergência KL: $-\beta \mathbb {E} _{s,a\sim \pi _{\theta _{t}}}\left[\log \left({\frac {\pi _{\theta }(a|s)}{\pi _{\text{ref}}(a|s)}}\right)\right]$ onde $\beta$ ajusta a intensidade da penalidade. Isso tem sido usado no treinamento de modelos de linguagem de raciocínio com aprendizado por reforço com feedback humano.^[8] O termo de penalidade da divergência KL pode ser estimado com menor variância usando a forma equivalente (veja F-divergência para obter os detalhes):^[9] $-\beta \mathbb {E} _{s,a\sim \pi _{\theta _{t}}}\left[\log \left({\frac {\pi _{\theta }(a|s)}{\pi _{\text{ref}}(a|s)}}\right)+{\frac {\pi _{\text{ref}}(a|s)}{\pi _{\theta }(a|s)}}-1\right]$

Otimização de Política Relativa de Grupo (GRPO)

editar

A Otimização de Política Relativa de Grupo (GRPO - Group Relative Policy Optimization) é uma pequena variação do PPO que descarta o estimador da função de valor $V$ . Em vez disso, para cada estado $s$ , ela faz a amostragem de múltiplas ações $a_{1},\dots ,a_{G}$ da política $\pi _{\theta _{t}}$ e, na sequência, calcula a vantagem relativa de grupo^[9] $A^{\pi _{\theta _{t}}}(s,a_{j})={\frac {r(s,a_{j})-\mu }{\sigma }}$ onde $\mu ,\sigma$ são a média e o desvio padrão de $r(s,a_{1}),\dots ,r(s,a_{G})$ . Ou seja, é o escore padrão das recompensas.

Então, ela maximiza o objetivo PPO, calculando a média de todas as ações: $\max _{\theta }{\frac {1}{G}}\sum _{i=1}^{G}\mathbb {E} _{(s,a_{1},\dots ,a_{G})\sim \pi _{\theta _{t}}}\left[{\begin{cases}\min \left({\frac {\pi _{\theta }(a_{i}|s)}{\pi _{\theta _{t}}(a_{i}|s)}},1+\epsilon \right)A^{\pi _{\theta _{t}}}(s,a_{i})&{\text{ se }}A^{\pi _{\theta _{t}}}(s,a_{i})>0\\\max \left({\frac {\pi _{\theta }(a_{i}|s)}{\pi _{\theta _{t}}(a_{i}|s)}},1-\epsilon \right)A^{\pi _{\theta _{t}}}(s,a_{i})&{\text{ se }}A^{\pi _{\theta _{t}}}(s,a_{i})<0\end{cases}}\right]$ Intuitivamente, cada etapa de atualização de política na GRPO faz com que a política se torne mais inclinada a responder a cada estado com uma ação que obteve desempenho relativamente superior às outras ações testadas naquele estado e, em contrapartida, com uma menor probabilidade a responder com uma que tenha tido um desempenho comparativamente pior.

Como antes, o termo da penalidade KL pode ser aplicado para estimular a política treinada a permanecer próxima a uma política de referência. A GRPO foi originalmente proposta no escopo do treinamento de modelos de linguagem de raciocínio pelos pesquisadores da DeepSeek.^[9]

Otimização de Política e a perspectiva da Descida de Espelho (MDPO)

editar

Métodos como TRPO, PPO e gradiente de política natural dividem de uma ideia comum - enquanto a política deve ser atualizada para a direção do gradiente de política, a atualização deve ser feita de maneira segura e estável, comumente avaliada por alguma distância em relação à política antes de sua atualização.

Uma concepção similar de estabilidade de atualização é encontrada em técnicas de otimização convexa proximal, como a Descida de Espelho (Mirror Descent).^[10] Na qual, ${\textstyle \mathbf {x} }$ , o suposto minimizador de ${\textstyle f}$ em algum conjunto de restrições ${\textstyle {\mathcal {C}}}$ , é progressivamente atualizado em direção ao gradiente ${\textstyle \nabla f}$ , apresentando uma penalidade de proximidade com a atual ${\textstyle \mathbf {x} _{t}}$ calibrada por alguma divergência de Bregman ${\textstyle B_{\omega }}$ , a qual pode ser estruturada pela seguinte fórmula: $\mathbf {x} _{t+1}\in \arg \min _{\mathbf {x} \in {\mathcal {C}}}\nabla f(\mathbf {x} _{t})^{T}(\mathbf {x} -\mathbf {x} _{t})+{\frac {1}{\eta _{t}}}B_{\omega }(x,x_{t}),$ onde ${\textstyle \eta _{t}}$ controla a proximidade das iterações contínuas, semelhante à taxa de aprendizado na descida de gradiente.

Isso nos leva a ressignificar o procedimento de atualização de política como um processo de otimização focado a procurar uma política ideal, no cenário de otimização (não convexa) do respectivo processo de decisão de Markov (MDP). Este modo de ver a otimização com o emprego do gradiente da política recebe o nome de Otimização de Política por Descida de Espelho (MDPO - Mirror Descent Policy Optimization),^[11]^[12] originando a sucessiva atualização no momento em que a KL se torna a divergência de Bregman eleita: $\pi _{t+1}\in \arg \max _{\pi }\mathbb {E} _{s,a\sim \pi }\left[A^{\pi _{t}}(s,a)\right]+{\frac {1}{\eta _{t}}}D_{KL}(\pi ||\pi _{t})$ Mediante a uma política parametrizada ${\textstyle \pi _{\theta }}$ , a perda em MDPO passa a ser: $\max _{\theta }L(\theta ,\theta _{t})=\mathbb {E} _{s,a\sim \pi _{\theta _{t}}}\left[{\frac {\pi _{\theta }(a|s)}{\pi _{\theta _{t}}(a|s)}}A^{\pi _{\theta _{t}}}(s,a)\right]+{\frac {1}{\eta _{t}}}D_{KL}(\pi _{\theta }||\pi _{\theta _{t}})$ Este propósito é passível a ser associado conjuntamente de outros procedimentos ordinários, assim como o corte que é feito pelo PPO. Em suma, a penalidade por divergência KL manifesta-se no artigo primário do PPO,^[7] presumindo as percepções em MDPO serem uma aproximação teórica aos fundamentais esquemas de dedução existentes perante grande parte das abordagens atreladas ao uso de gradientes de política de forma concomitante.

Ver também

editar

Referências

editar

↑ ^a ^b Sutton, Richard S; McAllester, David; Singh, Satinder; Mansour, Yishay (1999). «Policy Gradient Methods for Reinforcement Learning with Function Approximation». MIT Press. Advances in Neural Information Processing Systems. 12
↑ Mohamed, Shakir; Rosca, Mihaela; Figurnov, Michael; Mnih, Andriy (2020). «Monte Carlo Gradient Estimation in Machine Learning». Journal of Machine Learning Research. 21 (132): 1–62. ISSN 1533-7928. arXiv:1906.10652
↑ Williams, Ronald J. (Maio de 1992). «Simple statistical gradient-following algorithms for connectionist reinforcement learning». Machine Learning (em inglês). 8 (3–4): 229–256. ISSN 0885-6125. doi:10.1007/BF00992696
↑ Schulman, John; Moritz, Philipp; Levine, Sergey; Jordan, Michael; Abbeel, Pieter (20 de outubro de 2018). «High-Dimensional Continuous Control Using Generalized Advantage Estimation». arXiv:1506.02438 [cs.LG]
↑ Kakade, Sham M (2001). «A Natural Policy Gradient». MIT Press. Advances in Neural Information Processing Systems. 14
↑ Schulman, John; Levine, Sergey; Moritz, Philipp; Jordan, Michael; Abbeel, Pieter (6 de julho de 2015). «Trust region policy optimization». Lille, França: JMLR.org. Proceedings of the 32nd International Conference on International Conference on Machine Learning. 37: 1889–1897
↑ ^a ^b Schulman, John; Wolski, Filip; Dhariwal, Prafulla; Radford, Alec; Klimov, Oleg (28 de agosto de 2017). «Proximal Policy Optimization Algorithms». arXiv:1707.06347 [cs.LG]
↑ Nisan Stiennon; Long Ouyang; Jeffrey Wu; Daniel Ziegler; Ryan Lowe; Chelsea Voss; Alec Radford; Dario Amodei; Paul F. Christiano (2020). «Learning to summarize with human feedback». Advances in Neural Information Processing Systems (em inglês). 33
↑ ^a ^b ^c Shao, Zhihong; Wang, Peiyi; Zhu, Qihao; Xu, Runxin; Song, Junxiao; Bi, Xiao; Zhang, Haowei; Zhang, Mingchuan; Li, Y. K. (27 de abril de 2024). «DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models». arXiv:2402.03300 [cs.CL]
↑ Arkadi Nemirovsky e David Yudin. Problem Complexity and Method Efficiency in Optimization. John Wiley & Sons, 1983.
↑ Shani, Lior; Efroni, Yonathan; Mannor, Shie (3 de abril de 2020). «Adaptive Trust Region Policy Optimization: Global Convergence and Faster Rates for Regularized MDPS». Proceedings of the AAAI Conference on Artificial Intelligence. 34 (4): 5668–5675. ISSN 2374-3468. arXiv:1909.02769. doi:10.1609/aaai.v34i04.6021
↑ Tomar, Manan; Shani, Lior; Efroni, Yonathan; Ghavamzadeh, Mohammad (20 de maio de 2020). «Mirror Descent Policy Optimization» (em inglês). arXiv:2005.09814v5 [cs.LG]

Bibliografia

editar

Sutton, Richard S.; Barto, Andrew G. (2018). Reinforcement learning: an introduction. Col: Adaptive computation and machine learning series 2 ed. Cambridge, Massachusetts: The MIT Press. ISBN 978-0-262-03924-6
Bertsekas, Dimitri P. (2019). Reinforcement learning and optimal control 2 ed. Belmont, Massachusetts: Athena Scientific. ISBN 978-1-886529-39-7
Grossi, Csaba (2010). Algorithms for Reinforcement Learning. Col: Synthesis Lectures on Artificial Intelligence and Machine Learning 1 ed. Cham: Springer International Publishing. ISBN 978-3-031-00423-0
Mohamed, Shakir; Rosca, Mihaela; Figurnov, Michael; Mnih, Andriy (2020). «Monte Carlo Gradient Estimation in Machine Learning». Journal of Machine Learning Research. 21 (132): 1–62. ISSN 1533-7928. arXiv:1906.10652

Ligações externas

editar

Weng, Lilian (8 de abril de 2018). «Policy Gradient Algorithms». lilianweng.github.io (em inglês). Consultado em 25 de janeiro de 2025
«Vanilla Policy Gradient — Spinning Up documentation». spinningup.openai.com. Consultado em 25 de janeiro de 2025

[suttonetal-1] Sutton, Richard S; McAllester, David; Singh, Satinder; Mansour, Yishay (1999). «Policy Gradient Methods for Reinforcement Learning with Function Approximation». MIT Press. Advances in Neural Information Processing Systems. 12

[2] Mohamed, Shakir; Rosca, Mihaela; Figurnov, Michael; Mnih, Andriy (2020). «Monte Carlo Gradient Estimation in Machine Learning». Journal of Machine Learning Research. 21 (132): 1–62. ISSN 1533-7928. arXiv:1906.10652

[3] Williams, Ronald J. (Maio de 1992). «Simple statistical gradient-following algorithms for connectionist reinforcement learning». Machine Learning (em inglês). 8 (3–4): 229–256. ISSN 0885-6125. doi:10.1007/BF00992696

[4] Schulman, John; Moritz, Philipp; Levine, Sergey; Jordan, Michael; Abbeel, Pieter (20 de outubro de 2018). «High-Dimensional Continuous Control Using Generalized Advantage Estimation». arXiv:1506.02438 [cs.LG]

[5] Kakade, Sham M (2001). «A Natural Policy Gradient». MIT Press. Advances in Neural Information Processing Systems. 14

[:3-6] Schulman, John; Levine, Sergey; Moritz, Philipp; Jordan, Michael; Abbeel, Pieter (6 de julho de 2015). «Trust region policy optimization». Lille, França: JMLR.org. Proceedings of the 32nd International Conference on International Conference on Machine Learning. 37: 1889–1897

[:0-7] Schulman, John; Wolski, Filip; Dhariwal, Prafulla; Radford, Alec; Klimov, Oleg (28 de agosto de 2017). «Proximal Policy Optimization Algorithms». arXiv:1707.06347 [cs.LG]

[summarizationpaper-8] Nisan Stiennon; Long Ouyang; Jeffrey Wu; Daniel Ziegler; Ryan Lowe; Chelsea Voss; Alec Radford; Dario Amodei; Paul F. Christiano (2020). «Learning to summarize with human feedback». Advances in Neural Information Processing Systems (em inglês). 33

[:1-9] Shao, Zhihong; Wang, Peiyi; Zhu, Qihao; Xu, Runxin; Song, Junxiao; Bi, Xiao; Zhang, Haowei; Zhang, Mingchuan; Li, Y. K. (27 de abril de 2024). «DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models». arXiv:2402.03300 [cs.CL]

[10] Arkadi Nemirovsky e David Yudin. Problem Complexity and Method Efficiency in Optimization. John Wiley & Sons, 1983.

[11] Shani, Lior; Efroni, Yonathan; Mannor, Shie (3 de abril de 2020). «Adaptive Trust Region Policy Optimization: Global Convergence and Faster Rates for Regularized MDPS». Proceedings of the AAAI Conference on Artificial Intelligence. 34 (4): 5668–5675. ISSN 2374-3468. arXiv:1909.02769. doi:10.1609/aaai.v34i04.6021

[12] Tomar, Manan; Shani, Lior; Efroni, Yonathan; Ghavamzadeh, Mohammad (20 de maio de 2020). «Mirror Descent Policy Optimization» (em inglês). arXiv:2005.09814v5 [cs.LG]

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]