Opciones de matriculación

Objetivos Gerais:
 ● Criar agentes autônomos capazes de interagir com sistemas dinâmicos de modo a satisfazer critérios específicos de desempenho através da técnica de aprendizado por reforço.
 Objetivos Específicos:
 ● Modelar com o formalismo de processos decisórios de Markov a interação de agentes autônomos com ambientes dinâmicos probabilísticos. Compreender os conceitos de estado, ação, observação, recompensa, retorno e política.
● Aplicar técnicas tabulares na avaliação e construção de políticas para ambientes com modelos.
 ● Aplicar técnicas tabulares na avaliação e construção de políticas para ambientes sem modelos.
● Aplicar técnicas aproximadas on-policy e off-policy na construção de políticas.
● Avaliar desempenho de aprendizado e atuação de agentes inteligentes treinados com técnicas de aprendizado por reforço.

 Sobre aprendizado por reforço: Aprendizado por reforço é uma técnica de aprendizagem de máquina que considera como agentes inteligentes interagem com ambientes dinâmicos. O seu objetivo é dotar os agentes da capacidade de aprender, melhorar, adaptar e reproduzir tarefas com restrições que mudam dinamicamente. O aprendizado é feito através de um esquema de recompensas, que incentivam os comportamentos desejáveis e desincentivam os indesejáveis. Exemplos de agentes inteligentes são controladores, robôs, sistemas automatizados de gestão, entre outros.
Los invitados no pueden entrar a este curso. Por favor acceda con sus datos.