Análise da influência da taxa de aprendizado e do fator de desconto sobre o desempenho dos algoritmos Q-learning e SARSA: aplicação do aprendizado por reforço na navegação autônoma

Analysis of the influence of the rate of learning and the factor of discount on the performance of Q-learning and SARSA algorithms: application of learning by reinforcement in autonomous navigation

Ottoni, André Luiz Carvalho; Nepomuceno, Erivelton; Oliveira, Marcos Santos de; Cordeiro, Lara Toledo; Lamperti, Rubisson Duarte

Análise da influência da taxa de aprendizado e do fator de desconto sobre o desempenho dos algoritmos Q-learning e SARSA: aplicação do aprendizado por reforço na navegação autônoma Analysis of the influence of the rate of learning and the factor of discount on the performance of Q-learning and SARSA algorithms: application of learning by reinforcement in autonomous navigation

Share and Export

Ottoni, André Luiz Carvalho, Nepomuceno, Erivelton, Oliveira, Marcos Santos de, Cordeiro, Lara Toledo and Lamperti, Rubisson Duarte (2016) Análise da influência da taxa de aprendizado e do fator de desconto sobre o desempenho dos algoritmos Q-learning e SARSA: aplicação do aprendizado por reforço na navegação autônoma Analysis of the influence of the rate of learning and the factor of discount on the performance of Q-learning and SARSA algorithms: application of learning by reinforcement in autonomous navigation. Revista Brasileira De Computacao Aplicada, 8 (2). pp. 44-59. ISSN 2176-6649

Preview

Text
Available under License Creative Commons Attribution Non-commercial Share Alike.
Download (177kB) | Preview

Abstract

Nos algoritmos de aprendizado por reforço, a taxa de aprendizado (α) e o fator de desconto (γ) podem ser definidos entre qualquer valor no intervalo entre 0 e 1. Assim, adotando os conceitos de regressão logística, é proposta uma metodologia estatística para a análise da influência da variação de α e γ nos algoritmos Q-learning e SARSA. Como estudo de caso, o aprendizado por reforço foi aplicado em experimentos de navegação autônoma. A análise de resultados mostrou que simples variações em α e γ podem interferir diretamente no desempenho do aprendizado por reforço. In the reinforcement learning algorithms, the step-size parameter (α) and the discount rate (γ) can be set in the range any value between 0 and 1. Therefore, adopting the concepts of logistic regression, we propose a statistical methodology for the analysis of the variation of the two parameters in the Q-learning and SARSA performance. As a case study, the reinforcement learning was applied in a autonomous navigation experiments. The analysis results showed that simple variations in α and γ can interfere directly in reinforcement learning performance.

Item Type:	Article
Keywords:	Aprendizado por reforço; Navegação autônoma; Regressão logística; Autonomous navigation; Logistic regression; Reinforcement learning;
Academic Unit:	Faculty of Science and Engineering > Electronic Engineering Faculty of Science and Engineering > Research Institutes > Hamilton Institute
Item ID:	16824
Identification Number:	10.5335/rbca.v8i2.5249
Depositing User:	Erivelton Nepomuceno
Date Deposited:	09 Jan 2023 16:03
Journal or Publication Title:	Revista Brasileira De Computacao Aplicada
Refereed:	Yes
Use Licence:	This item is available under a Creative Commons Attribution Non Commercial Share Alike Licence (CC BY-NC-SA). Details of this licence are available here

MURAL - Maynooth University Research Archive Library

Abstract

Downloads

Origin of downloads

Altmetric Badge

Repository Staff Only (login required)