O cientista de dados Pedro trabalha em um projeto que envolve a
previsão dos movimentos de um braço robótico em um ambiente
complexo. Pedro tem um fluxograma de um algoritmo de
aprendizado por reforço que é capaz de se adaptar
dinamicamente ao ambiente e ajustar suas ações com base nos
resultados de ações anteriores.
O algoritmo representado pelo referido fluxograma que deve ser
empregado para a realização da tarefa de Pedro é o: