Adaptive Goal-Directed Behavior using Planning with Reinforcement Rewards

Schimmelpfennig, Joshua

Adaptive Goal-Directed Behavior using Planning with Reinforcement Rewards

URN	urn:nbn:de:gbv:18-228-7-2498
URL	http://edoc.sub.uni-hamburg.de/informatik/volltexte/2019/249/
Dokumentart:	Bachelor Thesis
Institut:	Fachbereich Informatik
Sprache:	Englisch
Erstellungsjahr:	2019
Publikationsdatum:	23.08.2019
Freie Schlagwörter (Englisch):	Reinforcement Learning , Planning , Tensorflow , Look-Ahead Planning , Pendulum Swing-Up
DDC-Sachgruppe:	Informatik
BK - Klassifikation:	54.72

Kurzfassung auf Deutsch:

In dieser Arbeit wird der Planungsalgorithmus ”look-ahead planning” in einer offenen, für Reinforcement Learning Algorithmen ausgelegten Aufgabe im kontinuierlichen Raum untersucht. Die Planoptimierung verwendet ein Weltmodell, um mit dem Plan, einer Sequenz von Aktionen, zukünftige Zustände vorhersagen zu können und diese nutzen, um Reinforcements berechnet. Die Aktionen im Plan werden mit Gradient Descent unter Verwendung dieser einforcements optimiert. Das Ziel dieser Arbeit ist es, die Eignung dieses Planungsalgorithmuses für Reinforcement Learning Probleme zu zeigen, repräsentiert durch die Pendulum Swing-Up Aufgabe. Unsere Ergebnisse zeigen, dass der aktuelle Algorithmus nicht in der Lage ist, die Pendulum Swing- Up Aufgabe zuverlässig zu lösen. Der Algorithmus kann das Pendel jedoch halten, wenn dieses bereits aufrecht steht. Weiterhin haben wir festgestellt, dass der Al- gorithmus nicht für Agenten mit eingeschränkten Handlungsräumen geeignet ist, außer wenn das Ziel direkt erreicht werden kann.

Kurzfassung auf Englisch:

This thesis explores look-ahead planning in a continuous, open-horizon task aimed towards reinforcement learning algorithms. Look-ahead planning optimization uses a world-model to predict future states given a sequence of actions and uses reinforcements from those states to optimize the actions with gradient descent. The goal of this thesis is to show the capabilities of the algorithm for reinforcement learning, represented by the pendulum swing-up task. Our results show that the current algorithm is not capable of solving the swing-up task reliably. However, it can hold the pendulum once it is upright. Further, we found that the algorithm is not suited for agents with constrained action-spaces, except when the goal can be reached directly.

Hinweis zum Urherberrecht

Für Dokumente, die in elektronischer Form über Datenenetze angeboten werden, gilt uneingeschränkt das Urheberrechtsgesetz (UrhG). Insbesondere gilt:

Einzelne Vervielfältigungen, z.B. Kopien und Ausdrucke, dürfen nur zum privaten und sonstigen eigenen Gebrauch angefertigt werden (Paragraph 53 Urheberrecht). Die Herstellung und Verbreitung von weiteren Reproduktionen ist nur mit ausdrücklicher Genehmigung des Urhebers gestattet.

Der Benutzer ist für die Einhaltung der Rechtsvorschriften selbst verantwortlich und kann bei Mißbrauch haftbar gemacht werden.

INFDok - Dokumentenvolltextserver des Fachbereichs Informatik