TU Darmstadt / ULB / TUprints

Learning Motor Skills: From Algorithms to Robot Experiments

Kober, Jens (2012)
Learning Motor Skills: From Algorithms to Robot Experiments.
Technische Universität Darmstadt
Ph.D. Thesis, Primary publication

[img]
Preview
PDF
DissertationKober.pdf
Copyright Information: CC BY-NC-ND 2.5 Generic - Creative Commons, Attribution, NonCommercial, NoDerivs .

Download (16MB) | Preview
Item Type: Ph.D. Thesis
Type of entry: Primary publication
Title: Learning Motor Skills: From Algorithms to Robot Experiments
Language: English
Referees: Jan, Prof. Dr. Peters ; Stefan, Prof. Dr. Schaal
Date: 25 April 2012
Place of Publication: Darmstadt
Date of oral examination: 25 April 2012
Abstract:

Ever since the word "robot" was introduced to the English language by Karel Capek's play "Rossum's Universal Robots" in 1921, robots have been expected to become part of our daily lives. In recent years, robots such as autonomous vacuum cleaners, lawn mowers, and window cleaners, as well as a huge number of toys have been made commercially available. However, a lot of additional research is required to turn robots into versatile household helpers and companions. One of the many challenges is that robots are still very specialized and cannot easily adapt to changing environments and requirements. Since the 1960s, scientists attempt to provide robots with more autonomy, adaptability, and intelligence. Research in this field is still very active but has shifted focus from reasoning based methods towards statistical machine learning. Both navigation (i.e., moving in unknown or changing environments) and motor control (i.e., coordinating movements to perform skilled actions) are important sub-tasks.

In this thesis, we will discuss approaches that allow robots to learn motor skills. We mainly consider tasks that need to take into account the dynamic behavior of the robot and its environment, where a kinematic movement plan is not sufficient. The presented tasks correspond to sports and games but the presented techniques will also be applicable to more mundane household tasks. Motor skills can often be represented by motor primitives. Such motor primitives encode elemental motions which can be generalized, sequenced, and combined to achieve more complex tasks. For example, a forehand and a backhand could be seen as two different motor primitives of playing table tennis. We show how motor primitives can be employed to learn motor skills on three different levels. First, we discuss how a single motor skill, represented by a motor primitive, can be learned using reinforcement learning. Second, we show how such learned motor primitives can be generalized to new situations. Finally, we present first steps towards using motor primitives in a hierarchical setting and how several motor primitives can be combined to achieve more complex tasks.

To date, there have been a number of successful applications of learning motor primitives employing imitation learning. However, many interesting motor learning problems are high-dimensional reinforcement learning problems which are often beyond the reach of current reinforcement learning methods. We review research on reinforcement learning applied to robotics and point out key challenges and important strategies to render reinforcement learning tractable. Based on these insights, we introduce novel learning approaches both for single and generalized motor skills.

For learning single motor skills, we study parametrized policy search methods and introduce a framework of reward-weighted imitation that allows us to derive both policy gradient methods and expectation-maximization (EM) inspired algorithms. We introduce a novel EM-inspired algorithm for policy learning that is particularly well-suited for motor primitives. We show that the proposed method out-performs several well-known parametrized policy search methods on an empirical benchmark both in simulation and on a real robot. We apply it in the context of motor learning and show that it can learn a complex ball-in-a-cup task on a real Barrett WAM.

In order to avoid re-learning the complete movement, such single motor skills need to be generalized to new situations. In this thesis, we propose a method that learns to generalize parametrized motor plans, obtained by imitation or reinforcement learning, by adapting a small set of global parameters. We employ reinforcement learning to learn the required parameters to deal with the current situation. Therefore, we introduce an appropriate kernel-based reinforcement learning algorithm. To show its feasibility, we evaluate this algorithm on a toy example and compare it to several previous approaches. Subsequently, we apply the approach to two robot tasks, i.e., the generalization of throwing movements in darts and of hitting movements in table tennis on several different real robots, i.e., a Barrett WAM, the JST-ICORP/SARCOS CBi and a Kuka KR 6.

We present first steps towards learning motor skills jointly with a higher level strategy and evaluate the approach with a target throwing task on a BioRob. Finally, we explore how several motor primitives, representing sub-tasks, can be combined and prioritized to achieve a more complex task. This learning framework is validated with a ball-bouncing task on a Barrett WAM.

This thesis contributes to the state of the art in reinforcement learning applied to robotics both in terms of novel algorithms and applications. We have introduced the Policy learning by Weighting Exploration with the Returns algorithm for learning single motor skills and the Cost-regularized Kernel Regression to generalize motor skills to new situations. The applications explore highly dynamic tasks and exhibit a very efficient learning process. All proposed approaches have been extensively validated with benchmarks tasks, in simulation, and on real robots.

Alternative Abstract:
Alternative AbstractLanguage

Schon seit 1921 mit dem Theaterstück "Rossum's Universal Robots" von Karel Capek das Wort "Roboter" in die deutsche Sprache eingeführt wurde, besteht die Erwartung, dass Roboter Teil unseres täglichen Lebens werden. Seit ein paar Jahren sind sowohl Roboter wie autonome Staubsauger, Rasenmäher und Fensterreiniger als auch eine große Anzahl an Spielzeugrobotern im Handel erhältlich. Allerdings ist noch viel Forschung nötig, bis Roboter als universelle Haushalts-Helfer und Gefährten einsetzbar sind. Eine der größten Herausforderungen ist, dass Roboter immer noch sehr spezialisiert sind und sich nicht ohne Weiteres an sich ändernde Umgebungen und Anforderungen anpassen können. Seit den 1960ern versuchen Wissenschaftler, Roboter mit mehr Autonomie, Anpassungsfähigkeit und Intelligenz auszustatten. Die Forschung auf diesem Gebiet ist sehr aktiv, hat sich allerdings von regel-basierten Systemen hin zu statistischem maschinellem Lernen verlagert. Sowohl Navigation (d.h. sich in unbekannten oder sich ändernden Umgebungen zu bewegen) als auch Motorsteuerung (d.h. das Koordinieren von Bewegungen, um komplexe Aktionen auszuführen) sind hierbei wichtige Teilaufgaben.

In dieser Doktorarbeit werden Ansätze diskutiert, die es Robotern ermöglichen, motorische Fähigkeiten zu erlernen. In erster Linie werden Aufgaben betrachtet, bei denen das dynamische Verhalten des Roboters und seiner Umgebung berücksichtigt werden muss und wo ein kinematischer Bewegungsplan nicht ausreichend ist. Die vorgestellten Anwendungen kommen aus dem Sport- und Spiel-Bereich, aber die vorgestellten Techniken können auch bei alltäglichen Aufgaben im Haushalt Anwendung finden. Motorische Fähigkeiten können oft durch Motor-Primitive dargestellt werden. Solche Motor-Primitive kodieren elementare Bewegungen, die verallgemeinert, aneinandergereiht und kombiniert werden können, um komplexere Aufgaben zu erfüllen. Zum Beispiel könnte ein Vorhand- und Rückhand-Spiel als zwei verschiedene Motor-Primitive für Tischtennis angesehen werden. Gezeigt wird, wie Motor-Primitive verwendet werden können, um motorische Fähigkeiten auf drei verschiedenen Ebenen zu erlernen. Zuerst wird gezeigt, wie eine einzelne motorische Fertigkeit, die durch eine Motor-Primitive dargestellt wird, mittels Reinforcement-Learning (bestärkendes Lernen) gelernt werden kann. Zweitens wird gezeigt, wie solche erlernten Motor-Primitiven verallgemeinert werden können, um auf neue Situationen zu reagieren. Schließlich werden erste Schritte präsentiert, wie Motor-Primitive in einer hierarchischen Struktur gelernt werden können und wie sich mehrere Motor-Primitive kombinieren lassen, um komplexere Aufgaben zu erfüllen.

Es gab schon eine Reihe von erfolgreichen Anwendungen des Erlernens von Motor-Primitiven durch überwachtes Lernen. Allerdings sind viele interessante motorische Lernprobleme hochdimensionale Reinforcement-Learning-Probleme, die oft außerhalb der Anwendbarkeit der aktuellen Reinforcement-Learning-Methoden liegen. Hier werden Publikationen besprochen, die sich mit Reinforcement-Learning, angewandt auf die Robotik, beschäftigen und sowohl zentrale Herausforderungen als auch Möglichkeiten, Reinforcement-Learning trotzdem anwenden zu können, aufgezeigt. Basierend auf diesen Erkenntnissen werden neuartige Lernansätze für einzelne motorische Fähigkeiten vorgestellt, auch um diese zu generalisieren.

Für das Erlernen einzelner motorischer Fähigkeiten werden parametrisierte Policy-Search-Methoden untersucht und ein Framework der erfolgsgewichteten Nachahmung eingeführt, das es ermöglicht, sowohl bekannte Policy-Search-Gradientenverfahren als auch neue Erwartungswert-Maximisierung-inspirierte-Algorithmen herzuleiten. Ein neuartiger EM-inspirierter Policy-Search- Algorithmus wird vorgestellt, der insbesondere für Motor-Primitive gut geeignet ist. Gezeigt wird, dass das vorgeschlagene Verfahren mehrere bekannte parametrisierte Policy-Search-Methoden auf empirischen Benchmarks, in der Simulation und auf einem realen Roboter übertrifft. Angewendet wird der Algorithmus für motorisches Lernen und gezeigt wird, dass eine komplexe Becherspiel-Aufgabe auf einer echten Barrett WAM gelernt werden kann.

Um zu vermeiden, dass die Bewegung komplett neu gelernt werden muss, wird eine Möglichkeit benötigt, motorische Fähigkeiten an neue Situationen anzupassen. In dieser Doktorarbeit wird eine Methode vorgeschlagen, die lernt, Motor-Primitive (die durch Nachahmung oder Reinforcement-Learning erlernt wurden) durch das Anpassen einer kleinen Anzahl von globalen Parametern zu verallgemeinern. Es wird Reinforcement-Learning verwendet, um die erforderlichen Parameter zu erlernen, die es ermöglichen, mit der aktuellen Situation umzugehen. Hierfür wird ein kernel-basierter Reinforcement-Learning-Algorithmus vorgestellt. Um die Anwendbarkeit zu zeigen, wird dieser Algorithmus mit einem einfachen Beispiel getestet und mit einigen bekannten Ansätzen verglichen. Anschließend wird der Ansatz auf zwei Roboter-Aufgaben angewendet, nämlich das Verallgemeinern von Dart-Würfen und Tischtennis-Schlägen mit verschiedenen realen Robotern: mit einem Barrett WAM, dem JST-ICORP/SARCOS CBI und einem KUKA KR 6 Roboter.

Es werden erste Schritte zum gleichzeitigen Erlernen motorischer Fähigkeiten und einer übergeordneten Strategie präsentiert. Dieser Ansatz wird mit Hilfe einer Zielwurf-Aufgabe auf einem BioRob gezeigt. Abschließend wird untersucht, wie mehrere Motor-Primitive, die Teilaufgaben repräsentieren, mit unterschiedlicher Gewichtung kombiniert werden können, um eine komplexere Aufgabe zu erfüllen. Das Framework wird validiert, indem eine Tischtennisball-Jonglier-Aufgabe auf einem Barrett WAM erlernt wird.

Diese Doktorarbeit leistet einen Beitrag zum Stand der Technik in Reinforcement-Learning, angewandt auf die Robotik, sowohl durch neuartige Algorithmen als auch durch neuartige Anwendungen. Vorgestellt wurden der "Policy learning by Weighting Exploration with the Returns"-Algorithmus zum Erlernen einzelner motorischer Fähigkeiten und die "Cost-regularized Kernel Regression" zum Verallgemeinern motorischer Fähigkeiten auf neue Situationen. Die Anwendungen zeigen hochdynamische Aufgaben und weisen einen sehr effizienten Lernprozess aus. Alle vorgeschlagenen Ansätze wurden ausgiebig mit Benchmark-Aufgaben, in der Simulation und auf realen Robotern validiert.

German
URN: urn:nbn:de:tuda-tuprints-29927
Classification DDC: 000 Generalities, computers, information > 004 Computer science
Divisions: 20 Department of Computer Science > Intelligent Autonomous Systems
Date Deposited: 08 Jun 2012 08:54
Last Modified: 09 Jul 2020 00:04
URI: https://tuprints.ulb.tu-darmstadt.de/id/eprint/2992
PPN: 386255814
Export:
Actions (login required)
View Item View Item