ThesisPDF Available

Bestärkendes Lernen zur Steuerung und Regelung nichtlinearer dynamischer Systeme

Authors:
  • Viessmann Elektronik GmbH

Abstract and Figures

In this thesis, the application of reinforcement learning for the control of nonlinear dynamical systems is researched. At first, the relevant principles of stochastic optimal control and machine learning are explained. Afterwards, reinforcement learning is embedded in the context of optimal control. Three methods of deep reinforcement learning are analyzed. A particular algorithm, namely Deep-Deterministic-Policy-Gradient (DDPG), is chosen for further studies on a variety of mechanical systems. Furthermore, the reinforcement learning approach is compared to a model-based trajectory optimization method, called iterative linear-quadratic regulator (iLQR). All control problems can be successfully solved with the trajectory optimization approach, but for new initial conditions, the problem has to be solved again. In contrast, with DDPG a global feedback controller is learned, that can drive the controlled system in the desired state. Disadvantageous is the poor data efficiency and the lack of applicability to highly nonlinear systems.
Content may be subject to copyright.
Technische Universität Dresden
Fakultät Elektrotechnik und Informationstechnik
Institut für Regelungs- und Steuerungstheorie
Diplomarbeit
Bestärkendes Lernen zur Steuerung und Regelung
nichtlinearer dynamischer Systeme
vorgelegt von: Max Pritzkoleit
geboren am: —————- in —————-
zum Erlangen des akademischen Grades
Diplomingenieur
(Dipl.-Ing.)
Betreuer: Dr.-Ing. C. Knoll
Verantwortlicher Hochschullehrer: Prof. Dr.-Ing. habil. Dipl.-Math. K. Röbenack
Tag der Einreichung: 19.06.2019
Selbstständigkeitserklärung
Hiermit erkläre ich, dass ich die von mir am heutigen Tage dem Prüfungsausschuss der
Fakultät Elektrotechnik und Informationstechnik eingereichte Diplomarbeit zum Thema
Bestärkendes Lernen zur Steuerung und Regelung nichtlinearer
dynamischer Systeme
selbstständig und ohne Benutzung anderer als der angegebenen Hilfsmittel angefer-
tigt habe. Alle Stellen, die wörtlich oder sinngemäß aus veröffentlichten oder nicht
veröffentlichten Schriften entnommen sind, wurden als solche kenntlich gemacht.
Bei der Auswahl und Auswertung des Materials sowie bei der Herstellung des Manuskripts
habe ich Unterstützungsleistungen von folgenden Personen erhalten:
Dr.-Ing. Carsten Knoll
Weitere Personen waren an der geistigen Herstellung der vorliegenden Arbeit nicht
beteiligt.
Dresden, 19.06.2019 Max Pritzkoleit
Kurzfassung
In der vorliegenden Arbeit wird das bestärkende Lernen im Kontext der Steuerung
und Regelung nichtlinearer dynamischer Systeme untersucht. Es werden zunächst die
Grundlagen der stochastischen Optimalsteuerung sowie des maschinellen Lernens, die
für die Betrachtungen dieser Arbeit relevant sind, erläutert. Anschließend werden die
Methoden des bestärkenden Lernens im Kontext der datenbasierten Steuerung und
Regelung dargelegt, um anschließend auf drei Methoden des tiefen bestärkenden Lernens
näher einzugehen. Der Algorithmus Deep-Deterministic-Policy-Gradient (DDPG) wird
zum Gegenstand intensiver Untersuchungen an verschiedenen mechanischen Beispielsys-
temen. Weiterhin erfolgt der Vergleich mit einem klassischen Ansatz, bei dem die zu
bewältigenden Steuerungsaufgaben mit einer modellbasierten Trajektorienberechnung,
die auf dem iterativen linear-quadratischen Regler (iLQR) basiert, gelöst werden. Mit
dem iLQR können zwar alle Steuerungsaufgaben erfolgreich bewältigt werden, aber für
neue Anfangswerte muss das Problem erneut gelöst werden. Bei DDPG hingegen wird
ein Regler erlernt, der das zu steuernde dynamische System – aus nahezu beliebigen
Anfangswerten – in den gewünschten Zustand überführt. Nachteilig ist jedoch, dass der
Algorithmus sich auf hochgradig nichtlineare Systeme bisher nicht anwenden lässt und
eine geringe Dateneffizienz aufweist.
Abstract
In this thesis, the application of reinforcement learning for the control of nonlinear
dynamic systems is researched. At first, the relevant principles of stochastic optimal
control and machine learning are layed out. Afterwards, reinforcement learning is em-
bedded in the context of optimal control. Three methods of deep reinforcement learning
are analyzed. A particular algorithm, namely DDPG, is chosen for further studies on a
variety of mechanical systems. Furthermore, the reinforcement learning approach is com-
pared to a model-based trajectory optimization method, called iterative linear-quadratic
regulator (iLQR). All control problems can be successfully solved with the trajectory
optimization approach, but for new initial conditions, the problem has to be solved
again. In contrast, with DDPG aglobal feedback controller is learned, that can drive
the controlled system in the desired state. Disadvantageous is the poor data efficiency
and the lack of applicability to highly nonlinear systems.
Inhaltsverzeichnis
Abkürzungsverzeichnis vi
Symbole und Notation viii
1 Einführung 1
1.1 Bestärkendes Lernen ............................ 2
1.2 Aufbau der Arbeit ............................. 2
2 Theoretische Grundlagen 4
2.1 Stochastische Optimalsteuerung ...................... 5
2.1.1 Grundlagen der optimalen Steuerung ............... 5
2.1.2 Dynamische Programmierung (DP) ................ 8
2.1.3 Markow-Entscheidungsproblem (MEP) .............. 9
2.1.4 Exakte Lösung eines Markow-Entscheidungsproblems (MEP) . . 10
2.1.5
Zeitdiskreter stochastischer linear-quadratischer Regler (LQR)
mit endlichem Zeithorizont ..................... 11
2.1.6
Lösung des stochastischen LQR-Problems mittels dynamischer
Programmierung (DP) ....................... 12
2.2 Maschinelles Lernen ............................. 16
2.2.1 Überwachtes Lernen ........................ 16
2.3 Künstliche neuronale Netzwerke (KNN) .................. 17
2.3.1 Mehrschichtiges Perzeptron (MLP) ................ 17
2.3.2 Maschinelles Lernen in Python .................. 22
3 Bestärkendes Lernen 23
3.1 Agent-Umgebung-Interaktionsmodell ................... 23
3.1.1 Aufgabe des Agenten ........................ 24
3.1.2 Die Umgebung im Kontext des bestärkenden Lernens ...... 25
3.1.3 Der Lernvorgang des Agenten ................... 25
3.2 Erkundung und Verwertung ........................ 25
3.3 Monte-Carlo-Methoden ........................... 26
3.4 Datengetriebene approximative Lösungsmethoden ............ 26
3.4.1 Temporal-Difference-Lernen .................... 26
3.4.2 Q-learning .............................. 27
3.5
Approximative Lösung eines Markow-Entscheidungsproblem (MEP) mit-
tels Funktionsapproximation ........................ 28
3.5.1 Stabilisierung der approximativen Werte-Iteration ........ 29
3.6 Policy Gradients .............................. 30
3.6.1 Stochastic-Policy-Gradient (SPG) ................. 30
3.6.2 Deterministic-Policy-Gradient (DPG) ............... 33
3.7 Aktor-Kritiker Algorithmen ........................ 35
3.8 Imitationslernen ............................... 35
3.9 Modellbasiertes bestärkendes Lernen ................... 36
4 Tiefes bestärkendes Lernen 38
4.1 Neural-Fitted-Q-Iteration (NFQ) ..................... 38
4.1.1 Künstliches neuronales Netzwerk (KNN) und Training ..... 39
4.1.2 Kosten ................................ 39
4.2 Deep-Q-Network (DQN) .......................... 40
4.2.1
Besonderheiten von Deep-Q-Network (DQN) gegenüber Neural-
Fitted-Q-Iteration (NFQ) ..................... 40
4.3 Deep-Deterministic-Policy-Gradient (DDPG) ............... 42
4.3.1 Target-Netzwerke .......................... 42
4.3.2 Erkundung ............................. 43
5 Differenzielle dynamische Programmierung (DDP) und iterativer
linear-quadratischer Regler (iLQR) 46
5.1
Detaillierte Beschreibung des iterativen linear-quadratischen Reglers (iLQR)
47
5.2 Abbruchkriterien .............................. 53
5.3 Numerische Probleme ............................ 53
5.4 Steuerbeschränkungen ........................... 56
6 Ergebnisse 59
6.1 Untersuchung von DDPG an einem einfachen Beispielsystem ...... 60
6.1.1 Vergleich von DDPG und dem iLQR ............... 62
6.1.2 Approximation von Vµmit DDPG ................ 66
6.2 Akrobot ................................... 70
6.3 Wagen-Pendel ................................ 73
6.4 Doppel- und Dreifach-Wagen-Pendel ................... 76
7 Zusammenfassung und Ausblick 79
Literatur 81
Abbildungsverzeichnis 86
Tabellenverzeichnis 88
A Beispielsysteme 90
A.1 Inverses Pendel ............................... 91
A.2 Akrobot ................................... 92
A.3 Wagen-Pendel ................................ 94
A.4 Doppel- und Dreifach-Wagen-Pendel ................... 96
Abkürzungsverzeichnis
BP Backpropagation
CNN Faltungsnetzwerk (engl. convolutional neural network)
DDP differenzielle dynamische Programmierung
DDPG Deep-Deterministic-Policy-Gradient
DP dynamische Programmierung
DPG Deterministic-Policy-Gradient
DQN Deep-Q-Network
iLQR iterativer linear-quadratischer Regler
KNN künstliches neuronales Netzwerk
LQR linear-quadratischer Regler
MAE mittlerer absoluter Fehler (engl. mean absolute error)
MEP Markow-Entscheidungsproblem
MLP mehrschichtiges Perzeptron (engl. multilayer perceptron)
MPC modellprädiktive Regelung (engl. model predictive control)
MSBE Mean-Squared-Bellman-Error
MSE mittlerer quadratischer Fehler (engl. mean squared error)
NFQ Neural-Fitted-Q-Iteration
NMPC
nichtlineare modellprädiktive Regelung (engl. nonlinear model predic-
tive control)
PG Policy-Gradient
PILCO Probabilistic-Inference-for-Learning-Control
ReLU Rectified-Linear-Unit
RNN rekurrentes neuronales Netzwerk (engl. recurrent neural network)
vi
SGD
stochastisches Gradientenabstiegsverfahren (engl. stochastic gradient
descent)
SPG Stochastic-Policy-Gradient
TD Temporal-Difference
vii
Symbole und Notation
aSkalar
aVektor (a0, . . . , an)TRn
˙a, ˙
aZeitableitung
AMatrix
A[1:n]Folge von nVektoren {a1, ..., an}
Rmenge der reellen Zahlen
R0Menge der nichtnegativen reellen Zahlen
ZMenge der ganzen Zahlen
xp(x)Zufallsvariable xausgewählt aus der Verteilung p(x)
Exp(x){x}
Erwartungswert der Zufallsvariable
x
,
Exp(x){x}
=
Pxp
(
x
)
x
bzw.
Exp(x){x}=Rp(x)xdx
N(µ, σ)Normalverteilung mit Mittelwert µund Standardabweichung σ
U(a, b)Gleichverteilung mit der Wahrscheinlichkeit 1
baim Intervall [a, b]
[·]hochgestellter Index, der eine Schicht eines KNN bezeichnet
(·)hochgestellter Index, der einen Datenpunkt bezeichnet
NZeithorizont
kdiskreter Zeitindex
xkZustand zum Zeitpunkt k
xRuhelage
ukEingang oder Steuerung zum Zeitpunkt k
wkStörgröße zum Zeitpunkt k
τTrajektorie
p(τ)Wahrscheinlichkeit für das Auftreten der Trajektorie τ
XkZustandsraum
XMenge nichtzulässiger Zustände
X+Menge von Zielzuständen
UkEingangssraum
viii
U(xk)Eingangsraum in Abhängigkeit von xk
WkRaum der Störgröße wk
ΠMenge der zulässigen Rückführungen
fd(xk,uk,wk)zeitdiskrete stochastische nichtlineare Systemdynamik
fd(xk,uk)zeitdiskrete deterministische nichtlineare Systemdynamik
fc(xk,uk)zeitkontinuierliche deterministische nichtlineare Systemdynamik
p(xk+1|xk,uk)
Wahrscheinlichkeit für
xk+1
ausgehend von
xk
bei Anwenden der
Steuerung uk
πRückführung
πoptimale Rückführung
µk(xk)deterministische Rückführung
π(uk|xk)stochastische Rückführung
πε(uk|xk)ε-greedy Rückführung
µθ(xk)parametrierte deterministische Rückführung
πθ(uk|xk)parametrierte stochastische Rückführung
αLernrate bei Temporal-Difference (TD) Lernen und Q-learning
βSchrittweite bei Gradientenabstiegsverfahren
θ,φParmetervektoren von Funktionsapproximatoren
ε
Wahrscheinlichkeit dafür, eine zufällige Steuerung in einer
ε
-greedy
Rückführung zu wählen
γDiskontierungsfaktor
τTarget-Update-Rate bei DDPG
ckinkrementelle Kosten
cNEndkosten
JGesamtkosten
Voptimale Restkosten
VπRestkosten einer Rückführung π
QπBewertungsfunktion einer Rückführung π
ˆ
Vπtabulare Repräsentation der Restkosten einer Rückführung π
ˆ
Qπ
tabulare Repräsentation der Bewertungsfunktion einer Rückführung
π
ˆ
Vπ
φFunktionsapproximation der Restkosten einer Rückführung π
ˆ
Qπ
φ
Funktionsapproximation der Bewertungsfunktion einer Rückführung
π
DDatensatz
BMinibatch eines Datensatzes D
ix
Bemerkung zur Notation
In der vorliegenden Arbeit wird entgegen der im deut-
schen Sprachraum üblichen Schreibweise der Punkt „.“ als Dezimaltrennzeichen verwen-
det. Hintergrund ist die Konsistenz zu automatisch generierten Achsenbeschriftungen
in Abbildungen und die Eindeutigkeit bei der Angabe von Vektoren und Mengen, bei
denen das Komma das Trennzeichen zwischen Komponenten bzw. Elementen darstellt.
x
Kapitel 1
Einführung
In den letzten Jahren konnten bemerkenswerte Fortschritte auf dem Gebiet des ma-
schinellen Lernens erreicht werden. Besonders in der Sprach- und Bildverarbeitung [72,
31,18] sowie der künstlichen Intelligenz [60,43] und Robotik [53,34] hat sich dieser
Fortschritt bemerkbar gemacht. Dies wird zum Einen durch die Verfügbarkeit großer
Datenmengen und entsprechender Rechenleistung ermöglicht, zum Anderen hat die
Entwicklung von entsprechenden freien Software-Bibliotheken [47,38,10] für (tiefes)
1
maschinelles Lernen (engl. deep learning) diesen Prozess beschleunigt.
Eine der Schwierigkeiten des maschinellen Lernens bestand in der Merkmalsextraktion
(engl. feature extraction), auf welche beim tiefen maschinellen Lernen größtenteils
verzichtet werden kann. Durch die Anwendung des tiefen maschinellen Lernens ist es
bspw. möglich, Motorsteuersignale direkt aus Pixeldaten eines Bildverarbeitungssystems
zu generieren, um die Manipulationsaufgabe eines Industrieroboters zu bewältigen [33].
Ein weiterer Faktor, der die Popularität des (tiefen) maschinellen Lernens beflügelt,
ist die Tatsache, dass wissenschaftliche Meilensteine auf dem Gebiet der künstlichen
Intelligenz ein besonderes Maß an Aufmerksamkeit in der öffentlichen Wahrnehmung
erregen [71,58,15].
Es wird auf eine lange Tradition von Ereignissen zurückgeblickt, bei denen bisher aus-
schließlich dem Menschen vorbehaltene kognitive Leistungen durch intelligente Systeme
übertroffen wurden.
Im Jahr 1997 wurde der Schachweltmeister Garri Kasparow von dem von IBM entwi-
ckelten Programm Deep Blue in einem Spiel aus sechs Partien geschlagen [9]. Fast 20
Jahre später im Jahr 2016 wurde ein ähnliches Ergebnis für das traditionelle chinesische
Spiel Go erzielt, bei dem das von Google DeepMind entwickelte Programm AlphaGo
Lee Seedol, einen weltweit führenden Go-Spieler, in einer Partie aus fünf Spielen zur
Aufgabe zwang [60].
1Tief bezieht sich auf die Topologie der verwendeten KNN.
1
Im Jahr 2011 konnte die künstliche Intelligenz IBM Watson in dem US-amerikanischen
Fernsehquiz Jeopardy gegen seine menschlichen Gegner triumphieren [37]. Bei Jeo-
pardy wird den Kandidaten eine Antwort gegeben, zu der sie die entsprechende Frage
formulieren müssen.
Diesen Programmen ist gemein, dass sie das bestärkende Lernen nutzen.
1.1 Bestärkendes Lernen
Das bestärkende Lernen (engl. reinforcement learning) wird neben dem überwachten
(engl. supervised) und unüberwachten (engl. unsupervised) Lernen als dritte Teildisziplin
des maschinellen Lernens angesehen und beschäftigt sich mit Problemen der sequenziellen
Entscheidungsfindung. Es ist theoretisch und historisch mit der optimalen Steuerung
eng verzahnt und wird auch als direkte adaptive Optimalsteuerung interpretiert [67].
Die aktuellen Fortschritte des (tiefen) bestärkenden Lernens sowie der Zusammenhang
mit der optimalen Steuerung machen die Untersuchung aus Sicht der Regelungs- und
Steuerungstheorie und werfen somit zwei Fragen auf: Inwieweit eignen sich die Methoden
des bestärkenden Lernens für die Steuerung und Regelung nichtlinear dynamischer
Systeme und wie schlagen sie sich im Vergleich zu klassischen Methoden der Regelungs-
und Steuerungstheorie?
Ein weiterer Faktor der das bestärkende Lernen für die Regelungs- und Steuerungstheorie
interessant macht, sind die steigenden Anforderungen, die an Regelungseinrichtungen –
auch bedingt durch neue Anwendungen – gestellt werden. So sollen Roboter künftig
komplexe Manipulationsaufgaben lösen und sich adaptiv an neue Situationen anpassen.
Es scheint zudem sinnvoll – mit Bezug auf die Entwicklungen im Rahmen von der sog.
Industrie 4.0 – vorhandene Daten zu nutzen.
Viele Ergebnisse des bestärkenden Lernens beruhen lediglich auf Simulationsstudien,
da sich durch die geringe Dateneffizienz vieler Methoden eine Anwendung auf realen
Systemen schwierig gestaltet. Dennoch wurde das bestärkende Lernen schon erfolgreich
auf reale regelungstechnische Problemstellungen angewandt [13,22,27,55].
1.2 Aufbau der Arbeit
Die vorliegende Arbeit befasst sich mit dem bestärkenden Lernen als Methode zur
Steuerung und Regelung nichtlinearer dynamischer Systeme.
2
In Kapitel 2 werden die theoretischen Grundlagen der optimalen Steuerung sowie des
maschinellen Lernens beschrieben. Es werden grundlegende Konzepte herausgearbeitet,
die für das Verständnis der weiterführenden Kapitel nötig sind.
In Kapitel 3 und Kapitel 4 werden die untersuchten Methoden des (tiefen) bestärkenden
Lernens erläutert. Ein besonderes Augenmerk wurde darauf gelegt, das bestärkende
Lernen schlüssig in den Kontext der optimalen Steuerung einzubetten und so den
Zusammenhang mit dieser zu verdeutlichen.
In Kapitel 5 wird anschließend der iterative linear-quadratische Regler (iLQR) – ein
fortgeschrittenes Verfahren zur Steuerung und Regelung nichtlinearer dynamischer
Systeme – als Referenzmethode eingeführt.
In Kapitel 6 folgt ein ausführlicher Vergleich der untersuchten Methoden an verschiedenen
mechanischen Beispielsystemen sowie eine Auswertung der Ergebnisse. Abschließend
werden in Kapitel 7 die Ergebnisse der Arbeit zusammengefasst und mögliche aufbauende
Untersuchungsgegenstände dargelegt.
3
Kapitel 2
Theoretische Grundlagen
Die Basis für die Betrachtungen der vorliegenden Arbeit sind nichtlineare dynamische
Systeme mit diskreter Zeitentwicklung
xk+1 =fd(xk,uk,wk), k = 0, ..., N 1,(2.1)
mit diskretem Zeitindex
k
, Zustand
xkXkRn
, Eingang oder Steuerung
uk
U
(
xk
)
UkRm
, sowie einer Störgröße
wkWkRd
zum Zeitpunkt
k
. Die
Horizontlänge
N
bestimmt, wie oft eine Steuerung angewandt wird. Die Abbildung
fd
:
Xk×Uk×WkXk+1
beschreibt, wie sich der Systemzustand
x
in der Zeit
entwickelt [4, S. 2ff].
Der Eingang
uk
ist beschränkt auf eine nichtleere Teilmenge
U
(
xk
)
Uk
, die von
xk
abhängt. Die Folge w0,w1, ..., wN1wird als unkorreliert angenommen.
Alternativ kann (2.1) auch als bedingte Verteilung
xk+1 =wk,(2.2)
mit
wkp(·|xk,uk), k = 0,1, ..., N 1,(2.3)
dargestellt werden, welche die Wahrscheinlichkeit für eine Transition vom Zustand
xk
in den Folgezustand
xk+1
bei Anwenden der Steuerung
uk
angibt [4, S. 13]. Es wird
vorausgesetzt, dass der Gradient
ukp
(
xk+1|xk,uk
)existiert und so wie
(2.3)
stetig in
xkund ukist.
Bemerkung 2.1.
Dass an dieser Stelle zwei Ausdrücke
(2.1)
und
(2.3)
für die System-
dynamik gegeben sind, hängt damit zusammen, dass je nach Problemstellung eine der
beiden Darstellungen zu bevorzugen ist, um mathematisch konsistente und übersichtli-
che Ausdrücke zu erhalten. Im regelungstechnischen Kontext wird
(2.1)
gegenüber
(2.3)
bevorzugt, wohingegen
(2.3)
im Kontext des bestärkenden Lernens breite Verwendung
findet.
4
Das System
(2.1)
erfüllt per Konstruktion die Markow-Eigenschaft, welche besagt, dass
xk+1 nur von Größen des vorherigen Zeitschritts kabhängt [59]:
p(xk+1|xk,uk) = p(xk+1 |x0,u0, ..., xk,uk), k = 0, ..., N 1.(2.4)
Die Trajektorie
τ:= {X[0:N1],U[0:N1] }(2.5)
des Systems (2.1), mit
X[0:N1] := {x0, ..., xN1}(2.6)
und
U[0:N1] := {u0, ..., uN1}(2.7)
beschreibt den zeitlichen Verlauf der Zustands- und Eingangsgrößen.
Die multivariate Verteilung
p(τ) = p(x0)
N1
Y
k=0
p(xk+1|xk,uk)(2.8)
gibt die Wahrscheinlichkeit für das Auftreten einer Trajektorie τan [32].
2.1 Stochastische Optimalsteuerung
Im Folgenden werden die notwendigen Grundlagen der stochastischen Optimalsteuerung
für die Betrachtungen dieser Arbeit erläutert. Der
deterministische Fall
ist gegeben
indem (2.1) durch das deterministische Äquivalent
xk+1 =fd(xk,uk), k = 0, ..., N 1(2.9)
ersetzt wird. Dadurch werden die Ausdrücke der folgenden Betrachtung ebenfalls de-
terministisch. Die Bildung des Erwartungswertes geht dann in einen Ausdruck mit
Gleichungsnebenbedingungen über.
2.1.1 Grundlagen der optimalen Steuerung
Das System
(2.1)
akkumuliert ausgehend von einer gegebenen Verteilung des Anfangs-
zustands p(x0)Kosten C, die durch eine additive Kostenfunktion ck:Xk×UkR0
C(X[0:N],U[0:N1]) = cN(xN) +
N1
X
k=0
ck(xk,uk),(2.10)
5
mit den Endkosten cN(xN)definiert sind.
Die zu erwartenden Restkosten für eine gegebene Eingangsfolge
U[0:N1]
, sowie einen
Anfangszustand xsind gegeben durch
J(x,U[0:N1]) = Eτp(τ)(cN(xN) +
N1
X
k=0
ck(xk,uk)x0=x).(2.11)
Der Erwartungswert wird hier auf
(2.10)
angewandt, um –hinsichtlich des stochastischen
Charakters von
(2.1)
– einen sinnvoll zu optimierenden Ausdruck zu gewährleisten [4,
S. 3].
Definition 2.1
(Rückführung)
.
Eine Rückführung bzw. ein Rückführ- oder Regelgesetz
(engl. control policy)1ist eine Folge von Funktionen
π={µ0, µ1, ..., µN1},(2.12)
wobei µkden Zustand xkauf eine Steuerung
uk=µk(xk)(2.13)
abbildet. Die Rückführung ist zulässig, wenn
µk
(
xk
)
U
(
xk
)für alle
xkXk
und
k
gilt
[4].
Weiterhin kann
π
auch stochastischen Charakter haben und als bedingte Verteilung über
den Zustand
ukπ(uk|xk)(2.14)
gegeben sein. Die deterministische Rückführung
(2.13)
kann in der Form
(2.14)
darge-
stellt werden:
π(uk|xk) =
1,wenn uk=µk(xk),
0,sonst.(2.15)
Für die Rückführung
π
wird eine Verteilung
pπ
(
τ
)eingeführt, die die Wahrscheinlichkeit
für das Auftreten einer Trajektorie τangibt [49]:
pπ(τ) = p(x0)
N1
Y
k=0
π(uk|xk)p(xk+1|xk,uk).(2.16)
Definition 2.2
(Bewertungsfunktion
Qπ
)
.
Die Bewertungsfunktion (engl. Q-function,
action-value function)
Qπ
für eine gegebene Rückführung
π
gibt die zu erwartenden
Restkosten für ein gegebenes Zustands-Eingangspaar (x,u)an [49]:
Qπ(x,u) = Eτpπ(τ)(cN(xN) +
N1
X
i=k
ci(xi,ui)xk=x,uk=u)(2.17)
1In der englischsprachigen Literatur wird oft auch nur von policy gesprochen.
6
Definition 2.3
(Restkosten
Vπ
)
.
Die zu erwartenden Restkosten (engl. value function)
Vπ
für eine gegebene Rückführung
π
ausgehend von einem Anfangszustand
x
sind durch
Vπ(x) = Eukπ(·|xk)Qπ(xk,uk)x0=x(2.18)
gegeben [49].
Das Problem der optimalen Steuerung
Das Problem der optimalen Steuerung wird auf zwei Weisen formuliert und entsprechend
gelöst. Zur Lösung des Problems der optimalen Steuerung ist entweder
1. die optimale Eingangsfolge U
[0:N1] ={u
0, ..., u
N1}[19, S. 82]:
min
U[0:N1]
J(x0,U[0:N1])(2.19a)
u.B.v.xk+1 =fd(xk,uk,wk), k = 0, ..., N 1,(2.19b)
ukU(xk),(2.19c)
geg.x0,(2.19d)
oder
2.
die optimale Rückführung
π
zu bestimmen, welche die zu erwartenden Restkosten
Vπminimiert:
V(x0) = min
πΠVπ(x0),(2.20)
wobei
π
Element des Funktionenraumes der zulässigen Rückführungen Πist. Die
Minimierung führt auf die minimalen bzw. optimalen Restkosten (engl. optimal
value function) [4, S. 14].
Modellprädiktive Regelung (engl. model predictive control) (MPC)
Die MPC ist eine fortgeschrittene Methode der Steuerungs- und Regelungstheorie,
bei der in jedem Zeitschritt
k
das verkürzte Optimierungsproblem
(2.19)
über
Np
Zeitschritte gelöst wird [20]. Mit
Np
ist der Prädiktionshorizont bezeichnet. Der erste
Wert
u
0
der bestimmten optimalen Eingangsfolge
U
[0:Np1]
wird auf das System
(2.1)
angewandt, woraufhin eine Zustandstransition erfolgt. Der Folgezustand wird als neuer
Anfangswert genutzt, um erneut das Optimierungsproblem zu lösen. Im Gegensatz zur
naiven Anwendung der Steuerfolge
U
[0:Np1]
wird so der Einfluss von Störgrößen und
Modellunbestimmtheiten kompensiert.
7
Algorithmus 1 Modellprädiktive Regelung MPC
Anfangswert x0p(x0)
for k= [0, ..., N 1] do
U
[0:Np1] aus (2.19) mit x0:= xkund Prädiktionshorizont NpOptimierung.
uk:= u
0
xk+1 p(xk+1|xk,uk)
end for
2.1.2 Dynamische Programmierung (DP)
Die dynamische Programmierung (DP) basiert auf dem Optimalitätsprinzip von Bellman,
welches besagt, dass sich jede optimale Lösung von
(2.20)
aus optimalen Teillösungen
zusammensetzt. Die Grundidee der DP ist es, das Problem in Teilprobleme zu unterteilen,
welche einfacher gelöst werden können und diese Teillösungen zur Gesamtlösung zusam-
menzusetzen. In der Informatik wird dieser Ansatz als Teile-und-herrsche-Verfahren
bezeichnet [12, S. 28].
Satz 1
(Optimalitätsprinzip von Bellman)
.
Sei
π
=
nµ
0, µ
1, ..., µ
N1o
die optimale
Rückführung für
(2.18)
. Betrachtet man das Teilproblem von
(2.11)
, bei dem ausgehend
vom Zustand xidie Restkosten
J(x,U[i:N1]) = Eτp(τ)
cN(xN) +
N1
X
j=i
cj(xj,uj)xi=x
minimiert werden sollen, so ist die verkürzte Rückführung
nµ
i, µ
i+1, ..., µ
N1o
optimal
für das Teilproblem [4, S. 18].
Auf Basis von Satz 1 lässt sich der Algorithmus der dynamischen Programmierung
herleiten, der in Satz 2 aufgeführt ist.
Satz 2
(Dynamische Programmierung (DP))
.
Für jeden Anfangszustand
x0
, sind die
minimalen Restkosten
V
(
x0
)gleich den Restkosten
V0
(
x0
)des folgenden Algorithmus.
Dieser berechnet ausgehend von
k
=
N
bis zu
k
= 0 – für alle
xkXk
– die minimalen
Restkosten für eine gegebene Randbedingung cN(xN):
VN(xN) = cN(xN)(2.21a)
Vk(xk) = min
ukU(xk)ck(xk,uk) + Exk+1p(·|xk,uk)Vk+1 (xk+1), k = 0,1, ..., N 1.
(2.21b)
Wenn weiterhin
u
k
:=
µ
k
(
xk
)der Minimierer von
(2.21b)
für alle
xk
und
k
ist, dann
ist die Rückführung π=nµ
0, µ
1, ..., µ
N1ooptimal [4, S. 23].
8
2.1.3 Markow-Entscheidungsproblem (MEP)
Definition 2.4
(MEP)
.
Ein MEP ist ein Tupel
M
= (
X,U,T, c, γ
). Dabei bezeichnet
X
einen Zustandsraum,
U
einen Eingangsraum,
T
einen Transitionsoperator,
c
ein
Kostenfunktional und γeinen Diskontierungsfaktor [59].
Ein MEP bildet einen sehr allgemein gehaltenen Rahmen für die Lösung von Problemen
zur sequenziellen Entscheidungsfindung mit Unbestimmtheiten. Prinzipiell kann jede
regelungstechnische Problemstellung als MEP formuliert werden.
Bemerkung 2.2
(Partiell beobachtbares MEP)
.
Bei partiell beobachtbaren MEP wird
davon ausgegangen, dass nur der Ausgang
yk
bekannt ist und so nur eine indirekte
Kenntnis über den Zustand
xk
vorliegt. Der Zusammenhang von
xk
und
yk
wird durch
die bedingte Verteilung
h(yk+1|xk+1,uk)(2.22)
definiert [59]. In diesem Fall kann die optimale Rückführung
π
, im Gegensatz zu der
optimalen Rückführung eines MEP, auch stochastisch sein [62]. In dieser Arbeit werden
nur MEP betrachtet, es wird also davon ausgegangen, dass der Zustand
xk
bekannt ist.
In der Regelungs- und Steuerungstheorie werden im Fall der partiell beobachtbaren MEP
modellbasierte Schätzer (bspw. das Kalman-Filter) eingesetzt, um den Zustand
xk
zu
rekonstruieren.
Lösung eines Markow-Entscheidungsproblem
Ein MEP ist gelöst, wenn die optimale Restkostenfunktion
V
(
xk
)bzw. die optima-
le Bewertungsfunktion
Q
(
xk,uk
)bestimmt ist. Aus dieser lässt sich die optimale
Rückführung πableiten [59]:
π(uk|xk) =
1,wenn uk= arg minukU(xk)Q(xk,uk),
0 sonst.(2.23)
Alternativ kann πauch aus Vberechnet werden:
µ(xk) = arg min
ukU(xk)c(xk,uk) + γExk+1p(·|xk,uk){V(xk+1)}.(2.24)
V
und
π
können bspw. mit der in Abschnitt 2.1 beschriebenen DP bestimmt werden.
Dazu muss jedoch der Transitionsoperator
T
, also die Dynamik des Systems
(2.1)
bekannt sein.
9
Die Rückführung
(2.23)
wird als greedy policy – also gierige
2
Rückführung – bezeichnet,
da sie
Q
minimiert. Die optimale Rückführung
π
ist somit deterministisch. Dass
π
im
Kontext des bestärkenden Lernen als bedingte Verteilung über den Zustand
π
(
uk|xk
)
formuliert wird, stellt eine notwendige Verallgemeinerung dar. Die Rückführung
π
ist während des Lernvorgangs probabilistisch, um den Zustandsraum des Systems zu
erkunden.
Eine häufig verwendete Rückführung ist die sog.
ε
-greedy Rückführung
πε
(
uk|xk
), die
mit der Wahrscheinlichkeit (1
ε
)die Rückführung
(2.23)
anwendet und mit der
Wahrscheinlichkeit εeine zufällige Steuerung ukU(xk)zurückgibt.
2.1.4 Exakte Lösung eines Markow-Entscheidungsproblems
(MEP)
Für die exakte Lösung eines MEP muss
V
bzw.
Q
bestimmt werden. Dazu muss im
Gegensatz zur approximativen Lösung, die bspw. mit den Methoden des bestärkenden
Lernens erfolgen kann, die Systemdynamik (2.1) bekannt sein.
Werte-Iteration (engl. value iteration)
Unter Werte-Iteration versteht man die Berechnung von
V
durch die in Satz 2 beschrie-
bene DP. Die Iteration wird für den gesamten Zustandsraum ausgehend von beliebig
initialisierten Restkosten
V0
durchgeführt [66, S. 83]. Ist der Zustandsraum kontinuierlich,
so muss er entsprechend diskretisiert werden.
Die Iterationsvorschrift in Satz 2 stellt eine Fixpunktiteration für
V
dar und konvergiert
gegen
V
[59]. Wenn also
Vk+1
=
Vk
gilt, ist die optimale Restkostenfunktion
V
gefunden.
Regler-Iteration (engl. policy iteration)
Bei der Regler-Iteration wird zunächst die Restkostenfunktion
Vπ
(
xk
)einer beliebig
initialisierten Rückführung πbestimmt [66, S. 80]:
Vπ(xk) = ck(xk, µ(xk)) + γExk+1p(·|xk(xk)) {Vπ(xk+1)},xkXk.(2.25a)
Anschießend kann mit (2.24) eine neue Rückführung π0bestimmt werden:
µ0(xk) := arg min
ukU(xk)ck(xk,uk) + γExk+1p(·|xk,uk){Vπ(xk+1 )},xkXk.
(2.25b)
2Im Englischen wird von gierig gesprochen, da diese Rückführung die Belohnung maximiert.
10
Abbildung 1
– Bei der Regler-Iteration [66, S. 87] wechselt der Algorithmus – ausgehend
von initialen
V
und
π
– zwischen der Bestimmung von
Vπ
und der Verbesserung von
π
.
Diese beiden Schritte werden wiederholt, bis
π
=
π0
gilt. Der Algorithmus wechselt
zwischen der Bestimmung von
Vπ
und der Verbesserung von
π
. Dieser Vorgang ist
in Abbildung 1 dargestellt. Auch die Regler-Iteration ist eine Fixpunktiteration und
konvergiert gegen π. Ein Beweis ist bspw. in [52] aufgeführt.
Der Werte- und Regler-Iteration ist gemein, dass bei großen
X
die Auswertung von
Satz 2 und
(2.25)
sehr rechenaufwendig sind. In Kapitel 3 werden deshalb Methoden
zur approximativen Lösung aufgezeigt.
2.1.5 Zeitdiskreter stochastischer LQR mit endlichem
Zeithorizont
Der LQR-Entwurf stellt eine bedeutende Anwendung der DP in der linearen Steuerungs-
und Regelungstheorie dar. Der LQR eignet sich zur Stabilisierung von Ruhelagen
nichtlinearer Systeme. Der Algorithmus wird an dieser Stelle in Vorbereitung auf
Kapitel 5 detailliert hergeleitet.
Beim zeitdiskreten LQR-Entwurf wird die bezüglich eines quadratischen Kostenfunk-
tionals optimale Rückführung
π
für ein lineares zeitinvariantes System mit diskreter
Zeitentwicklung
xk+1 =fd(xk,uk,wk) = Axk+Buk+wk, k = 0,1, ..., N 1,(2.26)
bestimmt. Das Paar (A, B)ist steuerbar [14, S. 616].
Die Störgröße wkist durch folgende Eigenschaften charakterisiert [7]:
E{wk}=0,(2.27a)
E{wkwT
k}=W. (2.27b)
11
Die Kosten sind gegeben durch
ck(xk,uk) = 1
2xT
kSxk+uT
kRuk+ 2xT
kPuk,(2.28a)
cN(xN) = 1
2xT
NSNxN.(2.28b)
Mit
S
0
, SN
0positiv semi- und
R >
0positiv definiten, symmetrischen Gewichts-
matrizen entsprechender Dimension, die in der Regel Diagonalstruktur aufweisen. Die
Gewichtsmatrix Perfüllt die Bedingung [14, S. 615]:
SP R1PT0.(2.29)
Mit (2.26) und (2.10) stellt das LQR-Problem einen Spezialfall von (2.19) dar.
Um die optimale Rückführung πin der Form
u
k=µ(xk) = Kkxk(2.30)
zu bestimmen, können zwei Ansätze verfolgt werden:
1. Lösung von (2.19) mittels Satz 2 (DP) (s. Abschnitt 2.1.6),
2.
Überführung von
(2.19)
auf ein lineares Optimierungsproblem [2] (hier nicht weiter
beschrieben).
Der LQR-Entwurf stellt ein Verfahren zur Polplatzierung des geschlossenen Regelkreises
bereit. Anstatt jedoch die Pole explizit vorzugeben, kann mittels der Gewichtsmatrizen
das gewünschte Regelverhalten eingestellt werden.
2.1.6 Lösung des stochastischen LQR-Problems mittels
dynamischer Programmierung (DP)
Ausgehend von den Endkosten
cN
(
xN
)wird eine Rückwärtsrechnung auf Basis von
(2.21)
bis zu
x0
durchgeführt, bei der für jeden Zeitschritt
k
die optimale Rückführmatrix
Kk
durch Optimierung bestimmt wird:
VN(xN) = 1
2xT
NSxN,(2.31a)
VN1(xN1) = min
uN1cN1(xN1,uN1) + E{VN(xN)}.(2.31b)
12
Das Einsetzen der Systemgleichung
xN
=
AxN1
+
BuN1
+
wN1
liefert die Bewer-
tungsfunktion:
QN1(xN1,uN1) = cN1(xN1,uN1) + EwN1{VN(AxN1+BuN1+wN1)},
(2.32a)
=cN1(xN1,uN1)(2.32b)
+EwN11
2(AxN1+BuN1+wN1)TSN(AxN1+BuN1+wN1),
=cN1(xN1,uN1) + 1
2(AxN1+BuN1)TSN(AxN1+BuN1)(2.32c)
+1
2EwN1nwT
N1SNwN1o,
=1
2xT
N1SxN1+uT
N1RuN1+ 2xT
N1PuN1(2.32d)
+1
2(AxN1+BuN1)TSN(AxN1+BuN1)
+1
2Spur(W SN),
=1
2xT
N1(S+ATSNA)xN1+uT
N1(R+BTSNB)uN1(2.32e)
+ 2xT
N1(ATSNB+P)uN1+ Spur(W SN).
Aus
QN1
(
xN1,uN1
)kann mittels Minimierung der optimale Eingang bestimmt
werden:
u
N1= arg min
uN1QN1(xN1,uN1).(2.33)
Dazu wird die notwendige Bedingung für Optimalität verwendet [5, S. 13]:
uN1
QN1(xN1,u
N1)!
= 0,(2.34a)
uT
N1(R+BTSNB) + xT
N1(ATSNB+P)=0,(2.34b)
(R+BTSNB)TuN1+ (BTSNA+PT)xN1= 0,(2.34c)
u
N1=KN1xN1,(2.34d)
mit
KN1:=(R+BTSNB)1(BTSNA+PT).(2.35)
13
Dass es sich dabei tatsächlich um den optimalen Eingang handelt, folgt aus der hinrei-
chenden Bedingung für Optimalität [5, S. 13]:
2
2uN1
QN1(xN1,uN1)>0,(2.36)
(R+BTSNB)>0.(2.37)
Durch die Definitheitsanforderungen an die Gewichtsmatrizen
R
und
SN
ist diese immer
erfüllt. Somit ist das Problem konvex und bereits (2.34) hinreichend [5, S. 14].
Das Einsetzen der in
(2.34)
bestimmten Steuerung liefert die minimalen Restkosten für
den Anfangszustand xN1:
VN1(xN1) = QN1(xN1,KN1xN1),(2.38a)
=1
2xT
N1(S+ATSNA)xN1+xT
N1KT
N1(R+BTSNB)KN1xN1(2.38b)
2xT
N1(ATSNB+P)KN1xN1+ Spur(W SN),
=1
2xT
N1S+ATSNA+KT
N1(R+BTSNB)KN12(ATSNB+P)KN1xN1
(2.38c)
+1
2Spur(W SN),
=1
2xT
N1SN1xN1+1
2Spur(W SN),(2.38d)
mit
SN1:= S+ATSNA+KT
N1(R+BTSNB)KN12(ATSNB+P)KN1.(2.39)
Diese quadratische Form von
VN1
(
xN1
)ist äquivalent zu
(2.31a)
. Setzt man den
Algorithmus fort, kann man iterativ
S0
bestimmen und damit auch
V0
(
x0
). Für
SN1
aus (2.39) folgt durch Eliminierung von KN1:
SN1=S+ATSNA+KT
N1(R+BTSNB)KN12(ATSNB+P)KN1,(2.40a)
=S+ATSNA+KT
N1(R+BTSNB)KN1
| {z }
(2.35)
= (BTSNA+PT)
2(ATSNB+P)KN1,(2.40b)
=S+ATSNA+KT
N1(BTSNA+PT)2(ATSNB+P)KN1,(2.40c)
(2.35)
=S+ATSNA+(R+BTSNB)1(BTSNA+PT)T(BTSNA+PT)
(2.40d)
2(ATSNB+P)(R+BTSNB)1(BTSNA+PT),
=S+ATSNA+ (ATSNB+P)(R+BTSNB)1(BTSNA+PT).(2.40e)
14
Die Matrizen
Kk
, mit
k
=
N
1
, ...,
0resultieren aus der folgenden Iterationsvorschrift:
Kk= (R+BTSk+1B)1(BTSk+1A+PT),(2.41)
wobei
Sk+1
beginnend mit
SN
, aus der Lösung der folgenden Riccati-Gleichung resultiert
[14, S. 616]:
Sk=S+ATSk+1A+ (ATSk+1B+P)(R+BTSk+1B)1(BTSk+1 A+PT).(2.42)
Die optimale Rückführung für das deterministische lineare System
xk+1 =fd(xk,uk) = Axk+Buk, k = 0,1, ..., N 1,(2.43)
ist bemerkenswerter Weise identisch zu der des stochastischen Systems (2.26).
Um nun die optimale Steuerfolge
U
[0:N1]
:=
{u
0,u
1, ..., u
N1}
zu bestimmen, wird
ausgehend von
x0
eine Vorwärtsrechnung durch Nutzung der optimalen Rückführung
durchgeführt.
u
0=K0x0x1=Ax0+Bu
0,(2.44a)
.
.
..
.
.
u
N1=KN1xN1xN=AxN1+Bu
N1.(2.44b)
Unendlicher Zeithorizont
Für den Grenzwert N→ ∞ geht (2.42) in die diskrete algebraische Riccati-Gleichung
S=S+ATSA+ (ATSB+P)(R+BTSB)1(BTSA+PT)(2.45)
über, die eine positiv semidefinite Lösung
S
hat [14, S. 617]. Mit dieser ergibt sich die
Rückführmatrix zu
K= (R+BTSB)1(BTSA+PT),(2.46)
mit der die optimale Rückführung aufgestellt werden kann:
µ:= Kx.(2.47)
Bei unendlichem Zeithorizont ist die optimale Rückführung πdemnach zeitinvariant:
π={µ, ..., µ}.(2.48)
15
2.2 Maschinelles Lernen
Das maschinelle Lernen stellt automatisierte Methoden für die Datenanalyse bereit. Es
ermöglicht komplexe Aufgaben zu bewältigen, die nicht explizit programmiert werden
können.
Das Buch [42, S. 2] liefert eine sehr allgemeine Formulierung für die Begrifflichkeit des
Lernens eines Computerprogramms:
Definition 2.5.
A computer program is said to
learn
from experience
E
with respect
to some class of tasks
T
and performance measure
P
, if its performance at tasks in
T
,
as measured by P, improves with experience E.
Ein Computerprogramm
lernt
aus der Erfahrung
E
bezogen auf eine Klasse von Aufgaben
T
und Leistungskriterium
P
, wenn sich seine Leistung in der Aufgabe
T
, gemessen
durch P, mit der Erfahrung Everbessert.
Das maschinelle Lernen lässt sich in drei Gebiete unterteilen:
1. Überwachtes Lernen (engl. supervised learning),
2. Unüberwachtes Lernen (engl. unsupervised learning),
3. Bestärkendes Lernen (engl. reinforcement learning).
Unter unüberwachtem Lernen versteht man Methoden, bei denen eigenständig Mus-
terklassen erkannt werden [30, S.55] Dieses Gebiet des maschinellen Lernens findet in
dieser Arbeit keine Anwendung und wird deshalb auch nicht weiter beschrieben. Das
bestärkende Lernen wird in Abschnitt 3.1 näher erläutert, weshalb im Folgenden nur
auf das überwachte Lernen eingegangen wird.
2.2.1 Überwachtes Lernen
Beim überwachten Lernen ist ein Datensatz
D
=
{
(
x(i),y(i)
)
}N
i=03
aus Tupeln gegeben,
welcher die Erfahrung
E
repräsentiert. Mit
xRn
ist der Eingabe- oder Merkmalsvektor
und mit
y
der Ausgabevektor bezeichnet. Gehören die Ausgaben
y∈ {1,2, ..., C}
einer
Menge von Klassen an, die bspw. durch natürliche Zahlen kodiert sind, so spricht man
von einer Klassifikationsaufgabe. Gilt hingegen
yRm
, so handelt es sich um eine
Regressionsaufgabe.
In beiden Fällen besteht die Aufgabe darin, die tatsächliche Abbildung
f
:
x7→ y
zu
approximieren, welche dem Datensatz
D
zugrunde liegt. Die Approximation von
f
wird
mittels einem durch den Vektor θparametrierten Modell ˆ
f: (x;θ)7→ ˆ
yrealisiert.
3Mit dem hochgestellten Index (·)werden Datenpunkte gekennzeichnet.
16
Das Leistungskriterium
P
zu wählen, ist nicht trivial. Es ist mitunter schwer, die Leistung
eines Lernsystems in der Aufgabe
T
zu messen oder zu quantifizieren. Deshalb versucht
man durch geeignete Wahl eines Kostenfunktionals
fP
, das Leistungskriterium
P
zu
approximieren. Man hofft durch eine Minimierung von
fP
, die Leistung des Lernsystems
zu verbessern und Ppositiv zu beeinflussen [17, S. 102].
Beim überwachten Lernen repräsentiert das Kostenfunktional fP(y,ˆ
y)mit
ˆ
y= (ˆy0,ˆy1, ..., ˆyN)T(2.49)
und
y= (y0, y1, ..., yN)T(2.50)
die Güte der Approximation. Mittels einer Optimierung ist der optimale Parametervektor
θzu bestimmen, welcher fP(y,ˆ
y)minimiert:
θ= arg min
θfP(y,ˆ
y).(2.51)
Unter bestimmten Voraussetzungen kann dieses Problem analytisch gelöst werden. In
der Regel handelt es sich aber um ein hochdimensionales nichtlineares Optimierungspro-
blem. Die Optimierung
(2.51)
wird im Kontext des maschinellen Lernens als Training
bezeichnet.
Da
fP
nicht-konvex ist und viele lokale Minima aufweist, ist die gefundene Lösung
θ
mit sehr hoher Wahrscheinlichkeit nur ein lokales Optimum. In [11] wird gezeigt, dass
die lokalen Minima von
fP
für KNN ähnliche Qualität haben, und zudem nicht zu stark
vom globalen Minimum abweichen. Konvergiert die Optimierung
(2.51)
zu einem lokalen
Minimum, wird eine Überanpassung (engl. overfitting) unterbunden.
2.3 Künstliche neuronale Netzwerke (KNN)
KNN sind nichtlineare mathematische Modelle, die beim maschinellen Lernen unter
anderem verwendet werden, um Abbildungen zu approximieren. Es gibt verschiedene
Typen von KNNs, bspw. mehrschichtige Perzeptren (engl. multilayer perceptrons)
(MLP), rekurrente neuronale Netzwerke (RNN) und Faltungsnetzwerke (CNN), um nur
einige bedeutende zu nennen. In dieser Arbeit wird sich auf die Anwendung von MLP
beschränkt, weshalb weitere Typen nicht näher betrachtet werden.
2.3.1 Mehrschichtiges Perzeptron (MLP)
Ein mehrschichtiges Perzeptron (engl. multilayer perceptron) (MLP) ist aus kleinen
Recheneinheiten, den sog. Perzeptren (engl. perceptrons) (s. Abbildung 2), zusammen-
gesetzt.
17
x1
x2
xn
.
.
.ˆyj
j
Σ
wn,j
w1,j
w2,j
Abbildung 2 – Perzeptron.
Das Perzeptron realisiert die Abbildung:
ˆyj=fAkt(wT
jx+bj),(2.52)
mit dem Gewichtsvektor
wjRn
und dem sog. Bias
bjR
, dem Eingabevektor
xRn
und der Ausgabe
ˆyjR
. Die Aktivierungsfunktion
fAkt
ist im Allgemeinen nichtlinear
(bspw. tanh). Aus mehreren Perzeptren in Reihen- und Parallelschaltung setzt sich das
MLP, wie in Abbildung 3 dargestellt, zusammen.
x1
x2
xn
.
.
.ˆy1
ΣΣ
Σ
Σ
Σ
Σ
.
.
.
.
.
.
.
.
.
.
.
.ˆym
.
.
.
.
.
.
Abbildung 3 MLP mit zwei Schichten.
Die Modellgleichung des MLP in Abbildung 3 lautet demnach4:
ˆ
y[1] =f[1]
Akt(W[1] x+b[1]),(2.53a)
ˆ
y[2] =f[2]
Akt(W[2] ˆ
y[1] +b[2]),(2.53b)
mit den Gewichtsmatrizen
W[i]= (wT
0,i, ..., wT
j,i)T,(2.54)
sowie den Bias-Vektoren
b[i]= (b0,i, ..., bj,i )T, i = 1,2.(2.55)
4Mit dem hochgestellten Index [·]wird die Schicht eines KNN gekennzeichnet.
18
Damit gilt für den Parametervektor
θ:= {W[1],b[1] , W [2],b[2]}.(2.56)
Aktivierungsfunktionen
Die gängigen Aktivierungsfunktionen [30, S. 39][17, S. 170]
σ(x) = 1
1 + ex,(2.57)
tanh(x) = 2
1 + e2x1,(2.58)
sowie
ReLU(x) = max(0, x)(2.59)
sind in Abbildung 4 dargestellt. Die Rectified-Linear-Unit (ReLU) kommt besonders bei
tiefen Netzen zum Einsatz, da der Gradient dieser Funktion stückweise konstant ist,
was numerisch günstig für das Training ist.
10 0 10
x
0.0
0.5
1.0
σ(x)
10 0 10
x
1
0
1
tanh(x)
10 0 10
x
0
5
10
ReLU(x)
Abbildung 4 – Gängige Aktivierungsfunktionen fAkt für die Verwendung in KNN.
Kostenfunktionale
Das Kostenfunktional (engl. loss function)
fP
(
y,ˆ
y
) :
θ7→ R
ist ein Maß für die Güte der
Approximation. Je nachdem, was unter Güte in diesem Kontext verstanden wird, lassen
sich unterschiedliche Funktionale definieren. Neben den gewöhnlichen Funktionalen
mittlerer quadratischer Fehler (engl. mean squared error) (MSE)
fP(y,ˆ
y) = 1
2||yˆ
y||2
2(2.60)
19
und
mittlerer absoluter Fehler (engl. mean absolute error) (MAE)
fP(y,ˆ
y) = ||yˆ
y||1(2.61)
haben besonders Maße aus der Informationstheorie eine Bedeutung [44, S. 57].
Backpropagation (BP)
Backpropagation ist ein Verfahren zur effizienten Bestimmung des Gradienten der
Kostenfunktion bezüglich des Parametervektors
θfP
. Ist
θfP
bekannt, kann
(2.51)
,
ausgehend von einem initialen Parametervektor, mittels Gradientenabstiegsverfahren
gelöst werden:
θk+1 θkβθfP.(2.62)
Für ein MLP mit LSchichten
ˆ
y[1] =f[1]
Akt(W[1] x+b[1]),(2.63a)
ˆ
y[2] =f[2]
Akt(W[2] ˆ
y[1] +b[2]),(2.63b)
.
.
.
ˆ
y[L1] =f[L1]
Akt (W[L1] ˆ
y[L2] +b[L1]),(2.63c)
ˆ
y[L]=f[L]
Akt(W[L]ˆ
y[L1] +b[L]),(2.63d)
ist θfPals Vektor aufzufassen, der sich folgendermaßen zusammensetzt:
θfP:= (∂fP
∂W [1] ,fP
b[1] , ..., fP
∂W [L],fP
b[L]).(2.64)
Im folgenden soll die Berechnung am Beispiel von
fP
(
y,ˆ
y
) =
1
2||yˆ
y||2
2
durchgeführt
werden. Die Argumente von f[l]
Akt können zu einem Vektor
z[l]:= W[l]ˆ
y[l1] +b[l], l = 1, ..., L, (2.65)
mit
ˆ
y[0] := x,ˆ
y[L]:= ˆ
y,(2.66)
zusammengefasst werden.
20
Um die einzelnen Komponenten von
(2.64)
zu bestimmen wird die Kettenregel angewandt.
Zunächst werden die Gradienten der Ausgabeschicht Lbestimmt:
δL:= ∂fP
z[L]=ˆ
y[L]
z[L]
∂fP
ˆ
y[L]= diag f0[L]
Akt(z[L])(ˆ
y[L]y).(2.67)
Mit
δL
lassen sich die Gradienten bezüglich der Gewichte von Schicht
L
kompakt
darstellen:
∂fP
∂W [L]=z[L]
∂W [L]
ˆ
y[L]
z[L]
∂fP
ˆ
y[L]=ˆ
y[L1] δL,(2.68a)
∂fP
b[L]=z[L]
b[L]
ˆ
y[L]
z[L]
∂fP
ˆ
y[L]=δL.(2.68b)
Das dyadische Produkt
tritt an dieser Stelle auf, da
z[L]
∂W [L]
ein Tensor dritter Stufe ist,
der sich aus den folgenden Jacobi-Matrizen zusammensetzt:
∂z[L]
i
∂W [L]
j,k
=
ˆy[L]
k,wenn j=i,
0 sonst.(2.69)
Für die weiteren Schichten
l
= 1
, ..., L
1lässt sich die folgende Iterationsvorschrift
herleiten:
δl:= ∂fP
z[l]=ˆ
y[l]
z[l]
z[l+1]
ˆ
y[l]δl+1 = diag f0[l]
Akt(z[l])W[l+1]Tδl+1.(2.70)
Damit folgt für die weiteren Gradienten:
∂fP
∂W [l]=ˆ
y[l1] δl,(2.71a)
∂fP
b[l]=δl.(2.71b)
Um
(2.67)
,
(2.68)
,
(2.70)
und
(2.71)
zu berechnen müssen die Zwischenwerte aller Netz-
werkschichtausgaben
ˆ
y[l],z[l]
mit
l
= 1
, ..., L
bekannt sein. Es muss deshalb für ein
gegebenes Paar (
x(i),y(i)
)
∈ D
zunächst eine Vorwärtsrechnung der Modellgleichung
(2.63)
durchgeführt werden. In Algorithmus 2 wird das Verfahren kompakt zusammen-
gefasst.
Moderne Software-Bibliotheken für maschinelles Lernen nutzen das automatische Diffe-
renzieren [57] zur effizienten Berechnung der in Algorithmus 2 benötigten Gradienten.
21
Algorithmus 2 Backpropagation [17, vgl. S. 208f]
Require: (x(i),y(i))∈ D
ˆ
y[l],z[l]l[1, L]Vorwärtsrechnung des KNN (2.63)
δ[L],∂fP
∂W [L], fP
b[L]Gradienten Schicht L(2.67),(2.68)
for l= [L1, ..., 1] do Rückwärtsrechnung
δ[l],∂fP
∂W [l], fP
b[l]Gradienten Schicht l(2.70),(2.71)
end for
Training von KNN
Mit der Backpropagation lässt sich der Gradient
θfP
für ein gegebenes Paar (
x(i),y(i)
)
berechnen. Um damit ein KNN zu trainieren, ist es jedoch nötig
θfP
für alle
N
Paare des Datensatzes
D
zu berechnen. Der Gradientenabstieg erfolgt dann mittels
der folgenden Vorschrift, bei welcher der Mittelwert über alle berechneten Gradienten
gebildet wird:
θk+1 θkβg,(2.72)
mit
g:= 1
N
N
X
i=0
θfP(y(i),ˆ
f(x(i);θ)).(2.73)
Da die Berechnung von
g
für große Datensätze
D
sehr rechenintensiv ist, kann
g
auch
geschätzt werden. Dazu wird
g
nur für eine in jedem Iterationsschritt des Gradientenab-
stiegsverfahren zufällig ausgewählte Teilmenge B ⊂ D bestimmt:
ˆ
g:= 1
|B| X
i∈B
θfP(y(i),ˆ
f(x(i);θ)).(2.74)
Dieses Verfahren nennt man stochastisches Gradientenabstiegsverfahren (engl. stochastic
gradient descent) (SGD). Die Teilmenge
B
wird im Kontext des maschinellen Lernens
als Minibatch bezeichnet.
2.3.2 Maschinelles Lernen in Python
Die Entwicklung freier Software-Bibliotheken für maschinelles Lernen hat einen we-
sentlichen Beitrag zu dessen Popularität geleistet, da der Einstieg in die Entwicklung
von Software, die das maschinelle Lernen nutzt, so bedeutend vereinfacht wurde. Es ist
bspw. nicht mehr nötig, das BP-Verfahren oder einen Optimierungsalgorithmus selbst
zu implementieren.
Im Rahmen der Arbeit wurde die Software-Bibliothek Pytorch [47] genutzt.
22
Kapitel 3
Bestärkendes Lernen
Das bestärkende Lernen (engl. reinforcement learning) stellt datengetriebene Methoden
bereit, die Probleme der sequenziellen Entscheidungsfindung lösen. Als computergestüt-
zes Verfahren weißt es Analogien zu den Lernprozessen von Mensch und Tier auf. Bei der
instrumentellen Konditionierung in der Lernpsychologie wird das gewünschte Verhalten
eines Individuums durch externe Reize in Form von Belohnungen und Bestrafungen in
eine gewünschte Richtung gelenkt [63]. Auch beim bestärkenden Lernen ist eine solche
Reizrückkopplung in Form eines Kosten- bzw. Belohnungssignals vorhanden, welches
Informationen über die Erfüllung einer Aufgabenstellung widerspiegelt.
Im Kontext der Regelungs- und Steuerungstheorie kann das bestärkende Lernen als
adaptive Optimalsteuerung interpretiert werden [67]. Es wird genutzt um selbstlernende
Regler zu entwerfen und findet besonders in der Robotik, wo Bildverarbeitung und
komplexe Steuerungsaufgaben zusammenkommen, eine breite Anwendung [34,1,53,33,
22,73].
In diesem Kapitel werden die wesentlichen Konzepte des bestärkenden Lernens erläutert,
um eine Basis für die weiterführenden Methoden in Kapitel 4 zu schaffen.
3.1 Agent-Umgebung-Interaktionsmodell
Die Umgebung befindet sich zum Zeitpunkt
k
im Zustand
xkXk
. Der Agent nimmt
in jedem Zeitschritt durch die Ausgabe der Steuerung
uk
Einfluss auf die Umgebung,
wodurch eine Zustandstransition von
xk
auf
xk+1
erfolgt. Der Agent erhält darauf-
hin den Folgezustand
xk+1
und die inkrementellen Kosten
ck
. Das Agent-Umgebung-
Interaktionsmodell ist ein MEP. Zur Veranschaulichung ist dieses Agent-Umgebung-
Interaktionsmodell in Abbildung 5 dargestellt.
Die aus der Interaktion mit der Umgebung resultierenden Tupel
di
= (
x(i)
k,u(i)
k, c(i)
k,x(i)
k+1
)
werden in einem stetig wachsenden Datensatz
D
=
{d0, d