Nächste Seite: ALGORITHMUS
Aufwärts: WELTMODELLBAUER
Vorherige Seite: ZWEI PERFORMANZMASSE
  Inhalt
Das Steuernetzwerk
sei (zur vereinfachten Darstellung des Prinzips) ein
konventionelles azyklisches BP-Netzwerk.
Alle Knoten in
seien durchnumeriert, die Aktivation
des
-ten Knotens in Antwort auf
den
-ten an der Eingabelage anliegenden Eingabevektor
sei mit
bezeichnet,
wobei
, falls
Eingabeknoten ist.
In der
-ten Lage von
(
)
berechnet sich
wie folgt:
 |
(4.1) |
wobei
das Gewicht der gerichteten Verbindung vom
Knoten
zum Knoten
darstellt, und
wieder für eine differenzierbare
Aktivierungsfunktion
steht.
Der Ausgabevektor
der obersten Lage heiße
.
Das Weltmodellnetzwerk
sei ebenfalls als
azyklisches BP-Netzwerk implementiert.
's Eingabe ist die Konkatenation
der Vektoren
und
.
Für
's Trainingsphase wird i.a.
gelten,
für
's Trainingsphase hingegen stets
.
Die Aktivation
des
-ten Knotens von
in Antwort auf
wird mit
bezeichnet, wobei
gleich der
-ten Komponente von
ist, falls
Eingabeknoten ist.
In der
-ten Lage von
(
)
berechnet sich
analog zur Aktivationsausbreitung
in
wie folgt:
 |
(4.2) |
Siehe hierzu Abbildung 4.1.
Abbildung:
Ein Steuernetz reagiert auf den Umgebungszustand mit einem Steuersignal
für einen externen Prozeß. Die Abbildung von Kombinationen von
Zuständen und Aktionen auf Effekte in der Umgebung wird durch
ein zweites adaptives `Modellnetzwerk' modelliert.
Letzteres dient auch zur Gradientenberechnung für das Steuernetz.
 |
Nächste Seite: ALGORITHMUS
Aufwärts: WELTMODELLBAUER
Vorherige Seite: ZWEI PERFORMANZMASSE
  Inhalt
Juergen Schmidhuber
2003-02-20
Related links in English: Recurrent networks - Fast weights - Subgoal learning - Reinforcement learning and POMDPs - Unsupervised learning and ICA - Metalearning and learning to learn
Deutsche Heimseite