Alle Repräsentationsmodule und Prediktoren wurden als 3-lagige BP-Netze implementiert. Alle versteckten Knoten und alle Ausgabeknoten benutzten eine logistische Aktivierungsfunktion und wiesen zudem eine Verbindung von einem stets mit 1 aktivierten `wahren' Knoten auf. Parameter wie Lernraten und die Anzahl versteckter Knoten wurden nicht systematisch in Bezug auf Lerngeschwindigkeit optimiert - es geht hier vielmehr um die Demonstration, daß Vorhersageminimierung in der Tat praktisch anwendbar ist.
Jeff Rink (Student an der Universität Colorado) und Daniel Prelinger (Diplomand an der TUM) implementierten on-line und `off-line' Versionen des in Abschnitt 6.5 angegebenen Verfahrens (siehe Details in [104]). Der Zweck dieser Sektion besteht nicht darin, die on-line- mit der `off-line'-Version zu vergleichen, sondern zu zeigen, daß beide zu befriedigenden Resultaten führen können.
Bei der `off-line'-Version wurde der Wert 5 als `hinreichend' für die Zahl der in PHASE 1 durchzuführenden Trainingsepochen für die Prediktoren angesehen. Lernraten um 0.3 erwiesen sich sowohl für die Prediktoren als auch für die Repräsentationsmodule als zweckmäßig.
Bei der
`off-line'-Version wurden die beiden Lernphasen
wie folgt modifiziert: Pro Phase wurde nur ein einziges
Eingabemuster aus dem Ensemble präsentiert, dasselbe
Muster wurde dabei sowohl in PHASE 1 als auch in PHASE 2
angeboten.
In Abschnitten 6.6.1 und 6.6.2 wurde
eine zusätzliche Modifikation zur Vermeidung gewisser
lokaler Minima eingeführt
(siehe [104]).
Es galt
(die Prediktoren lernten also
`10 mal schneller' als die Repräsentationsmodule).
Bei allen Experimenten wurde ein Knoten als binär angesehen, wenn die absolute Differenz zwischen jeder von ihm angenommenen Aktivation und entweder der maximalen oder der minimalen von seiner Aktivierungsfunktion gestatteten Aktivation den Wert 0.05 nie überstieg.
Die nächsten Unterabschnitte beschreiben Experimente mit
beiden Versionen. Der Ausdruck `lokale Eingaberepräsentation'
soll dabei
verschiedene binäre Eingabevektoren
der Länge 1 implizieren.
Der Ausdruck `verteilte Eingaberepräsentation'
bedeutet
verschiedene binäre Eingabevektoren,
Bei vielen Experimenten stellte sich heraus, daß die
Existenz versteckter Knoten in der Tat zu besserer
Performanz führt. Der Grund ist leicht einzusehen: Man
betrachte den Fall
. Angenommen, es existiert
eine XOR-artige Beziehung zwischen den Aktivationen
der ersten beiden Repräsentationsknoten und der
Aktivation des dritten Repräsentationsknotens. Ein
linearer Prediktor wäre außerstande,
diese Beziehung aufzudecken. Demzufolge sähen
die Repräsentationsmodule keine Veranlassung, die nicht-lineare
Redundanz zu beseitigen.