Die beiden Eingabetransformatoren
und
besaßen jeweils
8 Eingabeknoten, 12 versteckte Knoten sowie einen
einzigen
Ausgabeknoten
(da ja die zu extrahierende Eigenschaft (der `shift')
ein binäres Merkmal ist).
Demgemäß reichte auch ein einziger Prediktor
pro Transformer aus,
um den Ausgabeknoten (aus einem Knoten mit konstanter
Aktivation) vorherzusagen.
Experiment 16:
`on-line',
Vorhersagbarkeitsmaximierung gemäß (5.15),
separate Gewichtssätze für beide Transformatoren,
keine versteckten Knoten in den Prediktoren,
Lernraten der Prediktoren gleich 1.0,
Lernraten der Transformatoren gleich 0.5,
10 Testläufe
wurden durchgeführt.
In allen Fällen genügten wie bei (Becker und Hinton)
100000 Musterpräsentationen
zur Extraktion des
`shifts'.
Dem entspricht 1 bit wechselseitiger Information
zwischen den Ausgaben der Transformatoren.
Im Gegensatz zu Beckers und Hintons Methode waren dabei weder sukzessive `bootstrap'-Trainingszyklen noch Lernratenanpassung oder irgendwelche sonstigen heuristischen Kniffe notwendig.
Experiment 2: Wie Experiment 1, allerdings teilten sich nun beide Transformatoren denselben Gewichtssatz. Dies führte zu einer signifikanten Reduktion der Anzahl der freien Parameter (siehe auch Abschnitt 5.5), was in deutlicher Beschleunigung des Lernvorgangs resultierte. Bei 10 Testläufen genügten zwischen 20000 und 50000 Musterpräsentationen zur Extraktion des `shifts'.