Gradientenabstieg

Definition 3.1 (Gradienten-Verfahren)
ist eine partiell differenzierbare Funktion mit jeweils
stetigen partiellen Ableitungen und dem sogenannten Gradienten


Besitztein Minimum so findet man es mit




dem Gradienten-Algorithmus bzw. Gradienten-Verfahren.


3.2 Anwendung

Das Backpropagation-Verfahren beruht auf einem
Gradientenabstiegsverfahren.
Das Gradientenabstiegsverfahren berechnet, z.B. in unserem Fall,
den Gradienten der Fehlerfunktion (Formel 3.1).
Die Fehlerfunktion ist, bis auf die Stelle, auf der man sich
momentan befindet, unbekannt. Der Gradient folgt der Kurve der
Fehlerfunktion in absteigender Richtung. Man hofft so, das
globale Minimum zu finden. Die Lernrate gibt dabei die Gewichtung
der Schrittweite an. Die Zeichnung (Abb. 3.1) zeigt ein Problem
des Gradientenabstiegs. Es ist sehr wahrscheinlich, dass bei
komplexeren Fehlerverläufen das Gradientenverfahren, in einem
lokalen Minimum, stecken bleibt. Hinzu kommt, dass der Gradient,
bei einem ansteigenden Fehler, wieder zurückspringen kann und anfängt
zu oszillieren (Abb. 3.2). Es gibt Lernalgorithmen, die während
des Lernens die Lernrateverändern. Die richtige Wahl von ist
eine Kunst und wird hier nicht näher betrachtet.


Die Fehlerfunktion für t Trainingsdaten (3.1)

(3.1)


Die dazu gehörige partielle Ableitung :
Ableitung nach den Gewichten der verborgenen Schicht,

(3.2)

Ableitung nach den Schwellwerten,

(3.3)

Ableitung nach den Gwichten der ersten Schicht ,

(3.4)



Gradientenabstieg der Fehlerfunktion
Abb 3.1:Gradientenabstieg der Fehlerfunktion


Gradientenabstieg mit oszillierendem Lernverlauf
Abb 3.2: Gradientenabstieg mit oszillierendem Lernverlauf