Was passiert im bzw. nahe des Zellkerns?
(man denke hierbei auch an den ZK des Künstl. Neur.)
- Integration /Summation (räumlich + zeitlich) der eingehenden dendritischen Potentiale
- Threshold als bei ca. -30mv?
- sobald Potentiale über Schwellwert, feuert das N. ein Aktionspotential oder Spike (das Neuron geht in den "on" Zustand über)
- AP wird auf chemischem (Kalium, Natrium) und/oder elektrischem Wege weitergeleitet
- Ruhezustand -70mV
Welche Ionen sind hauptsächlich beteiligt? Wie funkt. Erregungsübertragung? Was passiert an den Synapsen?
- Kalium (-) hemmend
- Natrium (+), erregend
- Chlorid
Potential an der (druchlässigen) Zelllmembran. Innen Kalium, aussen Natrium. Pumpe hält Konzentration aufrecht. Sobald Schwellwert überschritten, plötzliches Öffnen der Natrium Pforten)
- Weiterleitung (s.o.) Myelin ...
- Snaptischer Spalt, Vesikel (Acetylcholin etc... = Neurotransmitter) schwimmen 'rüber zum Neuron i+1, danach Acetycholinesterase, um "Übertragung" zu beenden
- exzitatorisch / inhibitorisch
Woraus bestehen die Dendriten?
- Rezeptoren f. bestimmte Neurotransmitter
- (KNN: denritisches Potential)
- Zellfasern, die elektro-chemische Reize weiterleiten
- (Dendritenbaum)
Wie kann man Neuronen modellieren?
- Hodgkin-Huxley
- Kontinuierliches Grundmodell
- (McCulloch Pitts)
- Perzeptron
Wie funkt. das kontinuierliche Grundmodell?
Tau * x^_j(t) = -x_j(t) + u_j(t) + Summe (c_ij * y_i(t - delta_ij)
Schwellwert und Aktionspotential werden durch eine Transfer bzw. Aktivierungsfunktion nachgebildet (Simulation des spiken):
y_j(t) = f(x_j(t))
Was hat es mit Tau auf sich?
- Zeitkonstante
- Erklärung über die Ableitung von x(t) mit Taylor (graphisch!)
=> Je kleiner Tau, desto größer die Steigung, desto schneller feuert die Zelle (!?)
Wird dieses Modell verwendet?
- In der Regel nicht (oder: nein!), kann nur analytisch gelöst werden, wenn u konst. und delta_ij = 0.
- Stattdessen diskretes GM
x^(t) = x(t+1) - x(t) / delta_t
diese Näherung einsetzen
x_j(t+delta_t) = (1-rho) * x_j(t) + rho * e_j(t)
Was sind weitere Vereinfachungen?
-> rho = 1, Erregung nur v.d. Eingabe abhängig
Wozu werden unüberwachte LV verwendet?
- Dimension reduzieren durch Clusterung
- Prototypen finden, der am besten passt (Gewinner)
-> Hauptachsen Transformation (Oja, Sanger)
Was bedeuten die Hauptachsen?
- Schwerpunkt bilden, Orientierung der größten Ausdehnung bzw. Standardabweichung ist die eine Hauptachse (1.), die andere ist orthogonal zur ersten.
Kohonenkarten, erklären Sie mal.
Überwachte LV, wozu?
Approximation, Klassifikation(, Zeitreihen)
Welche Transferfunktionen gibt es?
Heaviside, linear begrenzte, sigmoide, RBF
Wozu werden diese verwendet?
- Nachbildung von Spikes
- Aktivierung des Ausgangs
-> rbf -> RBF-Netze
-> sigmoid -> MLP-Netze
-> Sprungfkt. f. enf. Klassif. z.B. Perzeptron
Unterschied von RBF und MLP im Aufbau
- lokale Auswertung der Zwischenschicht-Neuronen möglich (MLP verteilt)
-> RBF -> rbf Neuronen (ZS) und lin. Neuronen (Ausgang)
-> MLP -> sigmoide Neuronen (ZS + Ausgang)
--> RBF typischerweise 1-Zwischenschicht (s.Haykin)
--> RBF (ZS: euklid.Norm) - MLP: Vektorprodukt
Wie ist MLP-Netz aufgebaut?
2-Schicht-Netz:
- Eingangsschicht (nur Weiterleitung)
- Gewichte w_ki
- Zwischenschicht (Integration + sigmoid)
- Gewichte w_ij
- Ausgangssschicht (Integration + sigmoid)
Wann RBF, wann MLP nutzen?
- RBF: parallele Verarbeitung (aufgr. lokaler Approx.)
Kann man bei MLP auch andere Transferfkt. verwenden?
- Ja, lineare Neuronen -> in der Ausgabeschicht
Wann benutzt man lineare, wann sigmoide?
- kompaktes Intervall - njet
- Backpropagation? - njet
-> sigmoide = Ausgangswerte zw. 0 und 1
-> linear = ganz R
Wie lernt ein MLP-Netz?
- Backpropagation, d.h. Gradientenabstieg (hier kann man den Grad.abstieg erklären m. Skizze)
Regeln für die Anpassung in den einzelnen Schichten
2-Schichten, Lernregel:
Delta c_ij = -nu * grad(E) * delta
grad(E) ist hier gE / gc_ij
Delta c_ki = -nu * grad(E) * delta (an Zwischenschicht m. Kettenregel)
grad(E) ist hier gE / gc_ki = gE / gy * gy / gc_ki
Angenommen wir haben eine Fkt. wie kann man diese mit MLP-Netz approximieren?
-> Stützpunkte wählen
- Eingabe der x-Werte als Eingang, y-Werte als Lehrersignal T
- Zielfunktion E = (T-y)^2 soll minimal werden
- Fehler bzw. delta berechnen
- rückleiten und Gewichte mit Lernregel und delta anpassen
Wie kann man den Approximationsfehler verkleinern?
-> Neuronenanzahl in verdeckter Schicht erhöhen
-> mehr Stützpunkte x wählen
-> x möglichst gleichverteilt wählen
-> mehrfach mit Trainingssatz trainieren lassen
Was sind Vor- und Nachteile von Elman gegenüber Jordan
Erläutern Sie den BPTT
PCA: Warum nur reelle Eigenwerte in der Kovarianzmatrix?
Oja, Sanger Lernregel
Assoziativspeicher:
Wie kann man Fehler bestimmen?
Autoassoziativ / Bidrektional
Perzeptron, was ist das?
- Modell eines Neurons, Formel
Perzeptron, was kann es?
- linear separierbare Mengen unterscheiden (geometrisch betrachtet mit einer Geraden)
klar, da Geradengleichung, was kann P. noch?
-> Approximieren diese Trennungsgerade anlernen
Wie klassifiziert man nichtlinear separierbare Funktion?
-> MLP, Lernen über Gradientenabstieg
Wie werden Gewichte beim Perzeptron initialisiert?
- zufällig (nicht = 0, man kann sich hier immer die geometrische Interpretation des Perzeptrons vorsteller, bei der die Gewichte w senkrecht auf der Trenngeraden stehen. Die Gerade liegt anfangs zufällig.)
(dagegen bei RBF Initialisierung wichtig, ebenso z.B. Kohonen)
wie gute kann MLP approximieren?
- beliebig gut (von einem kompakten Intervall in ein kompaktes Intervall)
Unüberwachtes Lernen. Was gibt es?
- Clustering, Dimensionsreduktion, Prototypen durch Gewinnerermittlung