Was passiert im bzw. nahe des Zellkerns?
(man denke hierbei auch an den ZK des Künstl. Neur.)
- Integration /Summation (räumlich + zeitlich) der eingehenden dendritischen Potentiale
- Threshold als bei ca. -30mv?
- sobald Potentiale über Schwellwert, feuert das N. ein Aktionspotential oder Spike (das Neuron geht in den "on" Zustand über)
- AP wird auf chemischem (Kalium, Natrium) und/oder elektrischem Wege weitergeleitet
- Ruhezustand -70mV
 Welche Ionen sind hauptsächlich beteiligt? Wie funkt. Erregungsübertragung? Was passiert an den Synapsen?
- Kalium (-) hemmend
- Natrium (+), erregend
- Chlorid
Potential an der (druchlässigen) Zelllmembran. Innen Kalium, aussen Natrium. Pumpe hält Konzentration aufrecht. Sobald Schwellwert überschritten, plötzliches Öffnen der Natrium Pforten)
- Weiterleitung (s.o.) Myelin ...
- Snaptischer Spalt, Vesikel (Acetylcholin etc... = Neurotransmitter) schwimmen 'rüber zum Neuron i+1, danach Acetycholinesterase, um "Übertragung" zu beenden
- exzitatorisch / inhibitorisch
 Woraus bestehen die Dendriten?
- Rezeptoren f. bestimmte Neurotransmitter
- (KNN: denritisches Potential)
- Zellfasern, die elektro-chemische Reize weiterleiten
- (Dendritenbaum)
 Wie kann man Neuronen modellieren?
- Hodgkin-Huxley
- Kontinuierliches Grundmodell
- (McCulloch Pitts)
- Perzeptron
 Wie funkt. das kontinuierliche Grundmodell?
Tau * x^_j(t) = -x_j(t) + u_j(t) + Summe (c_ij * y_i(t - delta_ij)
Schwellwert und Aktionspotential werden durch eine Transfer bzw. Aktivierungsfunktion nachgebildet (Simulation des spiken):
y_j(t) = f(x_j(t))
 Was hat es mit Tau auf sich?
- Zeitkonstante
- Erklärung über die Ableitung von x(t) mit Taylor (graphisch!)
=> Je kleiner Tau, desto größer die Steigung, desto schneller feuert die Zelle (!?)
 Wird dieses Modell verwendet?
- In der Regel nicht (oder: nein!), kann nur analytisch gelöst werden, wenn u konst. und delta_ij = 0.
- Stattdessen diskretes GM
x^(t) = x(t+1) - x(t) / delta_t
diese Näherung einsetzen
x_j(t+delta_t) = (1-rho) * x_j(t) + rho * e_j(t)
 Was sind weitere Vereinfachungen?
-> rho = 1, Erregung nur v.d. Eingabe abhängig
 Wozu werden unüberwachte LV verwendet?
- Dimension reduzieren durch Clusterung
- Prototypen finden, der am besten passt (Gewinner)
-> Hauptachsen Transformation (Oja, Sanger)
 Was bedeuten die Hauptachsen?
- Schwerpunkt bilden, Orientierung der größten Ausdehnung bzw. Standardabweichung ist die eine Hauptachse (1.), die andere ist orthogonal zur ersten.
 Kohonenkarten, erklären Sie mal.
 Überwachte LV, wozu?
Approximation, Klassifikation(, Zeitreihen)
 Welche Transferfunktionen gibt es?
Heaviside, linear begrenzte, sigmoide, RBF
 Wozu werden diese verwendet?
- Nachbildung von Spikes
- Aktivierung des Ausgangs
-> rbf -> RBF-Netze
-> sigmoid -> MLP-Netze
-> Sprungfkt. f. enf. Klassif. z.B. Perzeptron
 Unterschied von RBF und MLP im Aufbau
- lokale Auswertung der Zwischenschicht-Neuronen möglich (MLP verteilt)
-> RBF -> rbf Neuronen (ZS) und lin. Neuronen (Ausgang)
-> MLP -> sigmoide Neuronen (ZS + Ausgang)
--> RBF typischerweise 1-Zwischenschicht (s.Haykin)
--> RBF (ZS: euklid.Norm) - MLP: Vektorprodukt
 Wie ist MLP-Netz aufgebaut?
2-Schicht-Netz:
- Eingangsschicht (nur Weiterleitung)
- Gewichte w_ki
- Zwischenschicht (Integration + sigmoid)
- Gewichte w_ij
- Ausgangssschicht (Integration + sigmoid)
 Wann RBF, wann MLP nutzen?
- RBF: parallele Verarbeitung (aufgr. lokaler Approx.)
 Kann man bei MLP auch andere Transferfkt. verwenden?
- Ja, lineare Neuronen -> in der Ausgabeschicht
 Wann benutzt man lineare, wann sigmoide?
- kompaktes Intervall - njet
- Backpropagation? - njet
-> sigmoide = Ausgangswerte zw. 0 und 1
-> linear = ganz R
 Wie lernt ein MLP-Netz?
- Backpropagation, d.h. Gradientenabstieg (hier kann man den Grad.abstieg erklären m. Skizze)
 Regeln für die Anpassung in den einzelnen Schichten
2-Schichten, Lernregel:
Delta c_ij = -nu * grad(E) * delta
grad(E) ist hier gE / gc_ij
Delta c_ki = -nu * grad(E) * delta (an Zwischenschicht m. Kettenregel)
grad(E) ist hier gE / gc_ki = gE / gy * gy / gc_ki
 Angenommen wir haben eine Fkt. wie kann man diese mit MLP-Netz approximieren?
-> Stützpunkte wählen
- Eingabe der x-Werte als Eingang, y-Werte als Lehrersignal T
- Zielfunktion E = (T-y)^2 soll minimal werden
- Fehler bzw. delta berechnen
- rückleiten und Gewichte mit Lernregel und delta anpassen
 Wie kann man den Approximationsfehler verkleinern?
-> Neuronenanzahl in verdeckter Schicht erhöhen
-> mehr Stützpunkte x wählen
-> x möglichst gleichverteilt wählen
-> mehrfach mit Trainingssatz trainieren lassen
 Was sind Vor- und Nachteile von Elman gegenüber Jordan
 Erläutern Sie den BPTT
 PCA: Warum nur reelle Eigenwerte in der Kovarianzmatrix?
 Oja, Sanger Lernregel
 Assoziativspeicher:
 Wie kann man Fehler bestimmen?
 Autoassoziativ / Bidrektional
 Perzeptron, was ist das?
- Modell eines Neurons, Formel
 Perzeptron, was kann es?
- linear separierbare Mengen unterscheiden (geometrisch betrachtet mit einer Geraden)
 klar, da Geradengleichung, was kann P. noch?
-> Approximieren diese Trennungsgerade anlernen
 Wie klassifiziert man nichtlinear separierbare Funktion?
-> MLP, Lernen über Gradientenabstieg
 Wie werden Gewichte beim Perzeptron initialisiert?
- zufällig (nicht = 0, man kann sich hier immer die geometrische Interpretation des Perzeptrons vorsteller, bei der die Gewichte w senkrecht auf der Trenngeraden stehen. Die Gerade liegt anfangs zufällig.)
(dagegen bei RBF Initialisierung wichtig, ebenso z.B. Kohonen)
 wie gute kann MLP approximieren?
- beliebig gut (von einem kompakten Intervall in ein kompaktes Intervall)
 Unüberwachtes Lernen. Was gibt es?
- Clustering, Dimensionsreduktion, Prototypen durch Gewinnerermittlung