Wahrscheinlichkeitsrechnung und Maximum Likelihood: Tutorial zu CSE/ISYE 6740 Aufgaben 1

Einführung in die Wahrscheinlichkeitsrechnung und Maximum Likelihood

Dieses Tutorial behandelt zentrale Konzepte der Wahrscheinlichkeitsrechnung und der Maximum-Likelihood-Schätzung, wie sie in den Hausaufgaben 1 bis 4 des Kurses CSE/ISYE 6740 vorkommen. Die Themen sind grundlegend für maschinelles Lernen, Data Science und KI-Anwendungen – von der Bildkompression bis zur Spracherkennung. Aktuelle Trends wie generative KI (z.B. ChatGPT) oder personalisierte Empfehlungssysteme nutzen diese Methoden, um Unsicherheiten zu modellieren und Parameter aus Daten zu schätzen. Wir verbinden die Theorie mit praxisnahen Beispielen aus Sport, Medizin und Technik.

Wahrscheinlichkeitsrechnung: Bedingte Wahrscheinlichkeiten und der Satz von Bayes

Beispiel 1: Resignationen in Geschäften

Stellen Sie sich drei Geschäfte A, B und C mit 50, 75 und 100 Angestellten vor. Der Frauenanteil beträgt 50%, 60% bzw. 70%. Eine Mitarbeiterin kündigt. Wie hoch ist die Wahrscheinlichkeit, dass sie in Geschäft C gearbeitet hat? Dies ist eine klassische Anwendung des Satzes von Bayes. Zuerst berechnen wir die Gesamtzahl der Frauen: 50*0,5 + 75*0,6 + 100*0,7 = 25 + 45 + 70 = 140. Die Wahrscheinlichkeit, dass eine Frau aus C kommt, ist 70/140 = 0,5. Die Antwort ist also 50%.

Beispiel 2: Medizinischer Test

Ein Bluttest erkennt eine Krankheit mit 95% Sensitivität und hat eine False-Positive-Rate von 1%. Die Krankheitsprävalenz beträgt 0,5%. Wie hoch ist die Wahrscheinlichkeit, dass eine Person mit positivem Test tatsächlich krank ist? Mit dem Satz von Bayes: P(Krank|Positiv) = (0,95 * 0,005) / (0,95*0,005 + 0,01*0,995) ≈ 0,323. Das bedeutet, nur etwa 32% der positiv Getesteten sind wirklich krank – ein wichtiges Konzept in der Medizindiagnostik und bei KI-basierten Screening-Tools.

Beispiel 3: Baseball-Playoffs

Im Jahr 1982 hatten die Atlanta Braves, San Francisco Giants und Los Angeles Dodgers unterschiedliche Gewinn-Verlust-Bilanzen. Die Giants und Dodgers spielten drei Spiele gegeneinander, die Braves gegen die Padres. Wie hoch ist die Wahrscheinlichkeit, dass die Braves die Division gewinnen? Und wie hoch ist die Wahrscheinlichkeit für ein Entscheidungsspiel? Solche Berechnungen sind typisch für Sportanalytik und werden heute von Teams wie den Dallas Mavericks oder in Fantasy-Sport-Apps verwendet.

Maximum-Likelihood-Schätzung (MLE)

MLE ist eine Methode, um die Parameter einer Wahrscheinlichkeitsverteilung aus beobachteten Daten zu schätzen. Wir betrachten drei wichtige Verteilungen.

Poisson-Verteilung

Die Poisson-Verteilung modelliert die Anzahl seltener Ereignisse in einem festen Intervall, z.B. die Anzahl von Toren in einem Fußballspiel oder die Anzahl von Anfragen an einen Server. Der MLE für λ ist der Mittelwert der Stichprobe: λ̂ = (1/n) Σ x_i.

Multinomialverteilung

Die Multinomialverteilung erweitert die Binomialverteilung auf mehrere Kategorien. Ein Beispiel ist die Würfelwahrscheinlichkeit bei einem nicht-fairen Würfel oder die Klickwahrscheinlichkeiten in einer Online-Werbung. Der MLE für θ_j ist der Anteil der Beobachtungen in Kategorie j: θ̂_j = x_j / n.

Gaußsche Normalverteilung

Die Normalverteilung ist die wichtigste Verteilung in der Statistik. Der MLE für den Mittelwert μ ist der Stichprobenmittelwert, und für die Varianz σ² ist es die mittlere quadratische Abweichung (mit 1/n, nicht 1/(n-1)). Diese Schätzer werden in unzähligen Anwendungen verwendet, von der Qualitätskontrolle bis zum Training von neuronalen Netzen.

Principal Component Analysis (PCA) und Rekonstruktionsfehler

PCA ist ein Verfahren zur Dimensionsreduktion, das die Varianz maximiert oder den Rekonstruktionsfehler minimiert. Wir betrachten den Ansatz über die Minimierung des Rekonstruktionsfehlers. Gegeben Datenpunkte x_n in D Dimensionen, suchen wir eine orthonormale Basis u_i und Koeffizienten z_i sowie Konstanten b_i, sodass die Approximation ˜x_n = Σ_{i=1}^M z_i u_i + Σ_{i=M+1}^D b_i u_i den Fehler J = (1/N) Σ ||x_n - ˜x_n||² minimiert.

Die optimalen z_j für j=1..M sind die Projektionen der Daten auf u_j: z_j = x_n^T u_j. Die optimalen b_j für j=M+1..D sind die Mittelwerte der Projektionen: b_j = (1/N) Σ x_n^T u_j. Der Rekonstruktionsfehler wird dann zu J = Σ_{j=M+1}^D u_j^T S u_j, wobei S die Stichproben-Kovarianzmatrix ist. Die optimalen u_i sind die Eigenvektoren von S, sortiert nach absteigenden Eigenwerten. Dies ist die Grundlage für viele Anwendungen, z.B. Gesichtserkennung (Eigenfaces) oder Rauschunterdrückung in der Bildverarbeitung.

Clustering: K-Means und Hierarchisches Clustering

K-Means-Algorithmus

K-Means partitioniert Daten in K Cluster, indem die Summe der quadratischen Abstände der Punkte zu ihren Clusterzentren minimiert wird. Die Zentren werden als Mittelwerte der Punkte im Cluster aktualisiert. Der Algorithmus konvergiert in endlichen Schritten zu einem lokalen Optimum. K-Means wird häufig in der Bildsegmentierung verwendet, z.B. zur Kompression von Farbbildern, wie in der Programmieraufgabe des Kurses.

Hierarchisches Clustering

Beim hierarchischen Clustering werden Cluster schrittweise zusammengeführt (agglomerativ). Die Distanz zwischen Clustern kann auf verschiedene Weise definiert werden: Single Linkage (minimale Distanz), Complete Linkage (maximale Distanz) und Average Linkage (durchschnittliche Distanz). Single Linkage neigt dazu, lange Ketten zu bilden, während Complete Linkage kompakte Cluster erzeugt. Average Linkage ist ein Kompromiss. Bei der 'Two Moons'-Struktur (zwei halbmondförmige Punktwolken) kann nur Single Linkage die beiden Monde trennen, da Complete und Average Linkage die Monde als einen Cluster betrachten würden.

Anwendung: Bildkompression mit Clustering

In der Programmieraufgabe wird ein RGB-Bild durch K-Means-Clustering der Pixel komprimiert. Jeder Pixel (ein 3D-Vektor) wird durch den nächsten Clusterzentrum ersetzt. Dadurch wird die Anzahl der Farben auf K reduziert. Dies ist ein beliebtes Beispiel für Datenkompression und zeigt, wie Clustering in der Praxis funktioniert. Ähnliche Verfahren werden in Apps wie Photoshop oder in Videocodecs verwendet.

Fazit

Die Konzepte der Wahrscheinlichkeitsrechnung, Maximum-Likelihood-Schätzung, PCA und Clustering sind essenziell für das Verständnis moderner KI-Systeme. Ob in der Medizindiagnostik, Sportanalytik oder Bildverarbeitung – diese Methoden helfen, aus Daten zu lernen und fundierte Entscheidungen zu treffen. Mit diesem Tutorial hast du die Grundlagen für die Hausaufgaben 1–4 von CSE/ISYE 6740 gelegt und kannst dich nun an die praktischen Aufgaben wagen.