Weinursprungsvorhersage mit K-Means und Mean-Feature-Ranking

Einleitung: Mustererkennung und Computer Vision im Weinbau

Die Mustererkennung ist ein zentrales Gebiet der künstlichen Intelligenz, das in vielen Bereichen Anwendung findet – von der Gesichtserkennung in Smartphones bis zur Qualitätskontrolle in der Lebensmittelindustrie. Im Rahmen des Moduls DTS201TC Pattern Recognition and Computer Vision beschäftigst du dich mit einem klassischen Datensatz: dem Wine-Datensatz. Dieser enthält die Ergebnisse chemischer Analysen von Weinen aus drei verschiedenen Anbauregionen Italiens. Ziel ist es, mit Hilfe von K-Means-Clustering (einem unüberwachten Lernverfahren) und der Mean-Feature-Ranking-Methode die Herkunft der Weine vorherzusagen. Dieser Leitfaden hilft dir, die theoretischen Grundlagen zu verstehen und die praktische Umsetzung in Python zu meistern.

Projektübersicht und Lernziele

In diesem Coursework erstellst du einen technischen Bericht, der folgende Punkte abdeckt:

Einführung in das Projekt mit Hintergrund und Zielsetzung
Systemdesign mit Flussdiagramm und Beschreibung der Mean-Feature-Ranking-Methode
Experimentelle Ergebnisse inklusive Python-Code und Tabellen
Analyse der Ergebnisse und Diskussion von Vor- und Nachteilen
Schlussfolgerung und Ausblick auf bessere Feature-Ranking-Methoden

Der Wine-Datensatz umfasst 178 Proben mit 13 Merkmalen (z.B. Alkoholgehalt, Säurewerte, Phenol- und Flavonoidkonzentrationen). Die Aufgabe besteht darin, diese Merkmale mittels K-Means (K=3) und 3-facher Kreuzvalidierung zu bewerten und die Merkmale nach ihrer Wichtigkeit zu ordnen.

Systemdesign mit Mean-Feature-Ranking

Flussdiagramm des Klassifikationssystems

Das folgende Flussdiagramm zeigt die Hauptschritte des Systems:

Daten laden: Wine-Datensatz aus sklearn.datasets importieren
Daten vorbereiten: Merkmale und Labels trennen; ggf. normalisieren
Kreuzvalidierung (3-fold): Datensatz in 3 Folds aufteilen; für jeden Fold:

K-Means (K=3) auf Trainingsdaten anwenden
Clusterlabels mit wahren Labels abgleichen (z.B. mittels Hungarian-Algorithmus)
Genauigkeit berechnen

Mean-Feature-Ranking: Für jedes Merkmal einzeln:

Nur dieses Merkmal verwenden
K-Means mit 3-facher Kreuzvalidierung durchführen
Durchschnittliche Genauigkeit notieren

Rangliste erstellen: Merkmale nach Genauigkeitsdifferenz zur Gesamtgenauigkeit sortieren

Beschreibung der Mean-Feature-Ranking-Methode

Die Mean-Feature-Ranking-Methode bewertet die Relevanz jedes Merkmals, indem es einzeln zur Klassifikation verwendet wird. Zuerst wird die Baseline-Genauigkeit mit allen 13 Merkmalen ermittelt. Dann wird für jedes Merkmal die Genauigkeit berechnet, wenn nur dieses Merkmal als Eingabe dient. Die Differenz zwischen der Baseline-Genauigkeit und der Einzelmerkmal-Genauigkeit gibt an, wie wichtig das Merkmal ist: Je größer der Abfall, desto wichtiger das Merkmal. Die Merkmale werden dann absteigend nach dieser Differenz sortiert.

Experimentelle Ergebnisse mit Python

Visualisierung der ersten beiden Merkmale

Zunächst plotten wir die ersten beiden Dimensionen (z.B. Alkoholgehalt vs. Malzsäure) mit unterschiedlichen Farben für die drei Klassen. Dies gibt einen ersten Eindruck von der Trennbarkeit der Daten.

import matplotlib.pyplot as plt
from sklearn.datasets import load_wine

data = load_wine()
X = data.data
y = data.target

plt.figure(figsize=(8,6))
for i in range(3):
    plt.scatter(X[y==i,0], X[y==i,1], label=f'Klasse {i}')
plt.xlabel('Merkmal 1: Alkohol')
plt.ylabel('Merkmal 2: Malzsäure')
plt.legend()
plt.title('Erste zwei Merkmale des Wine-Datensatzes')
plt.show()

Ergebnisse des Mean-Feature-Rankings

Wir setzen K=3 für K-Means und führen eine 3-fache Kreuzvalidierung durch. Die folgende Tabelle zeigt exemplarische Ergebnisse (die tatsächlichen Werte variieren je nach Zufallsinitialisierung):

Merkmal	Genauigkeit mit allen 13 Merkmalen	Genauigkeit mit nur diesem Merkmal	Differenz	Rang
Alkohol	80%	60%	20%	2
Malzsäure	80%	70%	10%	5
... (weitere Merkmale)	...	...	...	...

Hinweis: Die Genauigkeitswerte sind beispielhaft; in deinem Bericht müssen reale Werte aus dem Code stehen.

Analyse der Ergebnisse

Die Mean-Feature-Ranking-Methode zeigt, welche chemischen Eigenschaften am meisten zur Unterscheidung der Weinregionen beitragen. K-Means-Clustering ist ein nichtparametrisches Modell, da es keine Annahmen über die Verteilung der Daten macht. Vorteile sind die Einfachheit und Skalierbarkeit, Nachteile die Abhängigkeit von der Initialisierung und die Annahme kugelförmiger Cluster. Im Experiment kann die Methode gut funktionieren, wenn die Cluster tatsächlich gut trennbar sind. Allerdings kann die Leistung leiden, wenn die Merkmale stark korreliert sind oder die Cluster unterschiedliche Größen haben.

Schlussfolgerung

Die Mean-Feature-Ranking-Methode ist ein einfaches, aber effektives Verfahren zur Merkmalsauswahl. Vorteile sind die leichte Interpretierbarkeit und die geringe Rechenzeit. Nachteile sind, dass sie nur lineare Abhängigkeiten erfasst und Wechselwirkungen zwischen Merkmalen ignoriert. Bessere Alternativen sind Recursive Feature Elimination (RFE) oder Random-Forest-basierte Wichtigkeiten, die auch nichtlineare Beziehungen berücksichtigen. Für das vorliegende Projekt ist die Mean-Feature-Ranking-Methode jedoch ein guter Ausgangspunkt, um ein Verständnis für die Bedeutung einzelner Merkmale zu entwickeln.

Referenzen

Dua, D. and Graff, C. (2019). UCI Machine Learning Repository [http://archive.ics.uci.edu/ml]. Irvine, CA: University of California, School of Information and Computer Science.
MacQueen, J. (1967). Some methods for classification and analysis of multivariate observations. Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability, 1:281-297.
Guyon, I. and Elisseeff, A. (2003). An introduction to variable and feature selection. Journal of Machine Learning Research, 3:1157-1182.
Kuhn, M. and Johnson, K. (2013). Applied Predictive Modeling. Springer.
Hastie, T., Tibshirani, R., and Friedman, J. (2009). The Elements of Statistical Learning. Springer.