3. Was ist Klassifizierung?
Als Klassifizierung bezeichnet man den Vorgang, Objekte anhand ihrer Eigenschaften einer Klasse innerhalb einer Anzahl diskreter Klassen zuzuweisen. Hierbei werden Regeln genutzt, die es erlauben, Merkmale für eine Unterscheidung verschiedener Klassen festzulegen. Üblicherweise sind dies physikalische Unterscheidungsmerkmale. So kann beispielsweise die Farbe genutzt werden, um Orangen, Zitronen und Äpfel auf einem Laufband voneinander zu unterscheiden; oder es können die Daten spektraler Banden verwendet werden, um aus Satellitenbildern eine Landbedeckungskarte zu erstellen.
Eine Klassifizierung erfordert die Festlegung von Klassen. Dies geschieht, indem entweder bestimmte Wertebereiche für jede Klasse definiert oder solche Bereiche in einem Datensatz automatisch festgelegt werden. Weiterhin erfordert eine Klassifizierung die Festlegung von Regeln, die dem Klassifizierungsverfahren eine Entscheidung erlauben, Daten einer bestimmten Klasse zuzuordnen. Und letztendlich beinhaltet sie die eigentliche Durchführung der Klassifizierung.
Zur Angabe von Klassen werden zwei Methoden genutzt. Man kann bestimmte Wertebereiche für jede Klasse festlegen und dann mit Trainingsdaten Klassenstatistiken erzeugen. Dies wird überwachte Klassifizierung genannt. Zweitens kann man ein Cluster-Verfahren verwenden, um Datenhäufungen (Cluster) in den Daten zu erkennen, und dann für die einzelnen Cluster Statistiken erstellen. Dies ist die unüberwachte Klassifizierung.
Man kann dies auf viele verschiedene Arten tun; wir werden uns hier mit parametrischen Methoden beschäftigen. Sie setzen voraus, dass die Daten einer Klasse einem Standardmodell folgen: üblicherweise der Normalverteilung.