Methoden zur Erstellung semantischer Vektorräume

Es existieren mehrere etablierte Methoden, um semantische Vektorräume zu erstellen. Diese Methoden lassen sich grob in statistische Verfahren und neurale Netze unterteilen und haben sich über die Jahre stark weiterentwickelt.

1. Klassische Methoden (Statistische Verfahren)

Diese Verfahren beruhen auf Wort-Ko-Okkurrenz und statistischen Analysen großer Textkorpora.

a) Term-Frequency-Inverse Document Frequency (TF-IDF)

Grundprinzip:

Einfachste Methode zur Vektorisierung von Texten
Wörter werden als dimensionsreduzierte Häufigkeitsvektoren dargestellt
Berechnet, wie oft ein Wort in einem Dokument vorkommt und gewichtet es basierend auf der Gesamtanzahl der Dokumente

Formel:

\[ \text{TF-IDF}(t,d) = \text{TF}(t,d) \times \log\left(\frac{N}{|\{d : t \in d\}|}\right) \]

Eigenschaften:

✅ Schnell und einfach zu implementieren
❌ Kein echtes semantisches Verständnis
❌ Nur statistische Gewichtung

b) Latent Semantic Analysis (LSA) / Latent Semantic Indexing (LSI)

Grundprinzip:

Verwendet eine Singulärwertzerlegung (SVD) auf eine Wort-Dokument-Matrix
Findet latente Zusammenhänge zwischen Wörtern durch Analyse ihrer Verteilungen
Reduziert die Dimensionalität und extrahiert semantische Muster

Eigenschaften:

✅ Findet versteckte semantische Beziehungen
❌ Erfordert sehr große Matrizen
❌ Speicherintensiv und rechenaufwändig

c) Principal Component Analysis (PCA)

Grundprinzip:

Reduziert die Dimension eines hochdimensionalen Vektorraums
Extrahiert wichtige semantische Muster durch Hauptkomponentenanalyse
Wird oft als Ergänzung zu anderen Methoden verwendet

2. Neuronale Methoden (Word Embeddings)

Diese Verfahren verwenden neuronale Netze, um kontextabhängige Vektoren zu lernen.

a) Word2Vec (CBOW & Skip-gram)

Grundprinzip:

Trainiert ein neuronales Netz darauf, Wörter aus ihrem Kontext vorherzusagen
Zwei Hauptvarianten:

Continuous Bag of Words (CBOW):

Sagt ein Wort basierend auf seinem Kontext voraus
Schneller zu trainieren

Skip-gram:

Sagt den Kontext basierend auf einem gegebenen Wort voraus
Bessere Ergebnisse bei seltenen Wörtern

Eigenschaften:

✅ Gute Semantik-Erfassung
✅ Effizient trainierbar
❌ Feste Wortvektoren (kein Kontext)

b) GloVe (Global Vectors for Word Representation)

Grundprinzip:

Kombiniert Matrix-Faktorisierung mit probabilistischen Methoden
Baut eine große Wort-Ko-Okkurrenz-Matrix und wendet Faktorisierung an
Berücksichtigt globale Korpus-Statistiken

Eigenschaften:

✅ Erfasst globale statistische Muster besser als Word2Vec
✅ Stabile und reproduzierbare Ergebnisse
❌ Rechenintensiv bei großen Korpora

c) FastText (Erweiterung von Word2Vec)

Grundprinzip:

Betrachtet nicht nur ganze Wörter, sondern auch Subwort-Einheiten (N-Gramme)
Kann Vektoren für unbekannte Wörter generieren
Besonders nützlich für morphologisch reiche Sprachen

Eigenschaften:

✅ Kann mit unbekannten oder seltenen Wörtern umgehen
✅ Erfasst morphologische Ähnlichkeiten
❌ Erfordert größere Modelle

3. Kontextuelle Methoden (Transformer & Deep Learning)

Moderne Methoden nutzen tiefere neuronale Netze für kontextabhängige Vektoren.

a) BERT (Bidirectional Encoder Representations from Transformers)

Grundprinzip:

Bidirektionale Verarbeitung von Texten
Ein Wort wird durch seinen gesamten Satzkontext definiert
Verwendet Transformer-Architektur mit Attention-Mechanismus

Eigenschaften:

✅ Kontextabhängige Bedeutung
✅ Bidirektionale Kontexterfassung
❌ Hohe Rechenanforderungen

b) GPT-Modelle (Generative Pre-trained Transformers)

Grundprinzip:

Verwendet ein autoregessives Modell
Sagt zukünftige Wörter auf Basis vorheriger Wörter voraus
Erzeugt starke semantische Vektoren für generative Aufgaben

Eigenschaften:

✅ Exzellente Generierungsfähigkeiten
✅ Skaliert gut mit Modellgröße
❌ Hohe Kosten für Training

c) CLIP (Multimodale Einbettung)

Grundprinzip:

Erstellt Vektorräume für Sprache und Bilder gleichzeitig
Trainiert auf Millionen von Bild-Text-Paaren
Ermöglicht Cross-Modal-Retrieval

Eigenschaften:

✅ Multimodale Verständnis
✅ Zero-Shot-Klassifikation
❌ Begrenzt auf vortrainierte Modalitäten

4. Vektor-Datenbanken & Retrieval

Nach der Erstellung können semantische Vektorräume in spezialisierten Datenbanken gespeichert werden:

FAISS: Hochperformante Vektor-Suche von Meta
Annoy: Näherungssuche für große Datensätze
Pinecone: Cloud-basierte Vektor-Datenbank
Milvus: Open-Source Vektor-Datenbank
Weaviate: GraphQL-basierte Vektor-Datenbank

Vergleichstabelle der Methoden

Methode	Vorteil	Nachteil	Anwendungsbereich
TF-IDF	Schnell, einfach	Kein echtes semantisches Verständnis	Dokumentenklassifikation
LSA	Findet latente Beziehungen	Hoher Speicherbedarf	Information Retrieval
Word2Vec	Gute Semantik-Erfassung	Feste Wortvektoren	Word Similarity
GloVe	Globales Sprachverständnis	Rechenintensiv	NLP-Grundlagen
FastText	Subwort-Verständnis	Größere Modelle	Morphologie-reiche Sprachen
BERT	Kontextabhängige Bedeutung	Hohe Rechenanforderungen	Text Understanding
GPT	Exzellente Generierung	Hohe Trainingskosten	Text Generation

Fazit

Die Wahl der Methode hängt von den spezifischen Anforderungen ab:

Für schnelle Prototypen: TF-IDF oder vortrainierte Word2Vec
Für Produktionsanwendungen: BERT oder GPT-basierte Modelle
Für multimodale Anwendungen: CLIP oder ähnliche Modelle
Für ressourcenbeschränkte Umgebungen: FastText oder kleinere BERT-Varianten

Moderne KI-Anwendungen setzen meist auf Transformer-basierte Modelle, da diese die beste Balance zwischen Leistung und Flexibilität bieten.

Word2Vec GloVe FastText BERT Transformer TF-IDF LSA Word Embeddings