Methoden zur Erstellung semantischer Vektorräume
Es existieren mehrere etablierte Methoden, um semantische Vektorräume zu erstellen. Diese Methoden lassen sich grob in statistische Verfahren und neurale Netze unterteilen und haben sich über die Jahre stark weiterentwickelt.
1. Klassische Methoden (Statistische Verfahren)
Diese Verfahren beruhen auf Wort-Ko-Okkurrenz und statistischen Analysen großer Textkorpora.
a) Term-Frequency-Inverse Document Frequency (TF-IDF)
Grundprinzip:
- Einfachste Methode zur Vektorisierung von Texten
- Wörter werden als dimensionsreduzierte Häufigkeitsvektoren dargestellt
- Berechnet, wie oft ein Wort in einem Dokument vorkommt und gewichtet es basierend auf der Gesamtanzahl der Dokumente
Formel:
\[ \text{TF-IDF}(t,d) = \text{TF}(t,d) \times \log\left(\frac{N}{|\{d : t \in d\}|}\right) \]Eigenschaften:
- ✅ Schnell und einfach zu implementieren
- ❌ Kein echtes semantisches Verständnis
- ❌ Nur statistische Gewichtung
b) Latent Semantic Analysis (LSA) / Latent Semantic Indexing (LSI)
Grundprinzip:
- Verwendet eine Singulärwertzerlegung (SVD) auf eine Wort-Dokument-Matrix
- Findet latente Zusammenhänge zwischen Wörtern durch Analyse ihrer Verteilungen
- Reduziert die Dimensionalität und extrahiert semantische Muster
Eigenschaften:
- ✅ Findet versteckte semantische Beziehungen
- ❌ Erfordert sehr große Matrizen
- ❌ Speicherintensiv und rechenaufwändig
c) Principal Component Analysis (PCA)
Grundprinzip:
- Reduziert die Dimension eines hochdimensionalen Vektorraums
- Extrahiert wichtige semantische Muster durch Hauptkomponentenanalyse
- Wird oft als Ergänzung zu anderen Methoden verwendet
2. Neuronale Methoden (Word Embeddings)
Diese Verfahren verwenden neuronale Netze, um kontextabhängige Vektoren zu lernen.
a) Word2Vec (CBOW & Skip-gram)
Grundprinzip:
- Trainiert ein neuronales Netz darauf, Wörter aus ihrem Kontext vorherzusagen
- Zwei Hauptvarianten:
Continuous Bag of Words (CBOW):
- Sagt ein Wort basierend auf seinem Kontext voraus
- Schneller zu trainieren
Skip-gram:
- Sagt den Kontext basierend auf einem gegebenen Wort voraus
- Bessere Ergebnisse bei seltenen Wörtern
Eigenschaften:
- ✅ Gute Semantik-Erfassung
- ✅ Effizient trainierbar
- ❌ Feste Wortvektoren (kein Kontext)
b) GloVe (Global Vectors for Word Representation)
Grundprinzip:
- Kombiniert Matrix-Faktorisierung mit probabilistischen Methoden
- Baut eine große Wort-Ko-Okkurrenz-Matrix und wendet Faktorisierung an
- Berücksichtigt globale Korpus-Statistiken
Eigenschaften:
- ✅ Erfasst globale statistische Muster besser als Word2Vec
- ✅ Stabile und reproduzierbare Ergebnisse
- ❌ Rechenintensiv bei großen Korpora
c) FastText (Erweiterung von Word2Vec)
Grundprinzip:
- Betrachtet nicht nur ganze Wörter, sondern auch Subwort-Einheiten (N-Gramme)
- Kann Vektoren für unbekannte Wörter generieren
- Besonders nützlich für morphologisch reiche Sprachen
Eigenschaften:
- ✅ Kann mit unbekannten oder seltenen Wörtern umgehen
- ✅ Erfasst morphologische Ähnlichkeiten
- ❌ Erfordert größere Modelle
3. Kontextuelle Methoden (Transformer & Deep Learning)
Moderne Methoden nutzen tiefere neuronale Netze für kontextabhängige Vektoren.
a) BERT (Bidirectional Encoder Representations from Transformers)
Grundprinzip:
- Bidirektionale Verarbeitung von Texten
- Ein Wort wird durch seinen gesamten Satzkontext definiert
- Verwendet Transformer-Architektur mit Attention-Mechanismus
Eigenschaften:
- ✅ Kontextabhängige Bedeutung
- ✅ Bidirektionale Kontexterfassung
- ❌ Hohe Rechenanforderungen
b) GPT-Modelle (Generative Pre-trained Transformers)
Grundprinzip:
- Verwendet ein autoregessives Modell
- Sagt zukünftige Wörter auf Basis vorheriger Wörter voraus
- Erzeugt starke semantische Vektoren für generative Aufgaben
Eigenschaften:
- ✅ Exzellente Generierungsfähigkeiten
- ✅ Skaliert gut mit Modellgröße
- ❌ Hohe Kosten für Training
c) CLIP (Multimodale Einbettung)
Grundprinzip:
- Erstellt Vektorräume für Sprache und Bilder gleichzeitig
- Trainiert auf Millionen von Bild-Text-Paaren
- Ermöglicht Cross-Modal-Retrieval
Eigenschaften:
- ✅ Multimodale Verständnis
- ✅ Zero-Shot-Klassifikation
- ❌ Begrenzt auf vortrainierte Modalitäten
4. Vektor-Datenbanken & Retrieval
Nach der Erstellung können semantische Vektorräume in spezialisierten Datenbanken gespeichert werden:
- FAISS: Hochperformante Vektor-Suche von Meta
- Annoy: Näherungssuche für große Datensätze
- Pinecone: Cloud-basierte Vektor-Datenbank
- Milvus: Open-Source Vektor-Datenbank
- Weaviate: GraphQL-basierte Vektor-Datenbank
Vergleichstabelle der Methoden
Methode | Vorteil | Nachteil | Anwendungsbereich |
---|---|---|---|
TF-IDF | Schnell, einfach | Kein echtes semantisches Verständnis | Dokumentenklassifikation |
LSA | Findet latente Beziehungen | Hoher Speicherbedarf | Information Retrieval |
Word2Vec | Gute Semantik-Erfassung | Feste Wortvektoren | Word Similarity |
GloVe | Globales Sprachverständnis | Rechenintensiv | NLP-Grundlagen |
FastText | Subwort-Verständnis | Größere Modelle | Morphologie-reiche Sprachen |
BERT | Kontextabhängige Bedeutung | Hohe Rechenanforderungen | Text Understanding |
GPT | Exzellente Generierung | Hohe Trainingskosten | Text Generation |
Fazit
Die Wahl der Methode hängt von den spezifischen Anforderungen ab:
- Für schnelle Prototypen: TF-IDF oder vortrainierte Word2Vec
- Für Produktionsanwendungen: BERT oder GPT-basierte Modelle
- Für multimodale Anwendungen: CLIP oder ähnliche Modelle
- Für ressourcenbeschränkte Umgebungen: FastText oder kleinere BERT-Varianten
Moderne KI-Anwendungen setzen meist auf Transformer-basierte Modelle, da diese die beste Balance zwischen Leistung und Flexibilität bieten.