Methoden zur Erstellung semantischer Vektorräume

Methoden zur Erstellung semantischer Vektorräume

Es existieren mehrere etablierte Methoden, um semantische Vektorräume zu erstellen. Diese Methoden lassen sich grob in statistische Verfahren und neurale Netze unterteilen und haben sich über die Jahre stark weiterentwickelt.

1. Klassische Methoden (Statistische Verfahren)

Diese Verfahren beruhen auf Wort-Ko-Okkurrenz und statistischen Analysen großer Textkorpora.

a) Term-Frequency-Inverse Document Frequency (TF-IDF)

Grundprinzip:

  • Einfachste Methode zur Vektorisierung von Texten
  • Wörter werden als dimensionsreduzierte Häufigkeitsvektoren dargestellt
  • Berechnet, wie oft ein Wort in einem Dokument vorkommt und gewichtet es basierend auf der Gesamtanzahl der Dokumente

Formel:

\[ \text{TF-IDF}(t,d) = \text{TF}(t,d) \times \log\left(\frac{N}{|\{d : t \in d\}|}\right) \]

Eigenschaften:

  • ✅ Schnell und einfach zu implementieren
  • ❌ Kein echtes semantisches Verständnis
  • ❌ Nur statistische Gewichtung

b) Latent Semantic Analysis (LSA) / Latent Semantic Indexing (LSI)

Grundprinzip:

  • Verwendet eine Singulärwertzerlegung (SVD) auf eine Wort-Dokument-Matrix
  • Findet latente Zusammenhänge zwischen Wörtern durch Analyse ihrer Verteilungen
  • Reduziert die Dimensionalität und extrahiert semantische Muster

Eigenschaften:

  • ✅ Findet versteckte semantische Beziehungen
  • ❌ Erfordert sehr große Matrizen
  • ❌ Speicherintensiv und rechenaufwändig

c) Principal Component Analysis (PCA)

Grundprinzip:

  • Reduziert die Dimension eines hochdimensionalen Vektorraums
  • Extrahiert wichtige semantische Muster durch Hauptkomponentenanalyse
  • Wird oft als Ergänzung zu anderen Methoden verwendet

2. Neuronale Methoden (Word Embeddings)

Diese Verfahren verwenden neuronale Netze, um kontextabhängige Vektoren zu lernen.

a) Word2Vec (CBOW & Skip-gram)

Grundprinzip:

  • Trainiert ein neuronales Netz darauf, Wörter aus ihrem Kontext vorherzusagen
  • Zwei Hauptvarianten:

Continuous Bag of Words (CBOW):

  • Sagt ein Wort basierend auf seinem Kontext voraus
  • Schneller zu trainieren

Skip-gram:

  • Sagt den Kontext basierend auf einem gegebenen Wort voraus
  • Bessere Ergebnisse bei seltenen Wörtern

Eigenschaften:

  • ✅ Gute Semantik-Erfassung
  • ✅ Effizient trainierbar
  • ❌ Feste Wortvektoren (kein Kontext)

b) GloVe (Global Vectors for Word Representation)

Grundprinzip:

  • Kombiniert Matrix-Faktorisierung mit probabilistischen Methoden
  • Baut eine große Wort-Ko-Okkurrenz-Matrix und wendet Faktorisierung an
  • Berücksichtigt globale Korpus-Statistiken

Eigenschaften:

  • ✅ Erfasst globale statistische Muster besser als Word2Vec
  • ✅ Stabile und reproduzierbare Ergebnisse
  • ❌ Rechenintensiv bei großen Korpora

c) FastText (Erweiterung von Word2Vec)

Grundprinzip:

  • Betrachtet nicht nur ganze Wörter, sondern auch Subwort-Einheiten (N-Gramme)
  • Kann Vektoren für unbekannte Wörter generieren
  • Besonders nützlich für morphologisch reiche Sprachen

Eigenschaften:

  • ✅ Kann mit unbekannten oder seltenen Wörtern umgehen
  • ✅ Erfasst morphologische Ähnlichkeiten
  • ❌ Erfordert größere Modelle

3. Kontextuelle Methoden (Transformer & Deep Learning)

Moderne Methoden nutzen tiefere neuronale Netze für kontextabhängige Vektoren.

a) BERT (Bidirectional Encoder Representations from Transformers)

Grundprinzip:

  • Bidirektionale Verarbeitung von Texten
  • Ein Wort wird durch seinen gesamten Satzkontext definiert
  • Verwendet Transformer-Architektur mit Attention-Mechanismus

Eigenschaften:

  • ✅ Kontextabhängige Bedeutung
  • ✅ Bidirektionale Kontexterfassung
  • ❌ Hohe Rechenanforderungen

b) GPT-Modelle (Generative Pre-trained Transformers)

Grundprinzip:

  • Verwendet ein autoregessives Modell
  • Sagt zukünftige Wörter auf Basis vorheriger Wörter voraus
  • Erzeugt starke semantische Vektoren für generative Aufgaben

Eigenschaften:

  • ✅ Exzellente Generierungsfähigkeiten
  • ✅ Skaliert gut mit Modellgröße
  • ❌ Hohe Kosten für Training

c) CLIP (Multimodale Einbettung)

Grundprinzip:

  • Erstellt Vektorräume für Sprache und Bilder gleichzeitig
  • Trainiert auf Millionen von Bild-Text-Paaren
  • Ermöglicht Cross-Modal-Retrieval

Eigenschaften:

  • ✅ Multimodale Verständnis
  • ✅ Zero-Shot-Klassifikation
  • ❌ Begrenzt auf vortrainierte Modalitäten

4. Vektor-Datenbanken & Retrieval

Nach der Erstellung können semantische Vektorräume in spezialisierten Datenbanken gespeichert werden:

  • FAISS: Hochperformante Vektor-Suche von Meta
  • Annoy: Näherungssuche für große Datensätze
  • Pinecone: Cloud-basierte Vektor-Datenbank
  • Milvus: Open-Source Vektor-Datenbank
  • Weaviate: GraphQL-basierte Vektor-Datenbank

Vergleichstabelle der Methoden

Methode Vorteil Nachteil Anwendungsbereich
TF-IDF Schnell, einfach Kein echtes semantisches Verständnis Dokumentenklassifikation
LSA Findet latente Beziehungen Hoher Speicherbedarf Information Retrieval
Word2Vec Gute Semantik-Erfassung Feste Wortvektoren Word Similarity
GloVe Globales Sprachverständnis Rechenintensiv NLP-Grundlagen
FastText Subwort-Verständnis Größere Modelle Morphologie-reiche Sprachen
BERT Kontextabhängige Bedeutung Hohe Rechenanforderungen Text Understanding
GPT Exzellente Generierung Hohe Trainingskosten Text Generation

Fazit

Die Wahl der Methode hängt von den spezifischen Anforderungen ab:

  • Für schnelle Prototypen: TF-IDF oder vortrainierte Word2Vec
  • Für Produktionsanwendungen: BERT oder GPT-basierte Modelle
  • Für multimodale Anwendungen: CLIP oder ähnliche Modelle
  • Für ressourcenbeschränkte Umgebungen: FastText oder kleinere BERT-Varianten

Moderne KI-Anwendungen setzen meist auf Transformer-basierte Modelle, da diese die beste Balance zwischen Leistung und Flexibilität bieten.