Knowledge Base Search
Systemübersicht
Dieses System verarbeitet Markdown-Dokumente und wandelt sie in durchsuchbare Abschnitte um, während die Dokumentstruktur für die semantische Suche erhalten bleibt.
Verarbeitungspipeline
Dokumentenanalyse
Das System verwendet einen Markdown-bewussten Splitter, um Dokumente zu parsen und die Struktur zu erhalten.
Inhaltsaufteilung
Abschnitte: Regex erkennt Markdown-Überschriften (#, ##, ###) zur Identifizierung von Inhaltsgrenzen
Blöcke: Jeder Abschnitt wird zu einem Textblock unter Beibehaltung der Formatierung
Chunks: Blöcke werden in kleinere durchsuchbare Einheiten aufgeteilt (ein Block = mehrere Chunks)
Inhaltsklassifizierung
Blöcke werden automatisch kategorisiert als:
Text: Absätze, Listen, formatierte Inhalte
Tabelle: Markdown-Tabellen (Pipe
|
Syntax)Überschrift: Alle Überschriftenebenen für die Navigation
Suchmaschine
Abfrageverarbeitung
Wandelt Suchanfragen in Vektoreinbettungen um
Erstellt mathematische Darstellungen der Suchabsicht
Ähnlichkeitsabgleich
Bewertungsformel:
(cosineSimilarity + 1.0) / 2.0
(0-1 Bereich)Beinhaltet exakte Textübereinstimmung mit Boost-Faktoren
Ergebniszusammenstellung
Gruppiert Ergebnisse nach Quelldokument
Kombiniert verwandte Blöcke mit
[...]
Trennzeichen für LückenErhält ursprüngliche Formatierung und Hierarchie
Token-Limit: 11.000 (konfigurierbar) - priorisiert höchste Relevanz
Hauptfunktionen
Erhält Markdown-Struktur und -Formatierung
Semantische Suche über Stichwortsuche hinaus
Mehrstufige Inhaltsgranularität (Abschnitte → Blöcke → Chunks)
Automatische Inhaltstypklassifizierung
Intelligente Ergebniszusammenstellung mit Kontexterhaltung