Knowledge Base Search

Systemübersicht

Dieses System verarbeitet Markdown-Dokumente und wandelt sie in durchsuchbare Abschnitte um, während die Dokumentstruktur für die semantische Suche erhalten bleibt.

Verarbeitungspipeline

Dokumentenanalyse

Das System verwendet einen Markdown-bewussten Splitter, um Dokumente zu parsen und die Struktur zu erhalten.

Inhaltsaufteilung

  • Abschnitte: Regex erkennt Markdown-Überschriften (#, ##, ###) zur Identifizierung von Inhaltsgrenzen

  • Blöcke: Jeder Abschnitt wird zu einem Textblock unter Beibehaltung der Formatierung

  • Chunks: Blöcke werden in kleinere durchsuchbare Einheiten aufgeteilt (ein Block = mehrere Chunks)

Inhaltsklassifizierung

Blöcke werden automatisch kategorisiert als:

  • Text: Absätze, Listen, formatierte Inhalte

  • Tabelle: Markdown-Tabellen (Pipe | Syntax)

  • Überschrift: Alle Überschriftenebenen für die Navigation

Suchmaschine

Abfrageverarbeitung

  • Wandelt Suchanfragen in Vektoreinbettungen um

  • Erstellt mathematische Darstellungen der Suchabsicht

Ähnlichkeitsabgleich

  • Bewertungsformel: (cosineSimilarity + 1.0) / 2.0 (0-1 Bereich)

  • Beinhaltet exakte Textübereinstimmung mit Boost-Faktoren

Ergebniszusammenstellung

  • Gruppiert Ergebnisse nach Quelldokument

  • Kombiniert verwandte Blöcke mit [...] Trennzeichen für Lücken

  • Erhält ursprüngliche Formatierung und Hierarchie

  • Token-Limit: 11.000 (konfigurierbar) - priorisiert höchste Relevanz

Hauptfunktionen

  • Erhält Markdown-Struktur und -Formatierung

  • Semantische Suche über Stichwortsuche hinaus

  • Mehrstufige Inhaltsgranularität (Abschnitte → Blöcke → Chunks)

  • Automatische Inhaltstypklassifizierung

  • Intelligente Ergebniszusammenstellung mit Kontexterhaltung