Quelle
Zuletzt aktualisiert
Zuletzt aktualisiert
Eine Quelle (Source) ist eine zentrale Komponente innerhalb der Knowledge Base (KB), die spezifische Inhalte bereitstellt. Quellen sind die Bausteine, aus denen sich eine Knowledge Base zusammensetzt, und können unterschiedliche Typen und Eigenschaften haben.
Beim erstellen einer Quelle muss sowohl ein Typ ausgewählt werden als auch ein Name festgelegt werden.
Jede Quelle hat einen Typ, der die Art der eingebundenen Daten definiert. Zu den unterstützten Typen gehören unter anderem:
Text: Manuell eingetragene Texte oder Dokumente.
URL: Inhalte, die über eine Webseite eingebunden werden.
URLPDF: PDFs, die über eine URL eingebunden werden.
In Abhängigkeit des ausgewählten Typs können zusätzliche Optionen konfiguriert werden.
Für Quellen des Typs TEXT muss im Text-Feld der Inhalt für die Quelle hinterlegt werden. Als Format sollte Markdown verwendet werden. Weitere Information zur Syntax finden Sie hier: https://www.markdownguide.org/basic-syntax/
Optional kann auch eine URL konfugiriert werden. Bei Typ TEXT wird diese allerdings nicht gecrawlt, sondern dient lediglich als Quellenangabe.
Für Quellen des Typs URL muss statt dem Text-Feld eine URL konfiguriert werden. Diese wird nach erstellen der Source gecrawlt. Das Text-Feld wird nach dem Crawling den Inhalt der URL enthalten.
Zusätzliche Konfigurationsmöglichkeiten:
CSS-Selektoren:
Mit CSS-Selektoren können spezifische Bereiche einer Webseite ausgewählt werden, die in die Knowledge Base aufgenommen werden sollen.
Mehrere CSS-Selektoren können durch Kommas getrennt angegeben werden.
Beispiel: #main-content,.article-text
.
Automatische Neusynchronisation:
Diese Option ermöglicht es, die Inhalte der URL-Quelle regelmäßig zu aktualisieren.
Synchronisationsfrequenzen:
Minutenweise: Aktualisierung alle X Minuten.
Stündlich: Aktualisierung alle X Stunden.
Täglich: Aktualisierung alle X Tage.
Cron-Mode: Präzise Steuerung der Synchronisation per Cron-Expression. Weitere Informationen zur Syntax finden Sie auf https://crontab.guru
Playwright-Option:
Mit der Playwright-Option kann ein echter Browser simuliert werden. Dies ist besonders nützlich, um dynamische Inhalte wie JavaScript-basierte Webseiten korrekt auszulesen.
Wird Playwright aktiviert, wird die Webseite so dargestellt, wie sie ein Nutzer im Browser sehen würde.
Dieser Typ sollte ausgewählt werden, wenn die URL ein PDF-Dokument enthält.
Für Quellen des Typs URLPDF muss (wie beim Typ URL) statt dem Text-Feld eine URL konfiguriert werden. Diese wird nach erstellen der Source gecrawlt. Das Text-Feld wird nach dem Crawling den Inhalt der URL enthalten.
Als zusätzliche Konfigurationsmöglichkeit steht ebenso die Automatische Neusynchronisation (siehe oben) zur Verfügung.
Durch Auswahl in der Quellen-Liste kann eine bestehende Quelle jederzeit angesehen werden. Die Konfiguration ist dabei in die 3 Reiter Details, Eigenschaften und Erweitert aufgeteilt.
Bei den Eigenschaften handelt es sich um beliebige Key-Value Paare, die hinterlegt werden können. Diese können bei der semantischen Suche zur Formatierung der Suchergebnisse verwendet werden. Wird die KB durch externe Prozesse oder einem Robot-Workflow gesteuert, kann es automatisiert angelegte Keys geben
Zusätzlich werden beim Typ URL die folgenden Keys automatisch durch den Crawler basierend auf den meta tags der Website gesetzt:
title: Titel der Webseite
description: Beschreibung der Webseite
Zusätzlich werden beim Typ URLPDF die folgenden Keys automatisch durch den Crawler basierend auf der PDF gesetzt:
total_pages: Anzahl an Seiten im PDF
Durch Auswahl in der Quellen-Liste kann eine bestehende Quelle jederzeit bearbeitet werden. Änderungen müssen aber durch den Button "Speichern" bestätigt werden.
Bei Quellen vom Typ URL oder URLPDF wird das Text-Feld automatisch durch den Crawler gesetzt. Der Text kann nach dem Crawling jedoch trotzdem noch bearbeitet werden.
Sollte allerdings bei einer manuellen Änderung gleichzeitig die automatische Neusynchronisation aktiviert sein, erhält der Nutzer beim Speicher der Quelle die Warnung, dass die automatische Neusynchronisation deaktiviert wird. Andernfalls würde die manuelle Änderung beim nächsten Crawling wieder überschrieben werden.
Umgekehrt wird der Nutzer ebenfalls vor dem Überschreiben gewarnt, wenn bei einer Quelle mit manuellen Änderungen die automatische Neusynchronisation aktiviert wird.
Über das Drei-Punkte-Kontextmenü in der Quellen-Liste können Quellen gelöscht oder deaktiviert/aktiviert werden.
Das Löschen entfernt die Quelle und ihre Inhalte dauerhaft aus der Knowledge Base.
Das Deaktivieren entfernt die Quelle und ihre Inhalte nicht aus der Knowledge Base. Stattdessen können die Inhalte einer deaktivieren Quelle nicht über die semantische Suche gefunden werden.
Sobald eine Quelle wieder aktiviert wird, sind ihr Inhalte wieder über die semantische Suche auffindbar.