AI-Audiokonfiguration

Um eine neue AI-Audiokonfiguration anzulegen, wählen Sie den Menüpunkt Konfigurationen und klicken anschliessend auf das -Symbol:

Erstellen einer neuen Konfiguration

Danach wählen Sie aus dem Auswahlmenü den Typ AI-Audiokonfiguration aus, vergeben einen Namen und klicken auf Weiter:

Neue AI-Audiokonfiguration

Auf der folgenden Seite können Sie die Einstellungen für die AI-Audiokonfiguration vornehmen.

AI-Audioumgebung

Die Daten für die Parameter Endpunkt, API-Key und Deployment werden von der Konfiguration des Realtime Audio-Modells vorgegeben. Diese Daten erhalten Sie von Ihrem Ansprechpartner bei uns.

Stimme

Es stehen acht unterschiedliche Stimmen für die Audioausgabe zur Verfügung. Wählen Sie die Stimme, die am besten zu Ihrem Chatbot passt.

Sprech-Erkennung

Das Audio-Modell erkennt automatisch, wann der Benutzer zu sprechen beginnt bzw. aufhört. Die Einstellungen in diesem Bereich erlauben eine feine Einstellung dieser Erkennung.

Schwellwert

Dieser Wert (0.00 - 1.00) legt fest, wie laut ein Sprachsignal sein muss, damit es vom Audio-Modell als gültige Spracheingabe erkannt wird.

Ein niedriger Schwellwert kann dazu führen, dass auch leise Umgebungsgeräusche fälschlicherweise als Spracheingabe interpretiert werden. In solchen Fällen kann es vorkommen, dass eine laufende Sprachausgabe unterbrochen wird, weil das System davon ausgeht, dass eine neue Eingabe erfolgt ist.

Der empfohlene Standardwert für den Schwellwert liegt bei 0.70.

Audio-Vorlauf

Diese Einstellung definiert, wie viele Millisekunden (0 - 2'000) vor dem vom System erkannten Beginn der Sprache zusätzlich berücksichtigt werden sollen.

Da es für das Modell oft schwierig ist, den exakten Start einer Spracheingabe zu erkennen – insbesondere wenn der Benutzer sehr leise beginnt zu sprechen – hilft der Audio-Vorlauf dabei, den Anfang der Aufnahme zuverlässiger zu erfassen. Dadurch wird verhindert, dass leise oder verhalten gesprochene Worte verloren gehen.

Der Standardwert liegt bei 500 Millisekunden.

Dauer der Stille

Diese Einstellung legt fest, wie viele Millisekunden ohne erkennbare Sprache vergehen müssen, bevor das System davon ausgeht, dass der Benutzer seine Eingabe abgeschlossen hat und mit der Antwort beginnen kann.

Wird der Wert zu niedrig gewählt, kann es passieren, dass das Modell zu früh reagiert und den Benutzer unterbricht. Ein höherer Wert ermöglicht eine natürlichere Gesprächspause, kann aber die Reaktionszeit etwas verlängern.

Der Standardwert liegt bei 1000 Millisekunden.

AI-Funktion

Hier können Sie auswählen, welche AI-Funktion-Connectoren dem Modell als zusätzliche Wissensquellen zur Verfügung stehen sollen.

Das Modell prüft automatisch, ob und welche der gewählten Funktionen zur Beantwortung einer Anfrage benötigt werden. Weitere Informationen finden Sie unter AI-Funktion-Connector.

Gesprächseinstieg

In dieses Feld können Sie eine Begrüssung oder Einstiegsfrage eingeben, mit der das Modell die Konversation aktiv beginnt.

Standardmässig wartet das Modell darauf, dass der Benutzer zuerst spricht. Besonders bei Audio-Konversationen erwarten viele Nutzer jedoch, dass das System das Gespräch eröffnet. Um dies zu ermöglichen, können Sie hier z. B. einen Satz wie: „Hallo, wie heisst du?“ eintragen.

Das Modell behandelt diesen Text so, als hätte der Benutzer ihn ausgesprochen – und reagiert entsprechend mit einer Antwort.

System-Prompt

In diesem Feld definieren Sie die Grundeigenschaften des Modells, wie zum Beispiel:

  • Name

  • Verhalten und Persönlichkeit

  • Sprechgeschwindigkeit

  • Sprachstil oder Sprechverhalten

Diese Angaben können frei in Textform formuliert werden.

Zusätzlich haben Sie die Möglichkeit, dem Modell über dieses Feld kontextbezogene Informationen mitzugeben. Dadurch erhält es zusätzliches Wissen oder kann gezielter auf bestimmte Anwendungsfälle reagieren.

Zuletzt aktualisiert