AI-Audiokonfiguration
Um eine neue AI-Audiokonfiguration anzulegen, wählen Sie den Menüpunkt Konfigurationen und klicken anschliessend auf das -Symbol:

Danach wählen Sie aus dem Auswahlmenü den Typ AI-Audiokonfiguration aus, vergeben einen Namen und klicken auf Weiter:

Auf der folgenden Seite können Sie die Einstellungen für die AI-Audiokonfiguration vornehmen.

Die Daten für die Parameter Endpunkt, API-Key und Deployment werden von der Konfiguration des Realtime Audio-Modells vorgegeben. Diese Daten erhalten Sie von Ihrem Ansprechpartner bei uns.
Stimme
Es stehen acht unterschiedliche Stimmen für die Audioausgabe zur Verfügung. Wählen Sie die Stimme, die am besten zu Ihrem Chatbot passt.
Sprech-Erkennung
Das Audio-Modell erkennt automatisch, wann der Benutzer zu sprechen beginnt bzw. aufhört. Die Einstellungen in diesem Bereich erlauben eine feine Einstellung dieser Erkennung.
Schwellwert
Dieser Wert (0.00
- 1.00
) legt fest, wie laut ein Sprachsignal sein muss, damit es vom Audio-Modell als gültige Spracheingabe erkannt wird.
Ein niedriger Schwellwert kann dazu führen, dass auch leise Umgebungsgeräusche fälschlicherweise als Spracheingabe interpretiert werden. In solchen Fällen kann es vorkommen, dass eine laufende Sprachausgabe unterbrochen wird, weil das System davon ausgeht, dass eine neue Eingabe erfolgt ist.
Der empfohlene Standardwert für den Schwellwert liegt bei 0.70
.
Audio-Vorlauf
Diese Einstellung definiert, wie viele Millisekunden (0
- 2'000
) vor dem vom System erkannten Beginn der Sprache zusätzlich berücksichtigt werden sollen.
Da es für das Modell oft schwierig ist, den exakten Start einer Spracheingabe zu erkennen – insbesondere wenn der Benutzer sehr leise beginnt zu sprechen – hilft der Audio-Vorlauf dabei, den Anfang der Aufnahme zuverlässiger zu erfassen. Dadurch wird verhindert, dass leise oder verhalten gesprochene Worte verloren gehen.
Der Standardwert liegt bei 500
Millisekunden.
Dauer der Stille
Diese Einstellung legt fest, wie viele Millisekunden ohne erkennbare Sprache vergehen müssen, bevor das System davon ausgeht, dass der Benutzer seine Eingabe abgeschlossen hat und mit der Antwort beginnen kann.
Wird der Wert zu niedrig gewählt, kann es passieren, dass das Modell zu früh reagiert und den Benutzer unterbricht. Ein höherer Wert ermöglicht eine natürlichere Gesprächspause, kann aber die Reaktionszeit etwas verlängern.
Der Standardwert liegt bei 1000
Millisekunden.
AI-Funktion
Hier können Sie auswählen, welche AI-Funktion-Connectoren dem Modell als zusätzliche Wissensquellen zur Verfügung stehen sollen.
Das Modell prüft automatisch, ob und welche der gewählten Funktionen zur Beantwortung einer Anfrage benötigt werden. Weitere Informationen finden Sie unter AI-Funktion-Connector.
Gesprächseinstieg
In dieses Feld können Sie eine Begrüssung oder Einstiegsfrage eingeben, mit der das Modell die Konversation aktiv beginnt.
Standardmässig wartet das Modell darauf, dass der Benutzer zuerst spricht. Besonders bei Audio-Konversationen erwarten viele Nutzer jedoch, dass das System das Gespräch eröffnet. Um dies zu ermöglichen, können Sie hier z. B. einen Satz wie: „Hallo, wie heisst du?“ eintragen.
Das Modell behandelt diesen Text so, als hätte der Benutzer ihn ausgesprochen – und reagiert entsprechend mit einer Antwort.
System-Prompt
In diesem Feld definieren Sie die Grundeigenschaften des Modells, wie zum Beispiel:
Name
Verhalten und Persönlichkeit
Sprechgeschwindigkeit
Sprachstil oder Sprechverhalten
Diese Angaben können frei in Textform formuliert werden.
Zusätzlich haben Sie die Möglichkeit, dem Modell über dieses Feld kontextbezogene Informationen mitzugeben. Dadurch erhält es zusätzliches Wissen oder kann gezielter auf bestimmte Anwendungsfälle reagieren.
Zuletzt aktualisiert