> For the complete documentation index, see [llms.txt](https://help.aiaibot.com/llms.txt). Markdown versions of documentation pages are available by appending `.md` to page URLs; this page is available as [Markdown](https://help.aiaibot.com/robot/konfigurationen/ai-audiokonfiguration.md).

# AI-Audiokonfiguration

Um eine neue AI-Audiokonfiguration anzulegen, wählen Sie den Menüpunkt *Konfigurationen* und klicken anschliessend auf das <img src="/files/32GhkrdYgbHLeEkg44Lg" alt="" data-size="line">-Symbol:

<figure><img src="/files/5SRjXpEpIFu05nCUxpVS" alt="" width="563"><figcaption><p>Erstellen einer neuen Konfiguration</p></figcaption></figure>

Danach wählen Sie aus dem Auswahlmenü den Typ *AI-Audiokonfiguration* aus, vergeben einen Namen und klicken auf *Weiter*:

<figure><img src="/files/UGetPWTiLu5ShvuNfGRD" alt="" width="461"><figcaption><p>Neue AI-Audiokonfiguration</p></figcaption></figure>

Auf der folgenden Seite können Sie die Einstellungen für die AI-Audiokonfiguration vornehmen.

<figure><img src="/files/vERzio90BmNeJHQzR7ci" alt="" width="563"><figcaption><p>AI-Audioumgebung</p></figcaption></figure>

Die Daten für die Parameter **Endpunkt**, **API-Key** und **Deployment** werden von der Konfiguration des Realtime Audio-Modells vorgegeben. Diese Daten erhalten Sie von Ihrem Ansprechpartner bei uns.

## Stimme

Es stehen acht unterschiedliche Stimmen für die Audioausgabe zur Verfügung. Wählen Sie die Stimme, die am besten zu Ihrem Chatbot passt.

## Sprech-Erkennung

Das Audio-Modell erkennt automatisch, wann der Benutzer zu sprechen beginnt bzw. aufhört. Die Einstellungen in diesem Bereich erlauben eine feine Einstellung dieser Erkennung.

### Schwellwert

Dieser Wert (`0.00` - `1.00`) legt fest, wie laut ein Sprachsignal sein muss, damit es vom Audio-Modell als gültige Spracheingabe erkannt wird.

Ein niedriger Schwellwert kann dazu führen, dass auch leise Umgebungsgeräusche fälschlicherweise als Spracheingabe interpretiert werden. In solchen Fällen kann es vorkommen, dass eine laufende Sprachausgabe unterbrochen wird, weil das System davon ausgeht, dass eine neue Eingabe erfolgt ist.

Der empfohlene Standardwert für den Schwellwert liegt bei `0.70`.

### Audio-Vorlauf

Diese Einstellung definiert, wie viele Millisekunden (`0` - `2'000`) vor dem vom System erkannten Beginn der Sprache zusätzlich berücksichtigt werden sollen.

Da es für das Modell oft schwierig ist, den exakten Start einer Spracheingabe zu erkennen – insbesondere wenn der Benutzer sehr leise beginnt zu sprechen – hilft der Audio-Vorlauf dabei, den Anfang der Aufnahme zuverlässiger zu erfassen. Dadurch wird verhindert, dass leise oder verhalten gesprochene Worte verloren gehen.

Der Standardwert liegt bei `500` Millisekunden.

### Dauer der Stille

Diese Einstellung legt fest, wie viele Millisekunden ohne erkennbare Sprache vergehen müssen, bevor das System davon ausgeht, dass der Benutzer seine Eingabe abgeschlossen hat und mit der Antwort beginnen kann.

Wird der Wert zu niedrig gewählt, kann es passieren, dass das Modell zu früh reagiert und den Benutzer unterbricht. Ein höherer Wert ermöglicht eine natürlichere Gesprächspause, kann aber die Reaktionszeit etwas verlängern.

Der Standardwert liegt bei `1000` Millisekunden.

## AI-Funktion

Hier können Sie auswählen, welche AI-Funktion-Connectoren dem Modell als zusätzliche Wissensquellen zur Verfügung stehen sollen.

Das Modell prüft automatisch, ob und welche der gewählten Funktionen zur Beantwortung einer Anfrage benötigt werden. Weitere Informationen finden Sie unter [AI-Funktion-Connector](/robot/connectoren/passiv/ai-funktion.md).

## Gesprächseinstieg

In dieses Feld können Sie eine Begrüssung oder Einstiegsfrage eingeben, mit der das Modell die Konversation aktiv beginnt.

Standardmässig wartet das Modell darauf, dass der Benutzer zuerst spricht. Besonders bei Audio-Konversationen erwarten viele Nutzer jedoch, dass das System das Gespräch eröffnet. Um dies zu ermöglichen, können Sie hier z. B. einen Satz wie: „Hallo, wie heisst du?“ eintragen.

Das Modell behandelt diesen Text so, als hätte der Benutzer ihn ausgesprochen – und reagiert entsprechend mit einer Antwort.

## System-Prompt

In diesem Feld definieren Sie die Grundeigenschaften des Modells, wie zum Beispiel:

* Name
* Verhalten und Persönlichkeit
* Sprechgeschwindigkeit
* Sprachstil oder Sprechverhalten

Diese Angaben können frei in Textform formuliert werden.

Zusätzlich haben Sie die Möglichkeit, dem Modell über dieses Feld kontextbezogene Informationen mitzugeben. Dadurch erhält es zusätzliches Wissen oder kann gezielter auf bestimmte Anwendungsfälle reagieren.


---

# Agent Instructions
This documentation is published with GitBook. GitBook is the documentation platform designed so that both humans and AI agents can read, navigate, and reason over technical content effectively. Learn more at gitbook.com.

## Querying This Documentation
If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter, and the optional `goal` query parameter:

```
GET https://help.aiaibot.com/robot/konfigurationen/ai-audiokonfiguration.md?ask=<question>&goal=<endgoal>
```

`ask` is the immediate question: it should be specific, self-contained, and written in natural language.
`goal` is optional and describes the broader end goal you are ultimately trying to accomplish on behalf of the user. GitBook uses it to tailor the answer towards what is most useful for that goal.

The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.