Andere Modelle (Image, Audio etc.)

## Speech-to-Text

Wir hosten aktuell das Whisper-3-large Modell von openAI.

## Text-to-Speech

Wir hosten aktuell das xTTS-v2 Modell.

Das xTTS Modell kennt derzeit alle bei openAI verfügbaren Stimmen:

-   alloy
-   echo
-   fable
-   onyx
-   nova
-   shimmer

Wobei es sich um ähnlich klingende, nachgeahmte Stimmen handelt.

## OCR

Wir hosten das [Nanonets OCR2 3B](https://huggingface.co/nanonets/Nanonets-OCR2-3B) für OCR-Anwendungen.

## Image Generation - Flux.1-dev

Wir hosten aktuell das Flux.1 Modell in der dev Variante.
Zusätzlich kann mittels LoRa ein Flux.1-schnell genutzt werden. Dafür einen weitern Parameter `lora_settings` mitgeben:
```
{
    "prompt": "A cat wearing a superhero costume, edge detected style",
    "lora_settings": [
        {
            "name": "flux-schnell",
            "weight": 1.0
        }
    ]
}
```

Das Model kann mit den Endpunkten 

- v1/images/generations
- v1/images/edits
- v1/images/variations
- v1/images/data

angesprochen werden.

Das Flux.1-dev Modell kennt derzeit folgende Konfigurationen für den `quality` Parameter:

| Quality Parameter | Guidance Scale | Num Inference Steps |
| --- | --- | --- |
| standard | 3.5 | 25  |
| standard+ | 5.5 | 25  |
| standard++ | 7.0 | 25  |
| bfl | 3.5 | 50  |
| hd  | 5.5 | 50  |
| xhd | 7.0 | 50  |

## Image Editing - Flux.1-Kontext-dev

Das Model kann mit den Endpunkten 

- v1/images/edits
- v1/images/variations
- v1/images/data

angesprochen werden.

Das Flux.1-dev Modell kennt derzeit folgende Konfigurationen für den `quality` Parameter:

| Quality Parameter | Guidance Scale | Num Inference Steps |
| :--- | :--- | :--- |
| schnell-hd | 5.5 | 6 |
| schnell-standard | 3.5 | 3 |
| standard | 2.5 | 25 |
| standard+ | 4.5 | 25 |
| standard++ | 7.0 | 25 |
| bfl | 3.5 | 50 |
| hd | 5.5 | 50 |
| xhd | 7.0 | 50 |