Andere Modelle (Image, Audio etc.)
## Speech-to-Text
Wir hosten aktuell das Whisper-3-large Modell von openAI.
## Text-to-Speech
Wir hosten aktuell das xTTS-v2 Modell.
Das xTTS Modell kennt derzeit alle bei openAI verfügbaren Stimmen:
- alloy
- echo
- fable
- onyx
- nova
- shimmer
Wobei es sich um ähnlich klingende, nachgeahmte Stimmen handelt.
## OCR
Wir hosten das [Nanonets OCR2 3B](https://huggingface.co/nanonets/Nanonets-OCR2-3B) für OCR-Anwendungen.
## Image Generation - Flux.1-dev
Wir hosten aktuell das Flux.1 Modell in der dev Variante.
Zusätzlich kann mittels LoRa ein Flux.1-schnell genutzt werden. Dafür einen weitern Parameter `lora_settings` mitgeben:
```
{
"prompt": "A cat wearing a superhero costume, edge detected style",
"lora_settings": [
{
"name": "flux-schnell",
"weight": 1.0
}
]
}
```
Das Model kann mit den Endpunkten
- v1/images/generations
- v1/images/edits
- v1/images/variations
- v1/images/data
angesprochen werden.
Das Flux.1-dev Modell kennt derzeit folgende Konfigurationen für den `quality` Parameter:
| Quality Parameter | Guidance Scale | Num Inference Steps |
| --- | --- | --- |
| standard | 3.5 | 25 |
| standard+ | 5.5 | 25 |
| standard++ | 7.0 | 25 |
| bfl | 3.5 | 50 |
| hd | 5.5 | 50 |
| xhd | 7.0 | 50 |
## Image Editing - Flux.1-Kontext-dev
Das Model kann mit den Endpunkten
- v1/images/edits
- v1/images/variations
- v1/images/data
angesprochen werden.
Das Flux.1-dev Modell kennt derzeit folgende Konfigurationen für den `quality` Parameter:
| Quality Parameter | Guidance Scale | Num Inference Steps |
| :--- | :--- | :--- |
| schnell-hd | 5.5 | 6 |
| schnell-standard | 3.5 | 3 |
| standard | 2.5 | 25 |
| standard+ | 4.5 | 25 |
| standard++ | 7.0 | 25 |
| bfl | 3.5 | 50 |
| hd | 5.5 | 50 |
| xhd | 7.0 | 50 |