Andere Modelle (Image, Audio etc.)
##
Speech-to-Text
Wir hosten aktuell das Whisper-3-large Modell von openAI.##
Text-to-Speech
Wir hosten aktuell das xTTS-v2 Modell.
Das xTTS Modell kennt derzeit alle bei openAI verfügbaren Stimmen:-
Wobei es sich um ähnlich klingende, nachgeahmte Stimmen handelt.##
OCR
Wir hosten das [Nanonets OCR2 3B](https://huggingface.co/nanonets/Nanonets-OCR2-3B)3B für OCR-Anwendungen.##
Image Generation - Flux.1-dev
Wir hosten aktuell das Flux.1 Modell in der dev Variante.
Zusätzlich kann mittels LoRa ein Flux.1-schnell genutzt werden. Dafür einen weitern Parameter `lora_settings`lora_settings mitgeben:```
{
"prompt": "A cat wearing a superhero costume, edge detected style",
"lora_settings": [
{
"name": "flux-schnell",
"weight": 1.0
}
]
}
```
Das Model kann mit den Endpunkten
- v1/images/generations
- - v1/images/edits
- - v1/images/variations
- - v1/images/data
angesprochen werden.
Das Flux.1-dev Modell kennt derzeit folgende Konfigurationen für den `quality`quality Parameter:|
Image Editing - Flux.1-Kontext-dev
Das Model kann mit den Endpunkten
- v1/images/edits
- - v1/images/variations
- - v1/images/data
angesprochen werden.
Das Flux.1-dev Modell kennt derzeit folgende Konfigurationen für den `quality`quality Parameter:|