Andere Modelle (Image, Audio etc.)
Speech-to-Text
Wir hosten aktuell das Whisper-3-large Modell von openAI.
Text-to-Speech
Wir hosten aktuell das xTTS-v2 Modell.
Das xTTS Modell kennt derzeit alle bei openAI verfügbaren Stimmen:
- alloy
- echo
- fable
- onyx
- nova
- shimmer
Wobei es sich um ähnlich klingende, nachgeahmte Stimmen handelt.
OCR
Wir hosten das Nanonets OCR2 3B für OCR-Anwendungen.
Image Generation - Flux.1-dev
Wir hosten aktuell das Flux.1 Modell in der dev Variante.
Zusätzlich kann mittels LoRa ein Flux.1-schnell genutzt werden. Dafür einen weitern Parameter lora_settings mitgeben:
{
"prompt": "A cat wearing a superhero costume, edge detected style",
"lora_settings": [
{
"name": "flux-schnell",
"weight": 1.0
}
]
}
Das Model kann mit den Endpunkten
- v1/images/generations
- v1/images/edits
- v1/images/variations
- v1/images/data
angesprochen werden.
Das Flux.1-dev Modell kennt derzeit folgende Konfigurationen für den quality Parameter:
| Quality Parameter | Guidance Scale | Num Inference Steps |
|---|---|---|
| standard | 3.5 | 25 |
| standard+ | 5.5 | 25 |
| standard++ | 7.0 | 25 |
| bfl | 3.5 | 50 |
| hd | 5.5 | 50 |
| xhd | 7.0 | 50 |
Image Editing - Flux.1-Kontext-dev
Das Model kann mit den Endpunkten
- v1/images/edits
- v1/images/variations
- v1/images/data
angesprochen werden.
Das Flux.1-dev Modell kennt derzeit folgende Konfigurationen für den quality Parameter:
| Quality Parameter | Guidance Scale | Num Inference Steps |
|---|---|---|
| schnell-hd | 5.5 | 6 |
| schnell-standard | 3.5 | 3 |
| standard | 2.5 | 25 |
| standard+ | 4.5 | 25 |
| standard++ | 7.0 | 25 |
| bfl | 3.5 | 50 |
| hd | 5.5 | 50 |
| xhd | 7.0 | 50 |