Andere Modelle (Image, Audio etc.)

##

Speech-to-Text

Wir hosten aktuell das Whisper-3-large Modell von openAI.

##

Text-to-Speech

Wir hosten aktuell das xTTS-v2 Modell.

Das xTTS Modell kennt derzeit alle bei openAI verfügbaren Stimmen:

-

alloy
- echo
- fable
- onyx
- nova
- shimmer

Wobei es sich um ähnlich klingende, nachgeahmte Stimmen handelt.

##

OCR

Wir hosten das [Nanonets OCR2 ~~3B](https://huggingface.co/nanonets/Nanonets-OCR2-3B)~~3B für OCR-Anwendungen.

##

Image Generation - Flux.1-dev

Wir hosten aktuell das Flux.1 Modell in der dev Variante.
Zusätzlich kann mittels LoRa ein Flux.1-schnell genutzt werden. Dafür einen weitern Parameter ~~`lora_settings`~~lora_settings mitgeben:
~~```~~

{

    "prompt": "A cat wearing a superhero costume, edge detected style",

    "lora_settings": [

        {

            "name": "flux-schnell",

            "weight": 1.0

        }

    ]

}
```

Das Model kann mit den Endpunkten

v1/images/generations
-
v1/images/edits
-
v1/images/variations
-
v1/images/data

angesprochen werden.

Das Flux.1-dev Modell kennt derzeit folgende Konfigurationen für den ~~`quality`~~quality Parameter:

|

Quality Parameter | Guidance Scale | Num Inference Steps |
| ~~---~~ |~~---~~|standard ~~--- |~~
~~| standard |~~ 3.5 |25 25 |
| standard+ | 5.5 |25 25 |
| standard++ | 7.0 |25 25 |
| bfl | 3.5 |50 50 |
| hd | 5.5 |50 50 |
| xhd | 7.0 |50 50 |

##

Image Editing - Flux.1-Kontext-dev

Das Model kann mit den Endpunkten

v1/images/edits
-
v1/images/variations
-
v1/images/data

angesprochen werden.

Das Flux.1-dev Modell kennt derzeit folgende Konfigurationen für den ~~`quality`~~quality Parameter:

|

Quality Parameter | Guidance Scale | Num Inference Steps |
| ~~:---~~ |~~:---| :--- |~~
| schnell-hd | 5.5 |6 6 |
| schnell-standard | 3.5 |3 3 |
| standard | 2.5 |25 25 |
| standard+ | 4.5 |25 25 |
| standard++ | 7.0 |25 25 |
| bfl | 3.5 |50 50 |
| hd | 5.5 |50 50 |
| xhd | 7.0 |50 50 |