Direkt zum Hauptinhalt

Andere Modelle (Image, Audio etc.)

## 

Speech-to-Text

Wir hosten aktuell das Whisper-3-large Modell von openAI.

##

Text-to-Speech

Wir hosten aktuell das xTTS-v2 Modell.

Das xTTS Modell kennt derzeit alle bei openAI verfügbaren Stimmen:

-

    alloy
    - echo
    - fable
    - onyx
    - nova
    - shimmer

    Wobei es sich um ähnlich klingende, nachgeahmte Stimmen handelt.

    ##

    OCR

    Wir hosten das [Nanonets OCR2 3B](https://huggingface.co/nanonets/Nanonets-OCR2-3B)3B für OCR-Anwendungen.

    ##

    Image Generation - Flux.1-dev

    Wir hosten aktuell das Flux.1 Modell in der dev Variante.
    Zusätzlich kann mittels LoRa ein Flux.1-schnell genutzt werden. Dafür einen weitern Parameter `lora_settings`lora_settings mitgeben:
    ```

    {
    "prompt": "A cat wearing a superhero costume, edge detected style",
    "lora_settings": [
    {
    "name": "flux-schnell",
    "weight": 1.0
    }
    ]
    }
    ```

    Das Model kann mit den Endpunkten



    -
    • v1/images/generations
      -
    • v1/images/edits
      -
    • v1/images/variations
      -
    • v1/images/data

    angesprochen werden.

    Das Flux.1-dev Modell kennt derzeit folgende Konfigurationen für den `quality`quality Parameter:

    |

    Quality Parameter | Guidance Scale | Num Inference Steps |
    | --- |---|standard --- |
    | standard | 3.5 |25 25 |
    | standard+ | 5.5 |25 25 |
    | standard++ | 7.0 |25 25 |
    | bfl | 3.5 |50 50 |
    | hd | 5.5 |50 50 |
    | xhd | 7.0 |50 50 |

    ##

    Image Editing - Flux.1-Kontext-dev

    Das Model kann mit den Endpunkten



    -
    • v1/images/edits
      -
    • v1/images/variations
      -
    • v1/images/data

    angesprochen werden.

    Das Flux.1-dev Modell kennt derzeit folgende Konfigurationen für den `quality`quality Parameter:

    |

    Quality Parameter | Guidance Scale | Num Inference Steps |
    | :--- |:---| :--- |
    | schnell-hd | 5.5 |6 6 |
    | schnell-standard | 3.5 |3 3 |
    | standard | 2.5 |25 25 |
    | standard+ | 4.5 |25 25 |
    | standard++ | 7.0 |25 25 |
    | bfl | 3.5 |50 50 |
    | hd | 5.5 |50 50 |
    | xhd | 7.0 |50 50 |