Direkt zum Hauptinhalt

Andere Modelle (Image, Audio etc.)

Speech-to-Text

Wir hosten aktuell das Whisper-3-large Modell von openAI.

Text-to-Speech

Wir hosten aktuell das xTTS-v2 Modell.

Das xTTS Modell kennt derzeit alle bei openAI verfügbaren Stimmen:

  • alloy
  • echo
  • fable
  • onyx
  • nova
  • shimmer

Wobei es sich um ähnlich klingende, nachgeahmte Stimmen handelt.

OCR

Wir hosten das Nanonets OCR2 3B für OCR-Anwendungen.

Image Generation - Flux.1-dev

Wir hosten aktuell das Flux.1 Modell in der dev Variante. Zusätzlich kann mittels LoRa ein Flux.1-schnell genutzt werden. Dafür einen weitern Parameter lora_settings mitgeben:

{
    "prompt": "A cat wearing a superhero costume, edge detected style",
    "lora_settings": [
        {
            "name": "flux-schnell",
            "weight": 1.0
        }
    ]
}

Das Model kann mit den Endpunkten

  • v1/images/generations
  • v1/images/edits
  • v1/images/variations
  • v1/images/data

angesprochen werden.

Das Flux.1-dev Modell kennt derzeit folgende Konfigurationen für den quality Parameter:

Quality Parameter Guidance Scale Num Inference Steps
standard 3.5 25
standard+ 5.5 25
standard++ 7.0 25
bfl 3.5 50
hd 5.5 50
xhd 7.0 50

Image Editing - Flux.1-Kontext-dev

Das Model kann mit den Endpunkten

  • v1/images/edits
  • v1/images/variations
  • v1/images/data

angesprochen werden.

Das Flux.1-dev Modell kennt derzeit folgende Konfigurationen für den quality Parameter:

Quality Parameter Guidance Scale Num Inference Steps
schnell-hd 5.5 6
schnell-standard 3.5 3
standard 2.5 25
standard+ 4.5 25
standard++ 7.0 25
bfl 3.5 50
hd 5.5 50
xhd 7.0 50