Direkt zum Hauptinhalt

Andere Modelle (Image, Audio etc.)

Andere Modelle: Audio, OCR und Bilder

Auf dieser Seite stehen die nicht-LLM-Modelle in einer kompakten Form. Auch hier gilt: Im Wiki zeigen wir keine Basis-URLs oder internen Service-Hosts, sondern nur den Modell-Parameter, das Zielmodell, den Host-Typ und die relevanten Limits.

Speech-to-Text

Wir

hostenaktuelldasModellparameter Zielmodell myLab THL | GWDG API Hinweise whisper-3-large whisper-3-large THL audio/transcriptions, audio/translations Direktname whisper-1 whisper-3-large THL audio/transcriptions, audio/translations Alias auf unser Whisper-3-largeBackend Modell von openAI.

Text-to-Speech

Wir

hostenaktuelldasModellparameter xTTS-Zielmodell myLab THL | GWDG API Hinweise xtts-v2 Modell.xtts-v2

Das

THL xTTSaudio/speech ModellDirektname; kenntunterstützt die Stimmen alloy, echo, fable, onyx, nova, shimmer tts-1-hd xtts-v2 THL audio/speech Alias für openAI default fishaudio-s2-pro fishaudio-s2-pro THL audio/speech Alternative TTS-Variante, derzeit allenur beidefault openAIvoice verfügbaren Stimmen:
    alloy echo fable onyx nova shimmer

    Wobei es sich um ähnlich klingende, nachgeahmte Stimmen handelt.

    OCR

    Wir

    hostendasNanonetsModellparameter OCR2Zielmodell 3BmyLab THL | GWDG API Hinweise ocr-extract chandra-ocr-2 THL chat/completions Nutzerfreundlicher OCR-Alias chandra-ocr-2 chandra-ocr-2 THL chat/completions 32.768 Kontext

    Bildmodelle

    Modellparameter Zielmodell myLab THL | GWDG API-Familien Hinweise image-gen-hd flux.2-dev THL images/generations, images/edits, images/variations, images/data health_timeout=180; request_timeout=900 für OCR-Anwendungen.Generierung,

    Imagesonst Generation300

    - Flux. image-gen-fast flux.2-klein THL images/generations, images/edits, images/data health_timeout=180; request_timeout=300 flux.1-dev

    Wir

    flux.2-dev hostenTHL aktuell das Flux.1 Modell in der dev Variante. Zusätzlich kann mittels LoRa ein Flux.1-schnell genutzt werden. Dafür einen weitern Parameterimages/generations, lora_settingsimages/edits mitgeben:
    {
        "prompt": "A cat wearing a superhero costume, edge detected style", "lora_settings": [
            {
                "name": "flux-schnell"images/variations, "weight": 1.0
            }
        ]
    }
    

    Das Model kann mit den Endpunkten

      v1/images/generations v1/images/edits v1/images/variations v1/images/data

      angesprochen werden.

      Das Flux.1-dev Modell kennt derzeit folgende Konfigurationen

      Alias für den Dev-Workflow qualityflux.1-kontext flux.2-dev THL images/generations, images/edits, images/data Kontext-/Edit-Alias flux.2-dev flux.2-dev THL images/generations, images/edits, images/variations, images/data Direktname flux.2-klein flux.2-klein THL images/generations, images/edits, images/data Direktname dall-e-3 flux.2-dev THL images/generations, images/edits, images/data Alias für die THL-Bildpipeline gpt-image-1 flux.2-dev THL images/generations, images/edits, images/data Alias für die THL-Bildpipeline

      Qualitätseinstellungen für image-gen-hd Parameter:und flux.1-dev

      Quality Parameter Guidance Scale Num Inference Steps
      standard 3.5 25
      standard+ 5.5 25
      standard++ 7.0 25
      bfl 3.5 50
      hd 5.5 50
      xhd 7.0 50

      Image Editing - Flux.1-Kontext-dev

      Das Model kann mit den Endpunkten

        v1/images/edits v1/images/variations v1/images/data

        angesprochen werden.

        Das Flux.1-dev Modell kennt derzeit folgende Konfigurationen

        Qualitätseinstellungen für denimage-gen-fast und qualityflux.1-kontext Parameter:

        Quality Parameter Guidance Scale Num Inference Steps
        schnell-hd 5.5 6
        schnell-standard 3.5 3
        standard 2.5 25
        standard+ 4.5 25
        standard++ 7.0 25
        bfl 3.5 50
        hd 5.5 50
        xhd 7.0 50

        Hinweise

          Nicht-LLM-Modelle gelten weiterhin als experimenteller als die Chat-Modelle; bitte Verfügbarkeit vor produktiver Nutzung prüfen.