Direkt zum Hauptinhalt

LLMs & Embedding Modelle

Large Language Modelle und Embeddings

Wir hostenstellen eine OpenAI-kompatible Modelloberfläche bereit. Auf dieser Seite stehen bewusst nur die folgendenInformationen, LLMsdie Nutzer direkt brauchen: der Model-Parameter für den Client, das tatsächlich dahinterliegende Zielmodell, der Host-Typ myLab THL | GWDG und Text Embedding Modelle für Lehre, Forschung und Transfer unter den unten stehenden Endpunkten.

LLMs werden mittels des Text Generation Inference (TGI) Interfaces von HuggingFace bzw. vLLM bereitgestellt. Ab TGI Version >1.4.0 sind alle Modelle, die einwichtigsten entsprechendes Chat-Template in der jeweiligen tokenizer_config.json-Datei gesetzt haben, mit den OpenAI API Packages kompatibel (siehe hier). Wir haben diese Modelle in der Tabelle entsprechend ausgewiesen.

Unser ChatBot KIRA läuft bspw. auf Llama3 70B.

Nutzung vordefinierter URLs

Hinter diesen URLs liegen von uns ausgewählte LLMs. Diese können auch kurzfristig geändert werden. Alle LLMs sind mit der Chat-API von OpenAI kompatibel. Mehr Details zu den einzelnen Modellen finden sich in der Tabelle unten.

NameEndpunkt Base-URLModel-ParameterLLM
Chat Smallhttps://models.mylab.th-luebeck.dev/v1chat-smallQwen3 8B
Chat Mediumhttps://models.mylab.th-luebeck.dev/v1chat-mediumQwen3.5 27B
Chat Defaulthttps://models.mylab.th-luebeck.dev/v1chat-defaultGPT OSS 120B
Chat Largehttps://models.mylab.th-luebeck.dev/v1chat-largeGPT OSS 120B

Nutzung spezifischer Modelle

Die LLMs hinter diesen URLs können sich kurzfristig ändern oder - sofern kein Enddatum angegeben ist - aus der Nutzung gehen. Eine Garantie für eine langfrsitige Möglichkeit zur Nutzung geben wir hierfür nicht.Limits.

BeiSetze derim Verwendung des OpenAI Clients z.B. in Python mussOpenAI-Client die base_url auf den Modell-Proxy https://models.mylab.th-luebeck.dev/de/v1 gesetztund werden.verwende einen Dummy-API-Key.

Hinweils GWDG-Rate-Limits >>>>>>>>>>>>>>>>>>TODO

Chat generische Aliasse

LLMModellparameter Model-ParameterZielmodell DeploymentmyLab THL | GWDG OpenAIAPI kompatibelHinweisePrompt-FormatTotal TokensAnmerkungenBleibt min. bis [GPTchat-small OSS 120B](https://huggingface.co/openai/gpt-oss-120b)gpt-oss-120bvLLM nightly buildOK[OpenAI Harmony](https://cookbook.openai.com/articles/openai-harmony)131 072 Token-31.8.2026[Qwen3 VL 8B](https://huggingface.co/Qwen/Qwen3-VL-8B-Instruct)qwen3-vl-8b vLLMTHL v0.16.0chat/completions OK[Qwen3](https://huggingface.co/Qwen/Qwen3-VL-8B-Instruct#using-%F0%9F%A4%97-transformers-to-chat)4040.960 000Kontext, Tokenmax. 2 Bilder 31.8.2026chat-default gpt-oss-120b GWDG chat/completions, completions Standardalias; beide Chat-Endpunkte vorhanden [Qwen3.5chat-medium 27B](https://huggingface.co/Qwen/Qwen3.5-27B-FP8)gpt-oss-120b GWDG chat/completions, completions Gleiche Backend-Zuordnung wie chat-default chat-large glm-4.7 GWDG chat/completions Größerer Chat-Alias chat-xlarge mistral-large-3-675b-instruct-2512 GWDG chat/completions Größter Chat-Alias in der GWDG-Gruppe

Chat-VL generische Aliasse

Modellparameter Zielmodell myLab THL | GWDG API Hinweise chat-vl-small qwen3-vl-8b THL chat/completions 40.960 Kontext, max. 2 Bilder chat-medium gemma4-31b GWDG chat/completions, completions Gleiche Backend-Zuordnung wie chat-default chat-vl-large qwen3.5-397b-a17b GWDG chat/completions Extern gehostet; Limits im Repo nicht dokumentiert chat-vl-xlarge mistral-large-3-675b-instruct-2512 GWDG chat/completions Extern gehostet; Limits im Repo nicht dokumentiert

Andere generische Aliasse

Modellparameter Zielmodell myLab THL | GWDG API Hinweise coder-small qwen3.6-27b vLLMTHL v0.16.0chat/completions OK[Qwen3](https://huggingface.co/Qwen/Qwen3.5-27B-FP8#text-only-input)64131.072 000Kontext, Tokenmax. 4 Bilder 31.8.2026coder-large glm-4.7 GWDG chat/completions Extern gehostet

Beta-Preview

Explizite

Die hier genannten Modelle befinden sich noch in einer Erprobungsphase und können jederzeit geändert oder abgeschalten werden. Wir bieten aber bereits vorab die Möglichkeit diese Varianten zu testen, damit Umstellungen beim EOL der regulären Modelle reibungslos verlaufen.

Modellnamen
LLMModellname Model-ParametermyLab THL | GWDG DeploymentAPI OpenAIHinweise kompatibel gpt-oss-120b GWDG chat/completions, completions Direktname; Kontext im Repo nicht explizit dokumentiert glm-4.7 GWDG chat/completions Direktname; extern gehostet qwen3.5-397b-a17b GWDG chat/completions Direktname; extern gehostet mistral-large-3-675b-instruct-2512 GWDG chat/completions Direktname; extern gehostet qwen3-vl-8b THL chat/completions 40.960 Kontext, max. 2 Bilder gemma4-31b THL chat/completions 131.072 Kontext, max. 4 Bilder gemma4-e2b THL chat/completions 131.072 Kontext, max. 4 Bilder qwen3.6-27b THL chat/completions 131.072 Kontext, max. 4 Bilder

Embeddings

Modellparameter TotalZielmodell TokensmyLab THL | GWDG AnmerkungAPI BleibtHinweise min. bis qwen3-embedding-4b qwen3-embedding-4b THL embeddings TEI-kompatibel; max-batch-tokens=65536, max-client-batch-size=64 [Nanonets OCR2 3B](https://huggingface.co/nanonets/Nanonets-OCR2-3B)nanonets-ocr2-3bvLLM v0.16.0OK128 000Video deaktiviert31.8.2026

Die aufgeführten Embedding-Modelle können bspw. mit dem Python Modul text-generation oder auch mit LangChain unter Nutzung des Moduls langchain-community und dessen HuggingFace Anbindung genutzt werden.

Text Embedding Modelle

Wir wählen unsere Embedding Modelle aus dem MTEB Leaderboard aus. Kritierien sind:

    Geringer Speicherbedarf TEI-Kompatibilität Möglichst großer Token Context Multilingualität Vergleichbare oder bessere Leistung wie die OpenAI Embeddings (text-embedding-ada-002, text-embedding-3-small) Möglichst wenig unterschiedliche Embedding Modelle zu betreiben (Präferenz von General Purpose Embeddings)

    Embeddings werden mittels des Text Embeddings Inference (TEI) Interfaces von HuggingFace bereitgestellt.

    ModellModel-ParameterTEI VerOpenAIEmbedding DimensionMax Token ContextAnmerkungen
    [Qwen3 4B](https://huggingface.co/Qwen/Qwen3-Embedding-4B)qwen3-embedding-4b1.9.2Jabis zu 256032000-

    Die aufgeführten Modelle können bspw. mit der OpenAI OpenAI-Bibliothek genutzt werden. Wichtig ist auch hier nur der Modell-Parameter; die Proxy-URL bleibt in dieser Wiki-Seite bewusst verborgen.

    # Installation der Abhängigkeiten
    pip install openai
    
    
    import openai
    
    # Prepare OpenAI client
    client = openai.OpenAI(
        api_key="ignored"
        base_url="https://models.mylab.th-luebeck.dev/v1"
    )
    
    # Embed the query
    embeddings = client.embeddings.create(input=query, model="bge-m3")
    
    

    Tutorials

    Wir bieten das folgende Tutorial an, wie unsere LLMs genutzt werden können.

      Tutorial zur Nutzung (Text-to-Text, Text-to-Vector (Embedding), Text-to-Speech, Spech-to-Text, Text-to-Image, Image-to-Text)

      Für das Tutorial wird ein JupyterHub Account benötigt.

      Nutzung der OpenAI Completions API

      Seit TGI Version 1.4 und TEI Version 1.0 ist es auch möglich unsere LLM-Modelle über das Standard openai Modul anzusprechen. Man muss dazu nur den Endpunkt angeben und einen "Dummy API-Key" angeben.

      Wir verweisen auf die offzielle OpenAI Dokumentation zur Nutzung des openai-Moduls. Das folgende Beispiel zeigt nur die Anbindung an unsere Endpunkte.

      # File: test.py
      
      from openai import OpenAI
      
      client = OpenAI(
          base_url="https:<Modell-Proxy>//models.mylab.th-luebeck.dev/v1",
          api_key="ignored",
      )
      
      chat_completionresult = client.chat.completions.embeddings.create(
          model="llama-33-70b"qwen3-embedding-4b",
          messages=[
              {input="role": "system"Beispieltext",
      "content": "You are a helpful assistant." },
              {"role": "user", "content": "What is deep learning?"}
          ],
          stream=True,
          max_tokens=1024
      )
      
      # iterate and print stream
      for message in chat_completion:
          if not message.choices[0].finish_reason:
              print(message.choices[0].delta.content, end='')
      

      Um

      Kurzhinweise

      den
      Streaming-Effektchat-default zuund sehen,chat-medium musszeigen auf dasselbe Zielmodell. chat-small ist unser Chat-VL-Alias für das Skriptkleinere imVision-Modell. unbuffered Mode (also mit aktiviertem ˚-u˚ Schalter) ausgeführt werden, d.h.Nicht-LLM-Modelle wie folgt:OCR,
      Audio und Bildmodelle stehen auf der Seite pipAndere installModelle openai(Image pythonAudio -uetc).md.
      test.py