LLMs & Embedding Modelle

Large Language Modelle und Embeddings

Wir ~~hosten~~stellen eine OpenAI-kompatible Modelloberfläche bereit. Auf dieser Seite stehen bewusst nur die ~~folgenden~~Informationen, ~~LLMs~~die Nutzer direkt brauchen: der Model-Parameter für den Client, das tatsächlich dahinterliegende Zielmodell, der Host-Typ myLab THL | GWDG und ~~Text Embedding Modelle für Lehre, Forschung und Transfer unter den unten stehenden Endpunkten.~~

~~LLMs werden mittels des~~ ~~Text Generation Inference (TGI)~~ ~~Interfaces von HuggingFace bzw.~~ ~~vLLM~~ ~~bereitgestellt. Ab TGI Version >1.4.0 sind alle Modelle,~~ die ~~ein~~wichtigsten ~~entsprechendes Chat-Template in der jeweiligen~~ tokenizer_config.json~~-Datei gesetzt haben, mit den OpenAI API Packages kompatibel~~ ~~(siehe hier). Wir haben diese Modelle in der Tabelle entsprechend ausgewiesen.~~

~~Unser ChatBot~~ ~~KIRA~~ ~~läuft bspw. auf Llama3 70B.~~

Nutzung vordefinierter URLs

Hinter diesen URLs liegen von uns ausgewählte LLMs. Diese können auch kurzfristig geändert werden. Alle LLMs sind mit der Chat-API von OpenAI kompatibel. Mehr Details zu den einzelnen Modellen finden sich in der Tabelle unten.

~~Name~~	~~Endpunkt Base-URL~~	~~Model-Parameter~~	~~LLM~~
~~Chat Small~~	~~https://models.mylab.th-luebeck.dev/v1~~	~~chat-small~~	~~Qwen3 8B~~
~~Chat Medium~~	~~https://models.mylab.th-luebeck.dev/v1~~	~~chat-medium~~	~~Qwen3.5 27B~~
~~Chat Default~~	~~https://models.mylab.th-luebeck.dev/v1~~	~~chat-default~~	~~GPT OSS 120B~~
~~Chat Large~~	~~https://models.mylab.th-luebeck.dev/v1~~	~~chat-large~~	~~GPT OSS 120B~~

Nutzung spezifischer Modelle

Die LLMs hinter diesen URLs können sich kurzfristig ändern oder - sofern kein Enddatum angegeben ist - aus der Nutzung gehen. Eine Garantie für eine langfrsitige Möglichkeit zur Nutzung geben wir hierfür nicht.Limits.

~~Bei~~Setze ~~der~~im ~~Verwendung des OpenAI Clients z.B. in Python muss~~OpenAI-Client die base_url auf den Modell-Proxy https://models.mylab.th-luebeck.dev/de/v1 ~~gesetzt~~und ~~werden.~~verwende einen Dummy-API-Key.

Hinweils GWDG-Rate-Limits >>>>>>>>>>>>>>>>>>TODO

Chat generische Aliasse

~~LLM~~Modellparameter ~~Model-Parameter~~Zielmodell ~~Deployment~~myLab THL | GWDG ~~OpenAI~~API ~~kompatibel~~Hinweise~~Prompt-FormatTotal~~ ~~TokensAnmerkungenBleibt~~ ~~min.~~ ~~bis~~ ~~[GPT~~chat-small ~~OSS 120B](https://huggingface.co/openai/gpt-oss-120b)gpt-oss-120bvLLM nightly build~~OK~~[OpenAI Harmony](https://cookbook.openai.com/articles/openai-harmony)131 072 Token~~-~~31.8.2026[Qwen3 VL 8B](https://huggingface.co/Qwen/Qwen3-VL-8B-Instruct)~~qwen3-vl-8b ~~vLLM~~THL ~~v0.16.0~~chat/completions OK~~[Qwen3](https://huggingface.co/Qwen/Qwen3-VL-8B-Instruct#using-%F0%9F%A4%97-transformers-to-chat)~~4040.960 ~~000~~Kontext, ~~Token~~max. 2 Bilder ~~31.8.2026~~chat-default gpt-oss-120b GWDG chat/completions, completions Standardalias; beide Chat-Endpunkte vorhanden ~~[Qwen3.5~~chat-medium ~~27B](https://huggingface.co/Qwen/Qwen3.5-27B-FP8)~~gpt-oss-120b GWDG chat/completions, completions Gleiche Backend-Zuordnung wie chat-default chat-large glm-4.7 GWDG chat/completions Größerer Chat-Alias chat-xlarge mistral-large-3-675b-instruct-2512 GWDG chat/completions Größter Chat-Alias in der GWDG-Gruppe

Chat-VL generische Aliasse

Modellparameter Zielmodell myLab THL | GWDG API Hinweise chat-vl-small qwen3-vl-8b THL chat/completions 40.960 Kontext, max. 2 Bilder chat-medium gemma4-31b GWDG chat/completions, completions Gleiche Backend-Zuordnung wie chat-default chat-vl-large qwen3.5-397b-a17b GWDG chat/completions Extern gehostet; Limits im Repo nicht dokumentiert chat-vl-xlarge mistral-large-3-675b-instruct-2512 GWDG chat/completions Extern gehostet; Limits im Repo nicht dokumentiert

Andere generische Aliasse

Modellparameter Zielmodell myLab THL | GWDG API Hinweise coder-small qwen3.6-27b ~~vLLM~~THL ~~v0.16.0~~chat/completions OK~~[Qwen3](https://huggingface.co/Qwen/Qwen3.5-27B-FP8#text-only-input)~~64131.072 ~~000~~Kontext, ~~Token~~max. 4 Bilder ~~31.8.2026~~coder-large glm-4.7 GWDG chat/completions Extern gehostet

Beta-Preview

Explizite

Die hier genannten Modelle befinden sich noch in einer Erprobungsphase und können jederzeit geändert oder abgeschalten werden. Wir bieten aber bereits vorab die Möglichkeit diese Varianten zu testen, damit Umstellungen beim EOL der regulären Modelle reibungslos verlaufen.

Modellnamen

~~LLM~~Modellname ~~Model-Parameter~~myLab THL | GWDG ~~Deployment~~API ~~OpenAI~~Hinweise ~~kompatibel~~ gpt-oss-120b GWDG chat/completions, completions Direktname; Kontext im Repo nicht explizit dokumentiert glm-4.7 GWDG chat/completions Direktname; extern gehostet qwen3.5-397b-a17b GWDG chat/completions Direktname; extern gehostet mistral-large-3-675b-instruct-2512 GWDG chat/completions Direktname; extern gehostet qwen3-vl-8b THL chat/completions 40.960 Kontext, max. 2 Bilder gemma4-31b THL chat/completions 131.072 Kontext, max. 4 Bilder gemma4-e2b THL chat/completions 131.072 Kontext, max. 4 Bilder qwen3.6-27b THL chat/completions 131.072 Kontext, max. 4 Bilder

Embeddings

Modellparameter ~~Total~~Zielmodell ~~Tokens~~myLab THL | GWDG ~~Anmerkung~~API ~~Bleibt~~Hinweise ~~min.~~ ~~bis~~ qwen3-embedding-4b qwen3-embedding-4b THL embeddings TEI-kompatibel; max-batch-tokens=65536, max-client-batch-size=64 ~~[Nanonets~~ ~~OCR2~~ ~~3B](https://huggingface.co/nanonets/Nanonets-OCR2-3B)nanonets-ocr2-3bvLLM v0.16.0~~OK~~128 000Video deaktiviert31.8.2026~~

Die ~~aufgeführten~~ Embedding-Modelle können ~~bspw. mit dem Python Modul~~ ~~text-generation~~ ~~oder auch mit LangChain unter Nutzung des Moduls~~ ~~langchain-community~~ ~~und dessen~~ ~~HuggingFace Anbindung~~ ~~genutzt werden.~~

Text Embedding Modelle

~~Wir wählen unsere Embedding Modelle aus dem~~ ~~MTEB Leaderboard~~ ~~aus. Kritierien sind:~~

~~Geringer Speicherbedarf~~ ~~TEI-Kompatibilität~~ ~~Möglichst großer Token Context~~ ~~Multilingualität~~ ~~Vergleichbare oder bessere Leistung wie die OpenAI Embeddings (text-embedding-ada-002, text-embedding-3-small)~~ ~~Möglichst wenig unterschiedliche Embedding Modelle zu betreiben (Präferenz von General Purpose Embeddings)~~

~~Embeddings werden mittels des~~ ~~Text Embeddings Inference (TEI)~~ ~~Interfaces von HuggingFace bereitgestellt.~~

~~Modell~~	~~Model-Parameter~~	~~TEI Ver~~	~~OpenAI~~	~~Embedding Dimension~~	~~Max Token Context~~	~~Anmerkungen~~
~~[Qwen3 4B](https://huggingface.co/Qwen/Qwen3-Embedding-4B)~~	~~qwen3-embedding-4b~~	~~1.9.2~~	Ja	~~bis zu 2560~~	~~32000~~	-

~~Die aufgeführten Modelle können bspw.~~ mit der ~~OpenAI~~ OpenAI-Bibliothek genutzt werden. Wichtig ist auch hier nur der Modell-Parameter; die Proxy-URL bleibt in dieser Wiki-Seite bewusst verborgen.

# Installation der Abhängigkeiten
pip install openai

import openai

# Prepare OpenAI client
client = openai.OpenAI(
    api_key="ignored"
    base_url="https://models.mylab.th-luebeck.dev/v1"
)

# Embed the query
embeddings = client.embeddings.create(input=query, model="bge-m3")

Tutorials

~~Wir bieten das folgende Tutorial an, wie unsere LLMs genutzt werden können.~~

~~Tutorial zur Nutzung~~ ~~(Text-to-Text, Text-to-Vector (Embedding), Text-to-Speech, Spech-to-Text, Text-to-Image, Image-to-Text)~~

~~Für das Tutorial wird ein~~ ~~JupyterHub Account~~ ~~benötigt.~~

Nutzung der OpenAI Completions API

~~Seit TGI Version 1.4 und TEI Version 1.0 ist es auch möglich unsere LLM-Modelle über das Standard~~ ~~openai~~ ~~Modul anzusprechen. Man muss dazu nur den Endpunkt angeben und einen "Dummy API-Key" angeben.~~

~~Wir verweisen auf die offzielle~~ ~~OpenAI Dokumentation~~ ~~zur Nutzung des~~ openai~~-Moduls. Das folgende Beispiel zeigt nur die Anbindung an unsere Endpunkte.~~

# File: test.py

from openai import OpenAI

client = OpenAI(
    base_url="https:<Modell-Proxy>//models.mylab.th-luebeck.dev/v1",
    api_key="ignored",
)

chat_completionresult = client.chat.completions.embeddings.create(
    model="llama-33-70b"qwen3-embedding-4b",
    messages=[
        {input="role": "system"Beispieltext",
"content": "You are a helpful assistant." },
        {"role": "user", "content": "What is deep learning?"}
    ],
    stream=True,
    max_tokens=1024
)

# iterate and print stream
for message in chat_completion:
    if not message.choices[0].finish_reason:
        print(message.choices[0].delta.content, end='')

Kurzhinweise

~~den~~

~~Streaming-Effekt~~chat-default zuund ~~sehen,~~chat-medium ~~muss~~zeigen auf dasselbe Zielmodell. chat-small ist unser Chat-VL-Alias für das ~~Skript~~kleinere imVision-Modell. ~~unbuffered Mode (also mit aktiviertem ˚-u˚ Schalter) ausgeführt werden, d.h.~~Nicht-LLM-Modelle wie ~~folgt:~~OCR,

Audio und Bildmodelle stehen auf der Seite pipAndere installModelle openai(Image pythonAudio -uetc).md.

~~test.py~~