LLMs & Embedding Modelle
Large Language Modelle und Embeddings
Wir hostenstellen eine OpenAI-kompatible Modelloberfläche bereit. Auf dieser Seite stehen bewusst nur die folgendenInformationen, LLMsdie Nutzer direkt brauchen: der Model-Parameter für den Client, das tatsächlich dahinterliegende Zielmodell, der Host-Typ myLab THL | GWDG und Text Embedding Modelle für Lehre, Forschung und Transfer unter den unten stehenden Endpunkten.
LLMs werden mittels des Text Generation Inference (TGI) Interfaces von HuggingFace bzw. vLLM bereitgestellt. Ab TGI Version >1.4.0 sind alle Modelle, die einwichtigsten entsprechendes Chat-Template in der jeweiligen tokenizer_config.json-Datei gesetzt haben, mit den OpenAI API Packages kompatibel (siehe hier). Wir haben diese Modelle in der Tabelle entsprechend ausgewiesen.
Unser ChatBot KIRA läuft bspw. auf Llama3 70B.
Nutzung vordefinierter URLs
Hinter diesen URLs liegen von uns ausgewählte LLMs. Diese können auch kurzfristig geändert werden. Alle LLMs sind mit der Chat-API von OpenAI kompatibel. Mehr Details zu den einzelnen Modellen finden sich in der Tabelle unten.
Nutzung spezifischer Modelle
Die LLMs hinter diesen URLs können sich kurzfristig ändern oder - sofern kein Enddatum angegeben ist - aus der Nutzung gehen. Eine Garantie für eine langfrsitige Möglichkeit zur Nutzung geben wir hierfür nicht.Limits.
BeiSetzederimVerwendung des OpenAI Clients z.B. in Python mussOpenAI-Client diebase_urlauf den Modell-Proxyhttps://models.mylab.th-luebeck.dev/de/v1gesetztundwerden.verwende einen Dummy-API-Key.
Hinweils GWDG-Rate-Limits >>>>>>>>>>>>>>>>>>TODO
Chat generische Aliasse
chat-small
qwen3-vl-8b
chat/completions
chat-default
gpt-oss-120b
GWDG
chat/completions, completions
Standardalias; beide Chat-Endpunkte vorhanden
chat-medium
gpt-oss-120b
GWDG
chat/completions, completions
Gleiche Backend-Zuordnung wie chat-default
chat-large
glm-4.7
GWDG
chat/completions
Größerer Chat-Alias
chat-xlarge
mistral-large-3-675b-instruct-2512
GWDG
chat/completions
Größter Chat-Alias in der GWDG-Gruppe
Chat-VL generische Aliasse
chat-vl-small
qwen3-vl-8b
THL
chat/completions
40.960 Kontext, max. 2 Bilder
chat-medium
gemma4-31b
GWDG
chat/completions, completions
Gleiche Backend-Zuordnung wie chat-default
chat-vl-large
qwen3.5-397b-a17b
GWDG
chat/completions
Extern gehostet; Limits im Repo nicht dokumentiert
chat-vl-xlarge
mistral-large-3-675b-instruct-2512
GWDG
chat/completions
Extern gehostet; Limits im Repo nicht dokumentiert
Andere generische Aliasse
coder-small
qwen3.6-27b
chat/completions
coder-large
glm-4.7
GWDG
chat/completions
Extern gehostet
Beta-Preview
Explizite
Die hier genannten Modelle befinden sich noch in einer Erprobungsphase und können jederzeit geändert oder abgeschalten werden. Wir bieten aber bereits vorab die Möglichkeit diese Varianten zu testen, damit Umstellungen beim EOL der regulären Modelle reibungslos verlaufen.
gpt-oss-120b
GWDG
chat/completions, completions
Direktname; Kontext im Repo nicht explizit dokumentiert
glm-4.7
GWDG
chat/completions
Direktname; extern gehostet
qwen3.5-397b-a17b
GWDG
chat/completions
Direktname; extern gehostet
mistral-large-3-675b-instruct-2512
GWDG
chat/completions
Direktname; extern gehostet
qwen3-vl-8b
THL
chat/completions
40.960 Kontext, max. 2 Bilder
gemma4-31b
THL
chat/completions
131.072 Kontext, max. 4 Bilder
gemma4-e2b
THL
chat/completions
131.072 Kontext, max. 4 Bilder
qwen3.6-27b
THL
chat/completions
131.072 Kontext, max. 4 Bilder
Embeddings
qwen3-embedding-4b
qwen3-embedding-4b
THL
embeddings
TEI-kompatibel; max-batch-tokens=65536, max-client-batch-size=64
Die aufgeführten Embedding-Modelle können bspw. mit dem Python Modul text-generation oder auch mit LangChain unter Nutzung des Moduls langchain-community und dessen HuggingFace Anbindung genutzt werden.
Text Embedding Modelle
Wir wählen unsere Embedding Modelle aus dem MTEB Leaderboard aus. Kritierien sind:
Embeddings werden mittels des Text Embeddings Inference (TEI) Interfaces von HuggingFace bereitgestellt.
Die aufgeführten Modelle können bspw. mit der OpenAI OpenAI-Bibliothek genutzt werden. Wichtig ist auch hier nur der Modell-Parameter; die Proxy-URL bleibt in dieser Wiki-Seite bewusst verborgen.
# Installation der Abhängigkeiten
pip install openai
import openai
# Prepare OpenAI client
client = openai.OpenAI(
api_key="ignored"
base_url="https://models.mylab.th-luebeck.dev/v1"
)
# Embed the query
embeddings = client.embeddings.create(input=query, model="bge-m3")
Tutorials
Wir bieten das folgende Tutorial an, wie unsere LLMs genutzt werden können.
Für das Tutorial wird ein JupyterHub Account benötigt.
Nutzung der OpenAI Completions API
Seit TGI Version 1.4 und TEI Version 1.0 ist es auch möglich unsere LLM-Modelle über das Standard openai Modul anzusprechen. Man muss dazu nur den Endpunkt angeben und einen "Dummy API-Key" angeben.
Wir verweisen auf die offzielle OpenAI Dokumentation zur Nutzung des openai-Moduls. Das folgende Beispiel zeigt nur die Anbindung an unsere Endpunkte.
# File: test.py
from openai import OpenAI
client = OpenAI(
base_url="https:<Modell-Proxy>//models.mylab.th-luebeck.dev/v1",
api_key="ignored",
)
chat_completionresult = client.chat.completions.embeddings.create(
model="llama-33-70b"qwen3-embedding-4b",
messages=[
{input="role": "system"Beispieltext",
"content": "You are a helpful assistant." },
{"role": "user", "content": "What is deep learning?"}
],
stream=True,
max_tokens=1024
)
# iterate and print stream
for message in chat_completion:
if not message.choices[0].finish_reason:
print(message.choices[0].delta.content, end='')
Um
Kurzhinweise
chat-default chat-medium chat-small ist unser Chat-VL-Alias für das Audio und Bildmodelle stehen auf der Seite pipAndere installModelle openai(Image pythonAudio -uetc).md.