LLMs & Embedding Modelle
Large Language Modelle
Wir hosten die folgenden LLMs und Text Embedding Modelle für Lehre, Forschung und Transfer unter den unten stehenden Endpunkten.
LLMs werden mittels des Text Generation Inference (TGI) Interfaces von HuggingFace bzw. vLLM bereitgestellt. Ab TGI Version >1.4.0 sind alle Modelle, die ein entsprechendes Chat-Template in der jeweiligen tokenizer_config.json-Datei gesetzt haben, mit den OpenAI API Packages kompatibel (siehe hier). Wir haben diese Modelle in der Tabelle entsprechend ausgewiesen.
Unser ChatBot KIRA läuft bspw. auf Llama3 70B.
Nutzung vordefinierter URLs
Hinter diesen URLs liegen von uns ausgewählte LLMs. Diese können auch kurzfristig geändert werden. Alle LLMs sind mit der Chat-API von OpenAI kompatibel. Mehr Details zu den einzelnen Modellen finden sich in der Tabelle unten.
| Name | Endpunkt Base-URL | Model-Parameter | LLM |
|---|---|---|---|
| Chat Small | https://models.mylab.th-luebeck.dev/v1 | chat-small | Qwen3 8B |
| Chat Medium | https://models.mylab.th-luebeck.dev/v1 | chat-medium | Qwen3.5 27B |
| Chat Default | https://models.mylab.th-luebeck.dev/v1 | chat-default | GPT OSS 120B |
| Chat Large | https://models.mylab.th-luebeck.dev/v1 | chat-large | GPT OSS 120B |
Nutzung spezifischer Modelle
Die LLMs hinter diesen URLs können sich kurzfristig ändern oder - sofern kein Enddatum angegeben ist - aus der Nutzung gehen. Eine Garantie für eine langfrsitige Möglichkeit zur Nutzung geben wir hierfür nicht.
Bei der Verwendung des OpenAI Clients z.B. in Python muss die
base_urlaufhttps://models.mylab.th-luebeck.dev/v1gesetzt werden.
| LLM | Model-Parameter | Deployment | OpenAI kompatibel | Prompt-Format | Total Tokens | Anmerkungen | Bleibt min. bis |
|---|---|---|---|---|---|---|---|
| [GPT OSS 120B](https://huggingface.co/openai/gpt-oss-120b) | gpt-oss-120b | vLLM nightly build | OK | [OpenAI Harmony](https://cookbook.openai.com/articles/openai-harmony) | 131 072 Token | - | 31.8.2026 |
| [Qwen3 VL 8B](https://huggingface.co/Qwen/Qwen3-VL-8B-Instruct) | qwen3-vl-8b | vLLM v0.16.0 | OK | [Qwen3](https://huggingface.co/Qwen/Qwen3-VL-8B-Instruct#using-%F0%9F%A4%97-transformers-to-chat) | 40 000 Token | max. 2 Bilder | 31.8.2026 |
| [Qwen3.5 27B](https://huggingface.co/Qwen/Qwen3.5-27B-FP8) | qwen3.5-27b | vLLM v0.16.0 | OK | [Qwen3](https://huggingface.co/Qwen/Qwen3.5-27B-FP8#text-only-input) | 64 000 Token | max. 4 Bilder | 31.8.2026 |
Beta-Preview
Die hier genannten Modelle befinden sich noch in einer Erprobungsphase und können jederzeit geändert oder abgeschalten werden. Wir bieten aber bereits vorab die Möglichkeit diese Varianten zu testen, damit Umstellungen beim EOL der regulären Modelle reibungslos verlaufen.
| LLM | Model-Parameter | Deployment | OpenAI kompatibel | Total Tokens | Anmerkung | Bleibt min. bis |
|---|---|---|---|---|---|---|
| [Nanonets OCR2 3B](https://huggingface.co/nanonets/Nanonets-OCR2-3B) | nanonets-ocr2-3b | vLLM v0.16.0 | OK | 128 000 | Video deaktiviert | 31.8.2026 |
Die aufgeführten Modelle können bspw. mit dem Python Modul text-generation oder auch mit LangChain unter Nutzung des Moduls langchain-community und dessen HuggingFace Anbindung genutzt werden.
Text Embedding Modelle
Wir wählen unsere Embedding Modelle aus dem MTEB Leaderboard aus. Kritierien sind:
- Geringer Speicherbedarf
- TEI-Kompatibilität
- Möglichst großer Token Context
- Multilingualität
- Vergleichbare oder bessere Leistung wie die OpenAI Embeddings (text-embedding-ada-002, text-embedding-3-small)
- Möglichst wenig unterschiedliche Embedding Modelle zu betreiben (Präferenz von General Purpose Embeddings)
Embeddings werden mittels des Text Embeddings Inference (TEI) Interfaces von HuggingFace bereitgestellt.
| Modell | Model-Parameter | TEI Ver | OpenAI | Embedding Dimension | Max Token Context | Anmerkungen |
|---|---|---|---|---|---|---|
| [Qwen3 4B](https://huggingface.co/Qwen/Qwen3-Embedding-4B) | qwen3-embedding-4b | 1.9.2 | Ja | bis zu 2560 | 32000 | - |
Die aufgeführten Modelle können bspw. mit der OpenAI Bibliothek genutzt werden.
# Installation der Abhängigkeiten
pip install openai
import openai
# Prepare OpenAI client
client = openai.OpenAI(
api_key="ignored"
base_url="https://models.mylab.th-luebeck.dev/v1"
)
# Embed the query
embeddings = client.embeddings.create(input=query, model="bge-m3")
Tutorials
Wir bieten das folgende Tutorial an, wie unsere LLMs genutzt werden können.
- Tutorial zur Nutzung (Text-to-Text, Text-to-Vector (Embedding), Text-to-Speech, Spech-to-Text, Text-to-Image, Image-to-Text)
Für das Tutorial wird ein JupyterHub Account benötigt.
Nutzung der OpenAI Completions API
Seit TGI Version 1.4 und TEI Version 1.0 ist es auch möglich unsere LLM-Modelle über das Standard openai Modul anzusprechen. Man muss dazu nur den Endpunkt angeben und einen "Dummy API-Key" angeben.
Wir verweisen auf die offzielle OpenAI Dokumentation zur Nutzung des openai-Moduls. Das folgende Beispiel zeigt nur die Anbindung an unsere Endpunkte.
# File: test.py
from openai import OpenAI
client = OpenAI(
base_url="https://models.mylab.th-luebeck.dev/v1",
api_key="ignored"
)
chat_completion = client.chat.completions.create(
model="llama-33-70b",
messages=[
{"role": "system", "content": "You are a helpful assistant." },
{"role": "user", "content": "What is deep learning?"}
],
stream=True,
max_tokens=1024
)
# iterate and print stream
for message in chat_completion:
if not message.choices[0].finish_reason:
print(message.choices[0].delta.content, end='')
Um den Streaming-Effekt zu sehen, muss das Skript im unbuffered Mode (also mit aktiviertem ˚-u˚ Schalter) ausgeführt werden, d.h. wie folgt:
pip install openai
python -u test.py