LLMs

Large Language Modelle

Wir hosten die folgenden LLMs und Text Embedding Modelle für Lehre, Forschung und Transfer unter den unten stehenden Endpunkten.

LLMs werden mittels des Text Generation Inference (TGI) Interfaces von HuggingFace bzw. vLLM bereitgestellt. Ab TGI Version >1.4.0 sind alle Modelle, die ein entsprechendes Chat-Template in der jeweiligen tokenizer_config.json-Datei gesetzt haben, mit den OpenAI API Packages kompatibel (siehe hier). Wir haben diese Modelle in der Tabelle entsprechend ausgewiesen.

Unser ChatBot KIRA läuft bspw. auf Llama3 70B.

Nutzung vordefinierter URLs

Hinter diesen URLs liegen von uns ausgewählte LLMs. Diese können auch kurzfristig geändert werden. Alle LLMs sind mit der Chat-API von OpenAI kompatibel. Mehr Details zu den einzelnen Modellen finden sich in der Tabelle unten.

Name Endpunkt Base-URL Model-Parameter LLM Chat Small https://models.mylab.th-luebeck.dev/v1 chat-small Qwen3 8B Chat Medium https://models.mylab.th-luebeck.dev/v1 chat-medium Qwen3.5 27B Chat Default https://models.mylab.th-luebeck.dev/v1 chat-default GPT OSS 120B Chat Large https://models.mylab.th-luebeck.dev/v1 chat-large GPT OSS 120B

Nutzung spezifischer Modelle

Die LLMs hinter diesen URLs können sich kurzfristig ändern oder - sofern kein Enddatum angegeben ist - aus der Nutzung gehen. Eine Garantie für eine langfrsitige Möglichkeit zur Nutzung geben wir hierfür nicht.

Bei der Verwendung des OpenAI Clients z.B. in Python muss die base_url auf https://models.mylab.th-luebeck.dev/v1 gesetzt werden.

LLM Model-Parameter Deployment OpenAI kompatibel Prompt-Format Total Tokens Anmerkungen Bleibt min. bis [GPT OSS ~~120B~~120B](https://huggingface.co/openai/gpt-oss-120b) gpt-oss-120b vLLM nightly build OK [OpenAI ~~Harmony~~Harmony](https://cookbook.openai.com/articles/openai-harmony) 131 072 Token - 31.8.2026 [Qwen3 VL 8B8B](https://huggingface.co/Qwen/Qwen3-VL-8B-Instruct) qwen3-vl-8b vLLM v0.16.0 OK ~~Qwen3~~[Qwen3](https://huggingface.co/Qwen/Qwen3-VL-8B-Instruct#using-%F0%9F%A4%97-transformers-to-chat) 40 000 Token max. 2 Bilder 31.8.2026 [Qwen3.5 ~~27B~~27B](https://huggingface.co/Qwen/Qwen3.5-27B-FP8) qwen3.5-27b vLLM v0.16.0 OK ~~Qwen3~~[Qwen3](https://huggingface.co/Qwen/Qwen3.5-27B-FP8#text-only-input) 64 000 Token max. 4 Bilder 31.8.2026

Beta-Preview

Die hier genannten Modelle befinden sich noch in einer Erprobungsphase und können jederzeit geändert oder abgeschalten werden. Wir bieten aber bereits vorab die Möglichkeit diese Varianten zu testen, damit Umstellungen beim EOL der regulären Modelle reibungslos verlaufen.

LLM Model-Parameter Deployment OpenAI kompatibel Total Tokens Anmerkung Bleibt min. bis [Nanonets OCR2 3B3B](https://huggingface.co/nanonets/Nanonets-OCR2-3B) nanonets-ocr2-3b vLLM v0.16.0 OK 128 000 Video deaktiviert 31.8.2026

Die aufgeführten Modelle können bspw. mit dem Python Modul text-generation oder auch mit LangChain unter Nutzung des Moduls langchain-community und dessen HuggingFace Anbindung genutzt werden.

Text Embedding Modelle

Wir wählen unsere Embedding Modelle aus dem MTEB Leaderboard aus. Kritierien sind:

Geringer Speicherbedarf
TEI-Kompatibilität
Möglichst großer Token Context
Multilingualität
Vergleichbare oder bessere Leistung wie die OpenAI Embeddings (text-embedding-ada-002, text-embedding-3-small)
Möglichst wenig unterschiedliche Embedding Modelle zu betreiben (Präferenz von General Purpose Embeddings)

Embeddings werden mittels des Text Embeddings Inference (TEI) Interfaces von HuggingFace bereitgestellt.

Modell Model-Parameter TEI Ver OpenAI Embedding Dimension Max Token Context Anmerkungen [Qwen3 4B4B](https://huggingface.co/Qwen/Qwen3-Embedding-4B) qwen3-embedding-4b 1.9.2 Ja bis zu 2560 32000 -

Die aufgeführten Modelle können bspw. mit der OpenAI Bibliothek genutzt werden.

# Installation der Abhängigkeiten
pip install openai

import openai

# Prepare OpenAI client
client = openai.OpenAI(
    api_key="ignored"
    base_url="https://models.mylab.th-luebeck.dev/v1"
)

# Embed the query
embeddings = client.embeddings.create(input=query, model="bge-m3")

Tutorials

Wir bieten das folgende Tutorial an, wie unsere LLMs genutzt werden können.

Tutorial zur Nutzung (Text-to-Text, Text-to-Vector (Embedding), Text-to-Speech, Spech-to-Text, Text-to-Image, Image-to-Text)

Für das Tutorial wird ein JupyterHub Account benötigt.

Nutzung der OpenAI Completions API

Seit TGI Version 1.4 und TEI Version 1.0 ist es auch möglich unsere LLM-Modelle über das Standard openai Modul anzusprechen. Man muss dazu nur den Endpunkt angeben und einen "Dummy API-Key" angeben.

Wir verweisen auf die offzielle OpenAI Dokumentation zur Nutzung des openai-Moduls. Das folgende Beispiel zeigt nur die Anbindung an unsere Endpunkte.

# File: test.py

from openai import OpenAI

client = OpenAI(
    base_url="https://models.mylab.th-luebeck.dev/v1",
    api_key="ignored"
)

chat_completion = client.chat.completions.create(
    model="llama-33-70b",
    messages=[
        {"role": "system", "content": "You are a helpful assistant." },
        {"role": "user", "content": "What is deep learning?"}
    ],
    stream=True,
    max_tokens=1024
)

# iterate and print stream
for message in chat_completion:
    if not message.choices[0].finish_reason:
        print(message.choices[0].delta.content, end='')

Um den Streaming-Effekt zu sehen, muss das Skript im unbuffered Mode (also mit aktiviertem ˚-u˚ Schalter) ausgeführt werden, d.h. wie folgt:

pip install openai
python -u test.py