Direkt zum Hauptinhalt

LLMs & Embedding Modelle

Large Language Modelle

Wir hosten die folgenden LLMs und Text Embedding Modelle für Lehre, Forschung und Transfer unter den unten stehenden Endpunkten.

LLMs werden mittels des Text Generation Inference (TGI) Interfaces von HuggingFace bzw. vLLM bereitgestellt. Ab TGI Version >1.4.0 sind alle Modelle, die ein entsprechendes Chat-Template in der jeweiligen tokenizer_config.json-Datei gesetzt haben, mit den OpenAI API Packages kompatibel (siehe hier). Wir haben diese Modelle in der Tabelle entsprechend ausgewiesen.

Unser ChatBot KIRA läuft bspw. auf Llama3 70B.

Nutzung vordefinierter URLs

Hinter diesen URLs liegen von uns ausgewählte LLMs. Diese können auch kurzfristig geändert werden. Alle LLMs sind mit der Chat-API von OpenAI kompatibel. Mehr Details zu den einzelnen Modellen finden sich in der Tabelle unten.

NameEndpunkt Base-URLModel-ParameterLLM
Chat Smallhttps://models.mylab.th-luebeck.dev/v1chat-smallQwen3 8B
Chat Mediumhttps://models.mylab.th-luebeck.dev/v1chat-mediumQwen3.5 27B
Chat Defaulthttps://models.mylab.th-luebeck.dev/v1chat-defaultGPT OSS 120B
Chat Largehttps://models.mylab.th-luebeck.dev/v1chat-largeGPT OSS 120B

Nutzung spezifischer Modelle

Die LLMs hinter diesen URLs können sich kurzfristig ändern oder - sofern kein Enddatum angegeben ist - aus der Nutzung gehen. Eine Garantie für eine langfrsitige Möglichkeit zur Nutzung geben wir hierfür nicht.

Bei der Verwendung des OpenAI Clients z.B. in Python muss die base_url auf https://models.mylab.th-luebeck.dev/v1 gesetzt werden.

LLMModel-ParameterDeploymentOpenAI kompatibelPrompt-FormatTotal TokensAnmerkungenBleibt min. bis
[GPT OSS 120B](https://huggingface.co/openai/gpt-oss-120b)gpt-oss-120bvLLM nightly buildOK[OpenAI Harmony](https://cookbook.openai.com/articles/openai-harmony)131 072 Token-31.8.2026
[Qwen3 VL 8B](https://huggingface.co/Qwen/Qwen3-VL-8B-Instruct)qwen3-vl-8bvLLM v0.16.0OK[Qwen3](https://huggingface.co/Qwen/Qwen3-VL-8B-Instruct#using-%F0%9F%A4%97-transformers-to-chat)40 000 Tokenmax. 2 Bilder31.8.2026
[Qwen3.5 27B](https://huggingface.co/Qwen/Qwen3.5-27B-FP8)qwen3.5-27bvLLM v0.16.0OK[Qwen3](https://huggingface.co/Qwen/Qwen3.5-27B-FP8#text-only-input)64 000 Tokenmax. 4 Bilder31.8.2026

Beta-Preview

Die hier genannten Modelle befinden sich noch in einer Erprobungsphase und können jederzeit geändert oder abgeschalten werden. Wir bieten aber bereits vorab die Möglichkeit diese Varianten zu testen, damit Umstellungen beim EOL der regulären Modelle reibungslos verlaufen.

LLMModel-ParameterDeploymentOpenAI kompatibelTotal TokensAnmerkungBleibt min. bis
[Nanonets OCR2 3B](https://huggingface.co/nanonets/Nanonets-OCR2-3B)nanonets-ocr2-3bvLLM v0.16.0OK128 000Video deaktiviert31.8.2026

Die aufgeführten Modelle können bspw. mit dem Python Modul text-generation oder auch mit LangChain unter Nutzung des Moduls langchain-community und dessen HuggingFace Anbindung genutzt werden.

Text Embedding Modelle

Wir wählen unsere Embedding Modelle aus dem MTEB Leaderboard aus. Kritierien sind:

  • Geringer Speicherbedarf
  • TEI-Kompatibilität
  • Möglichst großer Token Context
  • Multilingualität
  • Vergleichbare oder bessere Leistung wie die OpenAI Embeddings (text-embedding-ada-002, text-embedding-3-small)
  • Möglichst wenig unterschiedliche Embedding Modelle zu betreiben (Präferenz von General Purpose Embeddings)

Embeddings werden mittels des Text Embeddings Inference (TEI) Interfaces von HuggingFace bereitgestellt.

ModellModel-ParameterTEI VerOpenAIEmbedding DimensionMax Token ContextAnmerkungen
[Qwen3 4B](https://huggingface.co/Qwen/Qwen3-Embedding-4B)qwen3-embedding-4b1.9.2Jabis zu 256032000-

Die aufgeführten Modelle können bspw. mit der OpenAI Bibliothek genutzt werden.

# Installation der Abhängigkeiten
pip install openai

import openai

# Prepare OpenAI client
client = openai.OpenAI(
    api_key="ignored"
    base_url="https://models.mylab.th-luebeck.dev/v1"
)

# Embed the query
embeddings = client.embeddings.create(input=query, model="bge-m3")

Tutorials

Wir bieten das folgende Tutorial an, wie unsere LLMs genutzt werden können.

  • Tutorial zur Nutzung (Text-to-Text, Text-to-Vector (Embedding), Text-to-Speech, Spech-to-Text, Text-to-Image, Image-to-Text)

Für das Tutorial wird ein JupyterHub Account benötigt.

Nutzung der OpenAI Completions API

Seit TGI Version 1.4 und TEI Version 1.0 ist es auch möglich unsere LLM-Modelle über das Standard openai Modul anzusprechen. Man muss dazu nur den Endpunkt angeben und einen "Dummy API-Key" angeben.

Wir verweisen auf die offzielle OpenAI Dokumentation zur Nutzung des openai-Moduls. Das folgende Beispiel zeigt nur die Anbindung an unsere Endpunkte.

# File: test.py

from openai import OpenAI

client = OpenAI(
    base_url="https://models.mylab.th-luebeck.dev/v1",
    api_key="ignored"
)

chat_completion = client.chat.completions.create(
    model="llama-33-70b",
    messages=[
        {"role": "system", "content": "You are a helpful assistant." },
        {"role": "user", "content": "What is deep learning?"}
    ],
    stream=True,
    max_tokens=1024
)

# iterate and print stream
for message in chat_completion:
    if not message.choices[0].finish_reason:
        print(message.choices[0].delta.content, end='')

Um den Streaming-Effekt zu sehen, muss das Skript im unbuffered Mode (also mit aktiviertem ˚-u˚ Schalter) ausgeführt werden, d.h. wie folgt:

pip install openai
python -u test.py