KI Deutsch

Preis-/Leistung LLMs auf Deutsch

Welches LLM ist das beste, wenn ich viel auf Deutsch arbeite?

Hierzulande kennt jeder nur ChatGPT. Und nur wenige nutzen das Premium ChatGPT.
Das heißt, dass sie nicht die beste Leistung bekommen.
Denn es gibt ständig neue Modelle.

Um herauszufinden, welche Modelle wie gut für Deutsch sind, nutze ich hier LMSys.
Dort werden im Blindtest jeweils zwei Modelle verglichen und das von Tausenden von Userinnen.
Ich vergleiche die Preise für die Nutzung der Modelle via API-Schnittstelle.

Stand 24-07-16:
Google belegt die drei ersten Plätze.
Gemma 2 9B ist mit großem Abstand Preis-/Leistungs-Gewinnerin.

Name Input (mio.) Output (mio.) Context (k) Value Preis/Leistung Faktor Preis/Leistung
Google: Gemma 2 9B 0.09 0.09 8 1180 26222.22 76,9
Google: Gemma 2 27B 0.27 0.27 8 1215 9000 26,4
Google: Gemini Flash 1.5 0.25 0.75 2800 1215 6480 19,0
Anthropic: Claude 3 Haiku 0.25 1.25 200 1168 5606.4 16,5
OpenAI: GPT-3.5 Turbo (older v0613) 1.00 2.00 4 119 1678.50 4,9
Anthropic: Claude 3.5 Sonnet 3.00 15.00 200 1260 504 1,5
OpenAI: GPT-4o (2024-05-13) 5.00 15.00 128 1278 340.8 1

Hinweise:
Das aktuelle GPT3.5 ist nicht in LMSys, es gibt also keine Einschätzungen, wie gut es ist. Das verglichene ist älter (und teurer).

Quellen:
LMSys Deutsch, https://huggingface.co/spaces/lmsys/chatbot-arena-leaderboard, Stand: 24-07-16
Preise für LLMs via OpenRouter, via openrouter.martinbetz.eu

Thoughts? Leave a comment