Welches LLM ist das beste, wenn ich viel auf Deutsch arbeite?
Hierzulande kennt jeder nur ChatGPT.
Und nur wenige nutzen das Premium ChatGPT.
Das heißt, dass sie nicht die beste Leistung bekommen.
Denn es gibt ständig neue Modelle.
Um herauszufinden, welche Modelle wie gut für Deutsch sind, nutze ich hier LMSys.
Dort werden im Blindtest jeweils zwei Modelle verglichen und das von Tausenden von Userinnen.
Ich vergleiche die Preise für die Nutzung der Modelle via API-Schnittstelle.
Stand 24-07-16:
Google belegt die drei ersten Plätze.
Gemma 2 9B ist mit großem Abstand Preis-/Leistungs-Gewinnerin.
Name | Input (mio.) | Output (mio.) | Context (k) | Value | Preis/Leistung | Faktor Preis/Leistung |
---|---|---|---|---|---|---|
Google: Gemma 2 9B | 0.09 | 0.09 | 8 | 1180 | 26222.22 | 76,9 |
Google: Gemma 2 27B | 0.27 | 0.27 | 8 | 1215 | 9000 | 26,4 |
Google: Gemini Flash 1.5 | 0.25 | 0.75 | 2800 | 1215 | 6480 | 19,0 |
Anthropic: Claude 3 Haiku | 0.25 | 1.25 | 200 | 1168 | 5606.4 | 16,5 |
OpenAI: GPT-3.5 Turbo (older v0613) | 1.00 | 2.00 | 4 | 119 | 1678.50 | 4,9 |
Anthropic: Claude 3.5 Sonnet | 3.00 | 15.00 | 200 | 1260 | 504 | 1,5 |
OpenAI: GPT-4o (2024-05-13) | 5.00 | 15.00 | 128 | 1278 | 340.8 | 1 |
Hinweise:
Das aktuelle GPT3.5 ist nicht in LMSys, es gibt also keine Einschätzungen, wie gut es ist. Das verglichene ist älter (und teurer).
Quellen:
LMSys Deutsch, https://huggingface.co/spaces/lmsys/chatbot-arena-leaderboard, Stand: 24-07-16
Preise für LLMs via OpenRouter, via openrouter.martinbetz.eu