Ist Phi4 wirklich besser als ChatGPT?

Selfhosted Phi4 beeindruckt

Michael Meister

Dec 27, 2024 • 3 min read

Vor kurzem hat Microsoft sein Phi4-Modell veröffentlicht und behauptet, es sei besser als ChatGPT. Eine ziemlich gewagte Aussage! Dass auf einem heimischen Rechner eine KI leistungsfähiger sein könnte als die bekannteste auf dem Markt – das weckt definitiv die Neugier. Ein Test muss her, um herauszufinden, ob diese Behauptung wirklich zutrifft.

Wo finde ich diese KI?

Wie die meisten Modelle ist auch Phi4 auf der Webseite von Ollama zu finden:

Entweder man installiert es über seine OpenWebui oder per Kommandozeile. Da ich ein bequemer Mensch bin, habe ich den Befehl ollama run phi4 schnell in die Console kopiert. Ab dann ist das Modell auch schon in OpenWebui zu finden.

Einige wichtige Punkte zu Phi-4:

Es ist ein 14-Milliarden-Parameter-Modell von Microsoft
Es übertrifft angeblich GPT-4, Llama 3.3 und Claude 3.5 in mathematischen Aufgaben.
Es zeigt beeindruckende Leistungen in verschiedenen Benchmarks, wie z.B. 80,4 im MATH-Benchmark.

Ein kurzer Test

KIs sind bekannt für ihre Fehler und Halluzinationen. Daher muss jeder für sich selbst entscheiden, welche Art von Fehlern er tolerieren kann. Aber um die beiden Kandidaten miteinander zu vergleichen, möchte ich hier eine kleine Frage an beide stellen:

Alice hat N Brüder und sie hat auch M Schwestern. Wie viele Schwestern hat Alice´s Bruder?

Ein Mensch würde dies schnell beantworten. Denn wenn Alice M Schwestern hat, dann hat jeder Bruder Alice und ihre M Schwestern als Schwestern. Die korrekte Antwort ist also M+1.

Schauen wir die Antwort von ChatGPT an:

Das ist ganz klar falsch. Aber wollen wir nicht voreilig sein, denn viele KIs versagen hier.

Die Antwort der lokalen KI, Phi4

Hier gebe ich die Frage über OpenWebui an Phi4:

Wer hätte das gedacht. Die lokale KI kann durchaus mithalten und beantwortet darüber hinaus die Frage richtig.

Was konnte Phi4 in meinen Tests besonders gut?

Ich habe Phi4 auf meinem Server natürlich noch weiter herausgefordert. Besonders gut abgeschnitten hat dieses Modell bei folgenden Aufgaben:

Programmierherausforderungen (Python)
Logisches Denken
Mathematische Problemlösung
Komplexe Entscheidungsfindung

Die großen Modelle im Internet sind deswegen nicht automatisch schlecht. Ich bin einfach nur begeistert von den Antworten, die meine privat gehostete KI liefert.

Was sind die entscheidenden Nachteile von ChatGPT?

Was mich am meisten stört, ist das kurze Context-Window. Immer, wenn die Frage etwas komplexer wird, oder man größeren Programmcode, Malware oder Netzwerk-Traffic analysieren lassen will, erhält man dort folgende Antwort:

Hat man genug Speicher (und Zeit 🫢), dann bekommt man entsprechende Antworten nur von der eigenen KI.

Fazit

Phi4 ist wirklich beeindruckend. Allerdings ist es wichtig, zuvor zu überlegen, welches Modell für die jeweilige Aufgabe am besten geeignet ist. Wenn ich aus meinen persönlichen Daten schnell relevante Informationen extrahieren und diese dann aufwendig verarbeiten möchte, kann es durchaus sinnvoll sein, verschiedene Modelle in meinem Arbeitsablauf – beispielsweise in n8n – zu kombinieren.

Hauptsache bleibt: Persönliche Daten verlassen niemals mein Netz!