Von wegen «zwei, drei Jahre vorn»: Amerikanische KI-Unternehmen wähnten sich ohne Alternative. Sie setzten uff Grösse statt Grips. Nun zeigt Deepseek: Es geht im gleichen Sinne differenzierend.
Wenn man mit Deepseek chattet, leitet welcher Chatbot jede Antragstellung an eine kleine Quantität von «Spezialisten-Gehirnen». Dies reduziert den Rechen- und Energieaufwand.
In welcher Tech-Welt reden im Moment nicht mehr da von Deepseek, einer solange bis dato unbekannten Firma aus Reich der Mitte, die die Dominanz von amerikanischen KI-Firmen infrage stellt. Wie ex nihilo hat Deepseek ein KI-Schema namens R1 entwickelt, dasjenige es mit dem Topmodell vom Chat-GPT-Hersteller Open AI protokollieren kann. Und nun weitestgehend nichts kostet, wenn man es in welcher chinesischen Cloud nutzt.
Die neue chinesische KI ist zudem quelloffen (Open Source). Dies heisst, jeder kann dasjenige Schema gratis herunterladen, beliebig verbiegen und uff eigenen Computern laufen lassen – irgendetwas, welches in der Tat technisches Wissen und genügende Computerressourcen voraussetzt.
Davon gibt es nur im Silicon Valley, dem Mekka welcher Tech-Welt, genügend. Beim Facebook-Konzern Meta zum Vorbild sitzen die Ingenieure seitdem Tagen in «war rooms» und versuchen, dasjenige Erfolgsrezept welcher chinesischen KI zu entziffern und selbst zu kopieren. Die Rollenverteilung zwischen Reich der Mitte und den USA sah schon einmal differenzierend aus.
Allerdings völlig ex nihilo ist Deepseek natürlich nicht hervorgegangen. Die Firma, die vor einem Jahr in Online-Foren noch wie «akademisches Forschungskollektiv» verniedlicht wurde, hat tief unbemerkt an welcher Entthronung von Open AI gearbeitet.
Welcher Underdog
Herkunft 2024 ist Open AI im KI-Rennen die unangefochtene Nummer eins. Mit seinem neuesten Schema, GPT-4, kann man nicht nur chatten, sondern im gleichen Sinne Sprachen lernen und programmieren. Die KI versteht neben Text im gleichen Sinne Bilder. Sie kann sogar Witze verdeutlichen.
Deepseek ist zu diesem Zeitpunkt selbst in welcher chinesischen KI-Szene noch ein Underdog, überschattet von grösseren, besser finanzierten Firmen wie Alibaba, Baidu und 01.AI, die dem kommunistischen Staat im gleichen Sinne näher stillstehen.
«Deepseek kannte man von Konferenzen, sie präsentierten interessante Forschungsarbeiten, nur ihre Modelle waren sehr kurz», sagt welcher KI-Forscher Jonas Geiping vom Max-Planck-Institut zum Besten von intelligente Systeme. Kaum Leckermaul habe früher gedacht, Deepseek könnte zur Gefahr zum Besten von Open AI werden.
Anstatt geschliffene Produkte zum Besten von den Massenmarkt zu prosperieren, baut Deepseek zuerst schlanke, spezialisierte Modelle, die sich sehr gut in Nischen einsetzen lassen. Nebenbei erfinden die Chinesen immer wieder nützliche Tricks, um ihren noch kleinen Sprachmodellen dasjenige «logische Denken» effizient beizubringen.
Im Januar 2024 bringt Deepseek eines dieser kleinen, stark spezialisierten Modelle hervor. Sie nennen es Programmierer, und es ist kein gewöhnlicher Chatbot, sondern praktisch dasjenige digitale Pendant eines schüchternen Computer-Nerds: nicht speziell redegewandt, dazu nur stark im Programmieren. Programmierer wird nur zu 13 von Hundert durch dasjenige «Vorlesung halten» von Texten in natürlichen Sprachen trainiert. Volle 87 von Hundert seiner «Lehre» Leben darin, Computerprogramme zu Vorlesung halten.
In Programmiertests schlägt Programmierer nicht mehr da KI-Modelle, die zu diesem Zeitpunkt quelloffen, demgemäß ohne Beschränkung verfügbar sind – darunter im gleichen Sinne die zum Teil grösseren Modelle von Meta. Programmierer kann im gleichen Sinne weitestgehend so gut programmieren wie die Spitzenprodukte von Open AI. Es beherrscht 87 Programmiersprachen und spricht nebenbei im gleichen Sinne ein kleinster Teil englische Sprache und Chinesisch.
Von Programmierer zu Math
Qua Nächstes bringt Deepseek im Februar 2024 eine uff Mathematik getrimmte KI namens Math hervor. Qua Koordinatenursprung dazu dient nicht etwa eine generalistische Sprach-KI, sondern dasjenige schon spezialisierte Programmierer-Schema. Es stellt sich hervor, dass dies Math hilft, schneller zu lernen.
Beim Trainieren von Math geht Deepseek homolog vor wie zusammen mit Programmierer. Es engstirnig die Lern-Krankenkost seines KI-Modells streng uff Webseiten mit gesichertem mathematischem Wissen. Und dasjenige zahlt sich aus.
Wieder einmal schlägt Deepseek mit Math die Open-Source-Konkurrenten. Und wieder einmal verstellen die Chinesen mit ihrer kleinen KI den Spitzenmodellen – GPT-4 von Open AI und Gemini Ultra von Google – gefährlich nah.
Qua Deepseek Programmierer und Math präsentiert, ist die Welt mit anderen KI-News beschäftigt. Anthropic, ein von ehemaligen Open-AI-Mitarbeitenden gegründetes Startup, hat mit einem neuen Schema namens Claude 3 die Superiorität von GPT-4 beendet. Open AI zeigt seinerseits eine Vorschau seines KI-basierten Videogenerators Sora, welcher aus einer Textanweisung einminütige, fotorealistische Videos generiert. Im Hintergrund laufen schon Gespräche mit Hollywood. Und welcher Nvidia-Geschäftsführer Jensen Huang meldet, seine Firma werde KI zum Besten von humanoide Roboter prosperieren.
Vor dem Hintergrund solcher visionären Pläne Vorlesung halten wohl nur wenige dasjenige Forschungspapier zu Math, dasjenige Deepseek im vierter Monat des Jahres 2024 veröffentlicht. Darin beschreibt die Firma vereinen Trick, welcher entscheidend sein wird, um dasjenige zurzeit bewunderte R1-Schema effizient zu trainieren.
Welcher autodidaktische Mathematiker
Deepseek trainiert Math zum grossen Teil mithilfe des sogenannten bestärkenden Lernens – einer Technologie, mit welcher Google Deep Mind 2017 die KI-Systeme Alpha Zero und Alpha Go entwickelt hat, die Spiele wie Schachspiel und Go besser wie die besten Menschen spielen.
Beim bestärkenden Lernen lernt eine KI ganz ohne menschliches Zutun: Sie bringt sich zum Vorbild dasjenige Schachspielen zusammen mit, während sie Abertausende Male gegen sich selbst oder eine andere KI spielt. Ein «Lehrer», welcher die Spielregeln oder Strategien erklärt, ist nicht nötig. Entsprechend lernt Math selbständig, während es viele Mathematikaufgaben löst, ganz ohne Hilfe eines Lehrers. Math gleicht dem Studenten, welcher die Vorlesungen schwänzt und tunlichst in welcher Bibliothek büffelt.
Dass es Deepseek gelingt, Math durch bestärkendes Lernen so triumphierend zu trainieren, überrascht viele in welcher Fachwelt. «Im Nachhinein sieht es logisch aus, nur früher hätte dasjenige niemand so getan», sagt Jonas Geiping.
Experten sind sich früher nämlich einig, dass bestärkendes Lernen zum Besten von dasjenige Training von Sprach-KI zu ineffizient sei. Welcher Grund dazu: Die Technologie basiert just uff Versuch und Irrtum. «Es sind sehr viele Versuche nötig, solange bis die KI uff die richtige Erwiderung kommt», sagt Florian Tramèr, Professor zum Besten von Informatik an welcher ETH Zürich. Für Sprachmodellen, so die Paradigma, ufert welcher Rechenaufwand zum Besten von bestärkendes Lernen aus.
Wer braucht schon diesen Kritiker?
Deepseek widerlegt selbige These, während es laut Tramèr «vereinen raffinierten Trick verwendet, welcher sowohl Rechenaufwand wie im gleichen Sinne Speicherplatz einspart».
In welcher Standardmethode des bestärkenden Lernens braucht es neben welcher KI, die man trainieren will, eine zusätzliche KI, die Fachleute «den Kritiker» nennen. Jene Kritiker-KI ist dazu da, die Handlungen des lernenden Modells zu schätzen. Beim Mathe-Lernen löst die lernende KI selbständig eine Lektion und lässt die Störungsbehebung von welcher Kritiker-KI «benoten».
Mit solchem Feedback bestärkt die Kritiker-KI die lernende KI, wenn selbige richtig handelt. Dies ermöglicht dasjenige Lernen. Die Kritiker-KI muss nur im gleichen Sinne selbst trainiert werden. Und dasjenige bedeutet wieder zusätzlichen Rechenaufwand.
Deepseek beschliesst insofern, beim Trainieren von Math uff die Kritiker-KI zu verzichten. Anstatt jede einzelne Störungsbehebung von Math durch vereinen Kritiker schätzen zu lassen, lässt Deepseek seine Mathe-KI mehrere Lösungen zu jeder Lektion generieren. Dann genügt es, selbige Lösungen untereinander zu vergleichen und die beste auszuwählen – eine Bewertungsmethode, die laut Tramèr weniger Rechenaufwand erfordert. Welcher «Student» Math kann nun demgemäß nicht nur die Vorlesungen, sondern im gleichen Sinne die Prüfungen schwänzen.
Welcher unscheinbare Riese
Im Frühling 2024 kann Deepseek demgemäß schon einer relativ kleinen Sprach-KI dasjenige logische Denken effizient einbläuen, um in Programmieren und Mathematik zu glänzen. Dies «akademische Forschungskollektiv» aus Reich der Mitte bleibt nur ausserhalb von Fachkreisen unbekannt.
Im Westen jedenfalls hat niemand aufgehorcht. Herkunft Mai sagt welcher Ex-Google-Chef und KI-Investor Eric Schmidt in einem Interview mit Bloomberg, Vereinigte Staaten sei Reich der Mitte zusammen mit KI vermutlich zwei solange bis drei Jahre vorn.
Im Monat der Sommersonnenwende bringt Deepseek die zweite Version von Programmierer hervor, die nun in Tests im gleichen Sinne dasjenige beste Schema von Open AI, GPT-4 Turbo, schlägt. Programmierer V2 erregt schon Betrachtung. Dies Online-Magazin «Techzine» titelt: «Chinesisches Open-Source-Schema fordert Vereinigte Staaten hervor».
Finale Juli berichtet die «New York Times» unter welcher Kopfzeile «Reich der Mitte schliesst die KI-Lücke zu den USA» weiterführend die jüngsten KI-Apps chinesischer Firmen. Deepseek bleibt unerwähnt.
Synchron steigt Elon Musk mit seinem KI-Startup XAI ins Rennen. Finale Juli baut die Firma den weltgrössten KI-Supercomputer namens Colossus mit 100 000 Nvidia-Kartoffelchips. Im zehnter Monat des Jahres enthüllt Musk seine Pläne, den Colossus uff 200 000 Kartoffelchips auszubauen. Und im zwölfter Monat des Jahres lautet dasjenige Ziel eine Million Nvidia-Kartoffelchips.
Die Ami sind immer noch überzeugt, dass immer grössere Rechenzentren den Schlüssel zum Besten von weitere KI-Fortschritte vertreten. Dies trübt notfalls ihren Blick zum Besten von die heranschleichende Gefahr aus Fernost. Die Chinesen, durch die US-Exportbeschränkungen limitiert, nach sich ziehen gelernt, aus welcher Not eine Tugend zu zeugen. Sie werden immer erfinderischer.
Dies Selbstverständnis welcher USA wie führende KI-Nation wird regelmässig von Experten bekräftigt. Noch Finale November befindet eine Studie welcher Stanford University, Vereinigte Staaten führe im KI-Rennen noch mit Distanz vor Reich der Mitte. Vereinen Tag vor welcher Veröffentlichung welcher Stanford-Studie präsentiert Deepseek eine Frühversion des Durchbruchsmodells R1. Jene übertrifft in Mathematik- und Logikaufgaben die Frühversion von o1, die Open AI zwei Monate zuvor zum Besten von denselben Zweck gebaut hat.
Allerdings welcher grösste Sprung gelingt Deepseek Finale zwölfter Monat des Jahres mit welcher Veröffentlichung eines riesigen Sprachmodells namens Deepseek V3. Dies ist dasjenige Schema, dasjenige später wie Fundament dient, um R1 zu trainieren und Open AI irreversibel zu entzaubern.
Spezialisten sind effizienter
Für V3 beweist Deepseek wieder bemerkenswerte Ingenieurkunst. Anstatt dasjenige Schema wie normal quasi wie ein grosses «Generalisten-Gehirn» zu trainieren, bildet Deepseek V3 wie eine Konzentration vieler «Spezialisten-Gehirne». Welcher damit erzielte Effizienzgewinn ist beeindruckend.
Man kann sich dasjenige so vorstellen, dass dasjenige Schema mit einer Betriebsart Router bestückt ist, welcher jede Nutzerfrage an die dazu zuständigen «Experten» weiterleitet. Im Zuge dessen muss beim Reagieren nicht dasjenige gesamte Schema funktionieren. Es reicht, wenn sich die ausgewählten Experten um die Antragstellung kümmern. Diesen Art und Weise, in welcher Fachwelt wie Mixture of Experts publiziert, nach sich ziehen schon vorher andere Firmen probiert. Allerdings niemand hat ihn so triumphierend umgesetzt wie jetzt Deepseek.
Mit seiner eigenen Variante des bestärkenden Lernens und dem Mixture-of-Experts-Schema V3 kreiert Deepseek in weniger wie einem Jahr die wichtigsten Bausteine, um irgendetwas zu schaffen, dasjenige die Tech-Welt in Staunen versetzen wird. Dies neueste Deepseek-Schema, R1, ist die Obst dieser Durchbrüche und vieler weiterer Optimierungen. Damit bereitet Deepseek heute den amerikanischen Tech-Firmen ein böses Erwachen. Sie nach sich ziehen im gleichen Sinne zu tief geschlafen.