Einmal traten die reichsten Männer dieser Welt um Yachten, Jets und Privatinseln an. Jener Größenmesswettbewerb dieser Wahl ist nun Cluster. Noch vor 18 Monaten trainierte OpenAI GPT-4, sein weiland hochmodernes großes Sprachmodell (LLM), in einem Netzwerk von rund 25.000 weiland von Nvidia hergestellten Grafikverarbeitungseinheiten (GPUs). Jetzt winken Elon Musk und Mark Zuckerberg, Chef von X bzw. Meta, mit ihren Kartoffelchips in dieser Luft: Kerl Musk sagt, er habe 100.000 GPUs in einem Rechenzentrum und plant, 200.000 zu kaufen. Kerl Zuckerberg sagt, er werde 350.000 bekommen.
Dieser Wettbewerb zum Überbau von immer größeren Computing-Clustern pro immer mehr morevolle künstliche Intelligence-Modelle (KI) kann nicht unendlich fortgesetzt werden. Jeder zusätzliche Chip fügt nicht nur die Verarbeitungsleistung, sondern nachrangig zur organisatorischen Verschuldung hinzu, den gesamten Cluster synchronisiert zu halten. Je mehr Kartoffelchips es gibt, umso mehr Zeit zubringen die Kartoffelchips des Rechenzentrums, anstatt Fakten zu zubringen, anstatt nützliche Funktionieren zu erledigen. Wenn Sie störungsfrei die Menge dieser GPUs steigern, wird eine abnehmende Renditen erzielt.
Informatiker suchen von dort nachher clevereren, weniger ressourcenintensiven Möglichkeiten, zukünftige KI-Modelle auszubilden. Die Problembeseitigung könnte darin liegen, die enormen maßgeschneiderten Computercluster (und deren damit verbundene Vorauskosten) insgesamt abzuwehren und stattdessen die Übertragung des Trainings zwischen vielen kleineren Rechenzentren zu verteilen. Dies könnte, sagen manche Experten, dieser erste Schrittgeschwindigkeit in Richtung eines noch ehrgeizigeren Ziels – KI -Modelle, ohne dass schier dedizierte Hardware erforderlich ist.
Dasjenige Training eines modernen KI -Systems beinhaltet die Einnahme von Fakten – Bestimmungen, etwa die Struktur eines Proteins -, die manche Abschnitte versteckt hatten. Dasjenige Prototyp erraten, welches die versteckten Abschnitte enthalten könnten. Wenn es falsch erraten wird, wird dasjenige Prototyp durch verknüpfen mathematischen Prozess, dieser denn Backpropagation bezeichnet wird, optimiert, so dass es beim nächsten Versuch dieser gleichen Vorhersage unendlich näher an dieser richtigen Erwiderung sein wird.
meine Wenigkeit wusste dass du ein Problem sein würdest
Die Probleme kommen, wenn Sie in dieser Stellung sein möchten, „parallel“ zu funktionieren – um zwei oder 200.000 GPUs taktgesteuert mit Backpropagation zu funktionieren. Nachdem jedem Schrittgeschwindigkeit teilen die Kartoffelchips Fakten zu den von ihnen vorgenommenen Änderungen. Wenn dies nicht dieser Kernpunkt wäre, hätten Sie keinen einzigen Trainingslauf, Sie hätten 200.000 Kartoffelchips, die 200.000 Modelle pro sich genommen trainieren. Dieser Datenaustauschprozess beginnt mit „Checkpointing“, unter dem bisher ein Schnappschuss des Trainings erstellt wird. Dies kann schnell kompliziert werden. Es gibt nur eine Zusammenhang zwischen zwei Kartoffelchips, immerhin 190 zwischen 20 Kartoffelchips und weitestgehend 20 Mrd. pro 200.000 Kartoffelchips. Die Zeit, die es gesucht, um Fakten zu klären und zu teilen, wächst entspricht. Für jedes große Trainingsläufe kann etwa die Hälfte dieser Zeit oft pro jene nicht trinkeren Schritte aufgewendet werden.
Kosmos jene verschwendeten Zeit gab Arthur Douillard, verknüpfen Ingenieur unter Google Deepmind, eine Idee. Warum nicht störungsfrei weniger Kontrollpunkte zeugen? Finale 2023 veröffentlichten er und seine Kollegen eine Methode pro „verteiltes Training von Sprachmodellen mit niedriger Kommunikation“ oder Diloco. Anstatt uff 100.000 GPUs zu trainieren, die jedweder unter jedem Schrittgeschwindigkeit miteinander sprechen, beschreibt Diloco, wie dasjenige Training uff verschiedene „Inseln“ verteilen kann, womit jeweils immer noch ein beträchtliches Rechenzentrum. Intrinsisch dieser Inseln dauert Checkpointing wie gewohnt fort, immerhin die Kommunikationsbelastung sinkt um dasjenige 500-fache.
Es gibt Kompromisse. Modelle, die uff jene Weise trainiert wurden, scheinen Schwierigkeiten zu nach sich ziehen, die gleiche Spitzenleistung zu gelingen wie in monolithischen Rechenzentren. Interessanterweise scheint dieser Stärke nur zu leben, wenn die Modelle mit den gleichen Aufgaben, uff die sie geschult werden, bewertet werden: Vorhersage dieser fehlenden Fakten.
Wenn sie sich den Vorhersagen zugewandt nach sich ziehen, die sie noch nie zuvor gebeten wurden, scheinen sie besser zu verallgemeinern. Bitten Sie sie, eine Argumentationsfrage in einem Formular, dasjenige nicht in den Trainingsdaten nicht zu beantworten ist, zu beantworten, und dasjenige Pfund pro Pfund können sie die traditionell geschulten Modelle übertreffen. Dies könnte ein Artefakt pro jede Insel des Kalkulation sein, die irgendetwas freier ist, um zwischen Checkpointing -Läufen in seine eigene Richtung abzutreten, wenn sie die Übertragung zurückgezogen werden. Wie eine Kohorte von fleißigen Studenten, die ihre eigenen Forschungsgruppen darstellen, anstatt in Massenvernehmung vorgelegt zu werden, ist dasjenige Endergebnis von dort irgendetwas weniger uff die jeweilige Übertragung konzentriert, jedoch mit viel größerer Erleben.
Vincent Weisser, Gründer von Prime Intellekt, einem Open-Source-AI-Laboratorium, hat Diloco genommen und damit gefahren. Im November 2024 absolvierte sein Team dasjenige Training mit Intellekt-1, einem 10-Milliarden-Unbekannte-LLM, dieser mit dem zentral ausgebildeten Lama 2 von Meta vergleichbar war, dasjenige im Jahr 2023 uff dem neuesten Stand dieser Technologie war.
Dasjenige Team von Herrn Weisser baute Opendiloco, eine leichtgewichtig modifizierte Version von Herrn Douillards Urfassung, und setzte es in ein neues Prototyp mit 30 Graphics Processing Unit -Clustern in acht Städten uff drei Kontinenten ein. In seinen Prüfungen arbeitete dieser GPUs 83% dieser Fälle angeschaltet angeschaltet – dasjenige ist im Vergleich zu 100% im Basisszenario, in dem sich jedweder GPUs im selben Gebäude befanden. Denn dasjenige Training uff Rechenzentren in Amiland intolerant war, arbeiteten sie 96% dieser Fälle angeschaltet. Anstatt jeden Trainingsschritt zu klären, ist dieser Art und Weise von Herrn Weisser nur jedweder 500 Schritte. Und anstatt jedweder Informationen droben jede Dynamik zu teilen, „quantifiziert“ sie die Änderungen und ließen die am wenigsten signifikanten Dreiviertel dieser Fakten hinfallen.
Für jedes die fortschrittlichsten Labors, mit schon monolithischen Rechenzentren, die schon aufgebaut sind, gibt es noch keinen drückenden Grund, den Umschalten uff verteiltes Training durchzuführen. Aufgrund dieser Zeit glaubt Kerl Douillard, dass sein Art und Weise zur Norm wird. Die Vorteile sind lukulent, und die Nachteile – zumindest diejenigen, die durch die bisherigen kleinen Trainingsläufe veranschaulicht wurden, scheinen ziemlich eingeschränkt zu sein.
Für jedes ein Open-Source-Laboratorium wie Prime Intellekt hat dieser verteilte Art und Weise andere Vorteile. Es gibt nur wenige Rechenzentren, die weithin genug sind, um ein 10BN-Unbekannte-Prototyp zu trainieren. Ebendiese Mangel erhoben die Preise pro den Zugang zu ihrem Computer – wenn es schier uff dem offenen Markt verfügbar ist, anstatt von den Unternehmen gehortet zu werden, die sie gebaut nach sich ziehen. Kleinere Cluster sind jedoch leichtgewichtig verfügbar. Jeder dieser 30 verwendeten Prime -Intellekten war ein Rack von nur acht GPUs, womit zu einem bestimmten Zeitpunkt solange bis zu 14 dieser Cluster online sind. Ebendiese Ressource ist tausendmal Vorleger denn die von Frontier Labs verwendeten Rechenzentren, immerhin weder Kerl Weisser noch Kerl Douillard sehen verknüpfen Grund, warum ihr Art und Weise nicht skalieren würde.
Für jedes Herrn Weisser besteht die Motivation pro die Verteilung von Schulungen nachrangig darin, Strom zu verteilen – und nicht nur im elektrischen Sinne. „Es ist höchst wichtig, dass es nicht in den Händen einer Nation, einer Körperschaft, liegt“, sagt er. Jener Art und Weise ist jedoch kaum ein Free-for-Kosmos-einer dieser acht Graphics Processing Unit-Cluster, die er in seinem Trainingslauf verwendet hat, kostet 600.000 US-Dollar. Dasjenige von Prime Intellekt eingesetzte Gesamtnetzwerk würde dem Kauf 18 Mio. US -Dollar kosten. Seine Arbeit ist jedoch zumindest ein Zeichen zu diesem Zweck, dass die Training -fähige KI -Modelle keine Milliarden von Dollar kosten zu tun sein.
Und welches wäre, wenn die Wert noch weiter sinken könnten? Jener Traum pro Entwickler, die eine wirklich dezentrale KI verfolgen, besteht darin, die Notwendigkeit von speziell gebauten Trainingschips vollwertig zu löschen. In Teraflops gemessen, wie viele Vorgänge ein Chip in einer Sekunde zugange sein kann, ist einer dieser fähigsten Kartoffelchips von NVIDIA ungefähr so leistungsstark wie 300 iPhones. Jedoch es gibt viel mehr iPhones uff dieser Welt denn GPUs. Welches wäre, wenn sie (und andere Verbrauchercomputer) jedweder zur Arbeit gebracht werden könnten und sich durch Trainingsläufe durchsuchen, während ihre Inh. schlafen?
Die Kompromisse wären riesenhaft. Die Leichtigkeit unter dieser Arbeit mit Hochleistungs-Kartoffelchips besteht darin, dass sie, wenn auch sie weltweit verteilt sind, mindestens dasjenige gleiche Prototyp mit dieser gleichen Performanz sind. Dasjenige würde verloren in Betracht kommen. Schlimmer noch, dieser Trainingsfortschritt müsste nicht nur unter jedem Kontrollpunkt-Schrittgeschwindigkeit konzentriert und umverteilt werden, wie noch die Trainingsdaten selbst, da typische Verbraucherhardware die Terabyte von Fakten nicht speichern kann, die in ein hochmoderndes LLM in dieser Spitze gelangen. Nic Lane of Flower, eines dieser Labors, die versuchen, diesen Art und Weise Wirklichkeit werden zu lassen, wären neue Computerbrüche erforderlich.
Die Gewinne könnten sich jedoch summieren, womit dieser Art und Weise zu besseren Modellen führt, rechnet Kerl Lane. Gen die gleiche Weise, wie verteilte Schulungen die Modelle besser verallgemeinern können, können Modelle, die uff „Sharded“ -Datensätzen geschult sind, unter denen nur Teile dieser Trainingsdaten pro jede Graphics Processing Unit angegeben werden, besser abschneiden, wenn sie mit unerwarteten Eingaben in dieser realen Welt konfrontiert werden. Die Gesamtheit, welches die Milliardäre dazu herbringen würde, irgendetwas anderes zu nötig haben, um umzugehen.
© 2025, The Economist Newspaper Limited. Jedweder Rechte vorbehalten. Vom Volkswirtschaftler, veröffentlicht unter Lizenz. Jener ursprüngliche Inhalt finden Sie unter www.economist.com
Fangen Sie jedweder Technologienachrichten und Updates pro Live -Minze. Laden Sie die Mindestens -News -App herunter, um tägliche Marktaktualisierungen und Live -Wirtschaftsnachrichten zu erhalten.
MehrWeniger