Gerücht: DeepSeek R2 KI-Modell könnte GPT-4 Turbo herausfordern

Verpasse keine News, folge mir auf WhatsApp, Mastodon oder Google News

Laut neuen Gerüchten, die derzeit aus China die Runde machen, steht die chinesische Technologiefirma DeepSeek offenbar kurz vor der Veröffentlichung eines weiteren großen KI-Modells. Details zu diesem Nachfolger des DeepSeek R1, genannt „DeepSeek R2“, sind im Internet aufgetaucht. Sollten sich diese Informationen bestätigen, könnte das Modell das Potenzial haben, den westlichen KI-Markt erneut aufzumischen.

Es ist aber wichtig zu betonen: Alle Informationen zu DeepSeek R2 stammen derzeit aus Berichten chinesischer Medien und sind von DeepSeek selbst noch nicht offiziell bestätigt worden. Die Gerüchte sind also mit entsprechender Vorsicht zu genießen.

Gerüchtetechnik: Hybride MoE-Architektur mit 1,2 Billionen Parametern

Dennoch sind die kursierenden Spekulationen bemerkenswert. Die Quellen behaupten, das R2 Modell werde eine hybride MoE-Architektur (Mixture of Experts) verwenden. Dabei soll es sich angeblich um eine weiterentwickelte Implementierung bestehender MoE-Ansätze handeln, die wahrscheinlich fortgeschrittene Gate-Mechanismen oder eine Kombination aus MoE- und dichten Schichten nutzt, um komplexe Aufgaben effizient zu bearbeiten. Mit dieser Architektur soll DeepSeek R2 dem Vernehmen nach die doppelte Anzahl Parameter des Vorgängers R1 aufweisen und angeblich auf beeindruckende 1,2 Billionen Parameter kommen.

Potenzielle Rivalität mit GPT-4 Turbo und drastisch niedrige Kosten

Allein basierend auf dieser enormen Parameterzahl wird spekuliert, dass R2 mit Modellen wie GPT-4 Turbo und Googles Gemini 2.0 Pro konkurrieren könnte. Doch laut den Gerüchten ist das nicht der einzige Bereich, in dem DeepSeek plant, einen erheblichen Einfluss zu nehmen. Berichte behaupten, die Stückkosten pro Token bei DeepSeek R2 könnten extrem niedrig sein – angeblich um 97,4 % niedriger als bei GPT-4. Im Vergleich zu OpenAIs Preisen (z.B. ca. 0,07 USD pro Million Input Token und 0,27 USD pro Million Output Token für GPT-4) wäre ein solches Modell für Unternehmen, die große Mengen an KI-Leistung benötigen, ein außergewöhnliches Schnäppchen und könnte das kostengünstigste leistungsfähige Modell auf dem Markt werden. Eine solche Veröffentlichung könnte die Wirtschaftlichkeit und Dynamik des gesamten KI-Marktes stark beeinflussen.

Training auf Huawei-Chips als Strategie

Eine weitere interessante, wenn auch unbestätigte, Tatsache über DeepSeek R2 betrifft die Trainingsinfrastruktur. Es wird kolportiert, dass das Modell dominierend mit Huawei’s KI-Chips trainiert worden sein soll, insbesondere unter Nutzung eines Clusters des Ascend 910B. Angeblich erreicht das Training dabei eine hohe Auslastung von 82 % auf diesem Chip-Cluster, mit einer gemessenen Rechenleistung von 512 PetaFLOPS bei FP16-Präzision. Dies würde – falls zutreffend – zeigen, dass DeepSeek für sein nächstes Hauptmodell stark auf interne, chinesische Hardware-Ressourcen setzt und im Grunde eine vertikale Integration der KI-Lieferkette verfolgt.

Es bleibt abzuwarten, welche offiziellen Informationen DeepSeek tatsächlich veröffentlichen wird. Derzeit sind all diese Details und Zahlen rund um DeepSeek R2 als Spekulationen chinesischer Medien zu betrachten.

Quelle(n):
X/Twitter @deedydas

Schmidtis Blog zu Deiner bevorzugten Quelle bei Google hinzufügen

Links mit einem * sind Partner-Links. Durch einen Klick darauf gelangt ihr direkt zum Anbieter. Solltet ihr euch dort für einen Kauf entscheiden, erhalte ich eine kleine Provision. Für euch ändert sich am Preis nichts. Danke für eure Unterstützung!

Gerücht: DeepSeek R2 KI-Modell könnte GPT-4 Turbo herausfordern

Gerüchtetechnik: Hybride MoE-Architektur mit 1,2 Billionen Parametern

Potenzielle Rivalität mit GPT-4 Turbo und drastisch niedrige Kosten

Training auf Huawei-Chips als Strategie

Schreibe einen Kommentar Antwort abbrechen

Neueste Beiträge

Hersteller News-Hub

Tipp senden!

Dir gefällt Schmidtis Blog?