Najnovije istraživanje osnivača DeepSeeka razbija kinesko–američki hardverski jaz

Deep Seek - Napredak
0
0

U večernjim satima 12. siječnja, Liang Wenfeng, osnivač kineskog AI start-upa DeepSeek, supotpisao je tehnički rad s istraživačima sa Sveučilišta u Pekingu koji predlaže novu metodu treniranja modela. Rekli su da tehnika omogućuje „agresivno skaliranje parametara“ zaobilazeći ograničenja GPU memorije.

Izvješće South China Morning Posta od 13. siječnja navodi da taj potez naglašava kontinuirani fokus DeepSeeka na maksimiziranje troškovne učinkovitosti unatoč njegovu relativnom nepovoljnom položaju u računalnoj snazi u usporedbi s vodećim američkim akterima. Također je zabilježilo tržišne špekulacije da bi tvrtka mogla objaviti veliki novi model prije Lunarne nove godine.

Očekuje se da će visoko tehnički rad privući široku pozornost insajdera industrije u Kini i Sjedinjenim Državama željnih saznati više o najnovijem napretku DeepSeeka.

U radu, naslovljenom „Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models“, autori uvode tehniku „uvjetne memorije“ nazvanu Engram. Metoda je osmišljena kako bi se riješilo ključno usko grlo u skaliranju AI modela — ograničeni kapacitet memorije visoke propusnosti (HBM) na GPU-ovima.

Postojeći veliki jezični modeli dohvaćaju osnovne informacije putem računanja, procesa koji troši goleme računalne resurse. Istraživači tvrde da se time rasipa vrijedna „sekvencijalna dubina“, koja bi se inače mogla dodijeliti zadacima razmišljanja više razine.

SCMP je naveo da je HBM jedan od najvećih jazova između Kine i Sjedinjenih Država u AI hardveru. Ray Wang, analitičar iz južnokorejskog SemiAnalysisa, rekao je da, iako je Kina ostvarila stalan napredak, njezin prvak u memorijskim čipovima ChangXin Memory Technologies (CXMT) i dalje zaostaje nekoliko godina za industrijskim liderima poput Samsung Electronicsa, SK Hynixa i američke tvrtke Micron Technology.

Rad objašnjava da, „razdvajanjem“ računanja od pohrane, Engram omogućuje modelima da te temeljne informacije „pretražuju“ znatno učinkovitije. Tehnika također poboljšava učinkovitost u obradi ulaza s dugim kontekstom — jedne od najvećih prepreka u pretvaranju AI chatbotova u praktične agente iz stvarnog svijeta.

Istraživači su validirali metodu na modelu s 27 milijardi parametara, utvrdivši da je povećala performanse na glavnim industrijskim mjerilima za nekoliko postotnih bodova. Ključno je da također zadržava veći kapacitet za složeno, računalno intenzivno razmišljanje.

„Vjerujemo da će uvjetna memorija postati nezamjenjiv modelarski primitiv u sljedećoj generaciji rijetkih modela“, napisali su, uspoređujući potencijalni učinak Engrama s njihovim prethodno razvijenim pristupom Mixture-of-Experts (MoE), koji omogućuje skaliranje modela bez proporcionalnih povećanja u računanju i koji su od tada usvojili i drugi kineski konkurenti.

Današnji najveći modeli sadrže bilijune parametara. Elie Bakouch, istraživački inženjer na open-source platformi Hugging Face, pohvalio je rad na društvenim mrežama, rekavši da je „validirao tehniku na stvarnom hardveru tijekom inferencije i treniranja“.

Rad navodi 14 koautora, uključujući Zhanga Huishuaija, docenta na Wangxuan institutu za računalnu tehnologiju Sveučilišta u Pekingu i bivšeg glavnog istraživača u Microsoft Research Asia.

Početkom prošle godine, DeepSeek je objavio svoj model DeepSeek-R1, treniran u podatkovnom centru pogonjenom Nvidia H800 GPU-ovima. Završio je treniranje za samo dva mjeseca uz trošak od 5,5 milijuna američkih dolara — tek djelić onoga što američke tvrtke poput OpenAI-ja navodno troše — dok je postigao usporedive performanse s vodećim američkim modelima, privukavši globalnu pozornost, osobito u Sjedinjenim Državama.

Dana 12. siječnja, Financial Times je izvijestio da je predsjednik Microsofta Brad Smith upozorio da američke AI tvrtke preuzimaju kineski konkurenti u utrci za korisnike izvan Zapada, navodeći kineske niskobudžetne open-source modele kao ključnu prednost.

Smith je rekao da se DeepSeekova tehnologija brzo širi na tržištima u razvoju poput Afrike, ističući intenziviranje globalne konkurencije. „Moramo prepoznati da, za razliku od prije godinu dana, Kina sada ima — i sve više ima više od jednog — konkurentan open-source model“, rekao je.

Izvješće je dodalo da je novo Microsoftovo istraživanje utvrdilo da je DeepSeekov model R1, objavljen prije godinu dana, pomogao ubrzati globalno usvajanje AI-ja zahvaljujući svojoj „jednostavnosti korištenja i niskoj cijeni“, osobito u zemljama Globalnog juga. To je omogućilo Kini da nadmaši Sjedinjene Države u globalnom tržišnom udjelu open-source AI modela, koji su obično besplatni za programere za korištenje, izmjenu i integraciju.

SCMP je naveo da, kako se približava prva godišnjica R1, rastu očekivanja da će DeepSeek predstaviti još jedan veliki model. Tehnološki portal iz Silicijske doline The Information izvijestio je 9. siječnja da se očekuje da će tvrtka sredinom veljače objaviti snažan novi model V4 s jakim programerskim sposobnostima.

DeepSeekHardverKina SADopen sourceumjetna inteligencija
PRAVILA KOMENTIRANJA: Vaši komentari ne smiju biti kritika drugog komentatora, nego vaše mišljenje, prijedlog ili ideja o temi. Nema rasprave tko je u pravu. Čitatelji neka zaključe što je istina. Cilj nije polemika, nego napredak svih Logičara. Inspiracija, umjesto uvjeravanja. Ako nemate ideju, ne komentirajte. Ne budete li respektirali pravila, biti će te blokirani.
Pretplatiti se
Obavijesti o
0 Komentari
Najstariji
Najnoviji Najviše komentiran
Inline povratne informacije
Pogledaj sve komentare
© 2024 – Portal Logično

POVEZANE VIJESTI