runawayllm Tesla семья runawayllm

Андрей Карпати воспроизвел GPT-2 за $73 — в 2019-м это стоило в 600 раз дороже

Бывший директор по ИИ в Tesla Андрей Карпати обучил модель, которая превосходит GPT-2 по бенчмарку CORE, потратив $73 и 3 часа на одном узле из восьми GPU H100.

Когда OpenAI тренировала оригинальную GPT-2 (1,5 млрд параметров) в 2019 году, это заняло неделю на 32 чипах TPU v3 и обошлось примерно в $43 000.Снижение стоимости в 600 раз за семь лет — результат улучшений на всех уровнях: более быстрое железо (H100 вместо TPU v3), оптимизированный софт (Flash Attention 3, torch.compile), алгоритмические находки (оптимизатор Muon, скользящее окно внимания) и качественные данные (FineWeb-edu).

DMCA