Nvidia представила открытую LLM модель Nemotron-4 340B

habr.com:

На данный момент самая крупная, после DeepSeek-V2 236B, открытая LLM модель размером 340B. По тестам сравнения человеком как выигрывает у GPT-4-1106 (вышла в ноябре 2023), так и проигрывает, но чаще составляет паритет.Обучалась на 50+ естественных языках и 40+ языках программирования.

Архитектура модели построена на Grouped-Query Attention (GQA) и Rotary Position Embeddings (RoPE). Но длина контекста всего 4096 токенов.Модель представлена в виде: Nemotron-4-340B-Base, Nemotron-4-340B-Instruct и Nemotron-4-340B-Reward.Base - предназначена для генерации синтетических данных.Instruct - предназначена для чата и выполнения инструкцийReward - base модель с дополнительным линейным слоем для обучения используя новый подход reward.Модель распространяется под лицензией NVIDIA Open Model License Agreement, разрешающая коммерческое использование.Сама модель может и в стихи, так как обучалась и на русском языке:Онлайн демо: https://chat.lmsys.org/ (там выбрать Direct Chat)Веса модели: https://huggingface.co/nvidia/Nemotron-4-340B-Instructsafetensors: https://huggingface.co/failspy/Nemotron-4-340B-Instruct-SafeTensorsБольше подробностей в пресс-релизе.Самая большая загадка - сможет ли 1 битное квантование gguf позволить запустить её локально, и что даст эта модель для сообщества llm.

Читать на habr.com Все новости от habr.com

Mobvoi представила новую версию TicWatch Pro 5 Enduro

nubia показала свой первый игровой ноутбук Red Magic с экраном на 16 дюймов, чипом Intel Core i9 14900HX и видеокартой Nvidia RTX 4070

Hori представила руль Truck Control System для симуляторов дальнобойщика

Xiaomi представила слуховой аппарат Zdeer за 138 долларов

Mobvoi представила новую версию TicWatch Pro 5 Enduro

nubia показала свой первый игровой ноутбук Red Magic с экраном на 16 дюймов, чипом Intel Core i9 14900HX и видеокартой Nvidia RTX 4070

Hori представила руль Truck Control System для симуляторов дальнобойщика

Xiaomi представила слуховой аппарат Zdeer за 138 долларов

Стартап Etched анонсировал самый мощный чип для ИИ Sohu по принципу ASIC — 8 таких якобы заменят 160 NVIDIA H100

NVIDIA не входит в топ-100 узнаваемых брендов, несмотря на быстрый рост — компания известна только геймерам

Представлена открытая LLM модель для кода DeepSeek-Coder-V2 на 16B и 236B. Теоретический конкурент для Codestral 22B