«Вспомнить всё»: исследователи предложили архитектуру языковых моделей с большой памятью

habr.com:

9 февраля на arXiv была опубликована новая научная работа "LM2: Large Memory Models", в которой исследователи описали обновление классической архитектуры LLM на базе трансформеров.

LM2 превосходит как модель RMT с дополненной памятью на 37.1%, так и базовую модель Llama-3.2 на 86,3% в среднем по задачам.Исследователи из Convergence Labs представили Large Memory Model (LM2) – новую архитектуру языковых моделей, которая преодолевает ограничения традиционных трансформеров в обработке длинного контекста.LM2 дополняет стандартный механизм внимания отдельным модулем памяти, который взаимодействует с входными данными, отбирает важную информацию и обновляется по мере работы модели.Ключевое отличие LM2 – дополнительный поток памяти, который дополняет стандартный поток внимания в трансформерах.

Читать на habr.com Все новости от habr.com

Deepseek: как превратить языковые модели в прибыльный бизнес, несмотря на снижение цен на рынке

Возможное ограничение использования новой языковой модели OpenAI GPT-4.5 через API

OpenAI представляет GPT-4.5: новый рубеж в эволюции языковых моделей

Huginn: языковая модель, которая может углублять свои мыслительные процессы

Deepseek: как превратить языковые модели в прибыльный бизнес, несмотря на снижение цен на рынке

Возможное ограничение использования новой языковой модели OpenAI GPT-4.5 через API

Huginn: языковая модель, которая может углублять свои мыслительные процессы

Языковые модели могут перегружать себя мыслями и застревать в бесконечных циклах мыслей

«Темпоральные головы» в языковых моделях: новые возможности для AI

Как масштабирование во время тестирования раскрывает скрытые способности к рассуждению в небольших языковых моделях

Разобучаем языковые модели: как заставить ИИ забыть только определенные знания

Китайская LLaDa: как зашумленный текст превращается в осмысленный диалог – новая эра диффузионных языковых моделей

Исследователи обнаружили, что больше не нужна тонна данных, чтобы обучить LLM выполнению логических задач

«На уровне с OpenAI и лучше DeepSeek и Gemini». Исследователь искусственного интеллекта Андрей Карпаты протестировал обновленную языковую модель Grok Маска. Что она умеет

Система вознаграждений RLSP: Как она меняет подход к обучению языковых моделей

Проблемы языковых моделей при анализе длинных текстов: выводы исследования

Фотография космической паутины демонстрирует структуру темной материи во Вселенной

Исследование: большие языковые модели смогли клонировать сами себя

Hugging Face выпускает небольшую языковую модель, которая в большинстве случаев превосходит Qwen и Llama

Исследователи создали открытого конкурента модели рассуждений OpenAI o1 менее чем за $50

Астрономы обнаружили колоссальный радиоизлучатель из ранней Вселенной

Как небольшой набор данных и управление вычислениями могут улучшить работу языковых моделей

Anthropic представила новый метод защиты больших языковых моделей от взломов

Исследователи создали конкурента ChatGPT и DeepSeek-R1 всего за $50

Исследователи поместили ИИ в робота для лучшего понимания мира

Исследователи разработали ткань для сохранения тепла зимой