Исследования показывают, что ИИ-модели по-прежнему слишком часто испытывают галлюцинации

habr.com

habr.com:

Новое исследование, проведенное учеными из Швейцарии и Германии, показывает, что даже лучшие модели, такие как Claude Opus 4.5, с включенным веб-поиском все равно выдают неверную информацию почти в трети случаев.Генеральный директор Nvidia Йенсен Хуанг утверждает, что у моделей больше нет галлюцинаций, но наука с этим не согласна.

Исследователи из швейцарского EPFL, Тюбингенского института ELLIS и Института интеллектуальных систем имени Макса Планка разработали «Halluhard» - бенчмарк, измеряющий галлюцинации в реалистичных многоходовых диалогах.

Читать на habr.com Все новости от habr.com

Casio представила новые модели Baby-G BGD-565 с LED-подсветкой и автономностью до трех лет

OpenAI предоставила Пентагону доступ к своей модели ИИ

Perplexity выложила отрытые эмбеддинг-модели

Что на самом деле делает брак счастливым - неожиданное исследование

Casio представила новые модели Baby-G BGD-565 с LED-подсветкой и автономностью до трех лет

OpenAI предоставила Пентагону доступ к своей модели ИИ

Perplexity выложила отрытые эмбеддинг-модели

Что на самом деле делает брак счастливым - неожиданное исследование

ИИ в симуляциях войны почти всегда выбирает ядерный удар – исследования

Студент подал на OpenAI в суд, заявив, что GPT-4o «убедила его, что он оракул» и «довела его до психоза»

Модели набирали 80% на бенчмарке OpenAI. Оказалось, они просто запомнили решения

SanDisk выпустила три модели ударопрочных портативных SSD

VK внедрила визуально-языковые модели ИИ в поиск своих сервисов

DFINITY Foundation объявила о новой экономической модели Internet Computer

Casio вывела на рынок США три обновленные модели G-Shock: основные изменения и характеристики

Индийский стартап Sarvam представил чат-бот Indus на базе собственной языковой модели

Индийский стартап Sarvam внедряет свои модели AI в кнопочные телефоны, автомобили и смарт-очки

Почему нельзя работать ночью - неожиданные результаты исследования

Skoda Kodiaq Edition X отмечает 10-летие модели

Исследование ВШЭ: более 35% выпускников вузов оказываются слишком образованными для своих рабочих мест

Что происходит с телом на карнивор-диете — новое исследование

Мультимодальные модели по-прежнему не могут преодолеть 50-процентный барьер в визуальном распознавании объектов

Claude Opus 4.6: Anthropic рассказала, что на самом деле творится у модели в голове

Почему нельзя слишком часто пить кофе - ответ ученых

Anthropic и OpenAI представили ИИ-модели Opus 4.6 и GPT-5.3 Codex. Что они умеют?

Директор по робототехнике NVIDIA: языковые модели — тупик, будущее за «моделями мира»

Как внедрить в свой сервис LLM и «приручить» галлюцинации модели: гайд от продуктовой IT&#8209компании

Что нужно делать по утрам, чтобы замедлить старение - всего 5 вещей

Открытая дискуссия: «Стратегия AI-трансформации: от исследования к реальным бизнес-решениям»

Лучший вариант обеда: что нужно есть, чтобы жить дольше

«Лаборатория суперинтеллекта» Meta* уже испытывает первые ИИ-модели

Figure AI научила Helix 02 убираться в гостиной: теперь он бросает подушки и моет столы

Почему дети не хотят есть овощи и как это исправить, рассказал врач

Новый кратер на Луне поразил ученых своей яркостью: они предсказали его будущее

Anthropic пытается спасти контракт с Пентагоном

Астрономы обнаружили гигантское космическое «покрывало», которое окружает Млечный Путь

GlowByte приглашает на конкурс BI-дашбордов от FanRuan Data Challenge

ChatGPT теперь слышит музыку: OpenAI интегрировала Shazam прямо в чат-бот

Смартфоны Oppo и OnePlus становятся дороже: когда память стоит как крыло самолёта

Redmi K90 Ultra: активное охлаждение, 165 к/с и аккумулятор, который не заканчивается

Объем торговли нефтью на Hyperliquid превысил $1,7 млрд за сутки

Cursor представили Automations — систему для облачных ИИ-агентов, которые работают постоянно, без ручного запуска

Аналитика: резюме стремительно теряют значение, фокус смещается на реальные навыки и мотивацию

Akai выпустила новый портативный сэмплер

Акции Marvell Tech выросли после прогноза долгосрочного роста AI-чипов

Исследование: россияне чаще всего используют «Алису AI» для поиска информации и медиаконтента

Microsoft выпустила мультимодальную версию Phi-4

OpenAI готовит к релизу двунаправленную аудиомодель

В национальном домене Ангильи осталось чуть более 500 трёхбуквенных имён

Конгресс США продлевает срок службы МКС до 2032 года и призывает НАСА ускорить создание частных космических станций

Unity продаст китайское подразделение и закроет офисы во Франции

«Яндекс Электро» расширил сеть операторов электрозарядных станций

Для здоровья и долголетия: диетологи назвали лучшую крупу

Starship V3 никуда не полетит – SpaceX внезапно перенесла дату запуска космического корабля

Anthropic подала иск против администрации Трампа

В Ethereum предложили новый стандарт для экономики ИИ-агентов — что он изменит?

Siri держит Apple TV и HomePod в заложниках: почему релизы снова отложили

Xiaomi 17 Ultra Leica Edition: когда камера важнее здравого смысла (и кошелька)

Microsoft восполнила пробел в устранении неполадок в Windows 11 и Server 2025

Терминатор XIX века: первый в мире фильм про роботов обнаружен в США (видео)

Samsung выиграла суд к TCL по поводу «фейковых QLED»

Больше новостей

О нас

Ria24.today - агрегатор самых свежих новостей ведущих новостных сайтов со всего мира. 300+ информационных ресурсов на одном сайте, экономьте своё время.
Самые свежие новости на главной странице, чтобы вы всегда были в курсе, и владели информацией, полученной из разных источников, порой, с диаметральными политическими взглядами.
Актуальные новости 24 часа в сутки, 7 дней в неделю!

ria24.today

Рубрики

Инфо

Рекламодателям

Вопросы по рекламе ?

Опубликовать статью

©2026. Все права защищены.

DMCA