MrRjxrby Китай технологии люди история общество крипто токен gemini MrRjxrby Китай

Deepseek OCR 2 сокращает количество визуальных токенов на 80%

Китайская компания Deepseek, специализирующаяся на искусственном интеллекте, представила новый кодировщик изображений, который перестраивает информацию на основе смысла, а не обрабатывает ее в жестком порядке сверху вниз и слева направо.Традиционные модели визуально-языкового восприятия разбивают изображения на небольшие фрагменты и обрабатывают их в фиксированном порядке, начиная с верхнего левого угла и двигаясь к нижнему правому.

По мнению исследователей Deepseek , такой подход не соответствует тому, как люди видят в реальности. Наши глаза следуют гибким шаблонам, основанным на содержании.

DMCA