DeepSeek представил эффективный и дешевый ИИ для распознавания документов
Компания DeepSeek представила новую открытую модель для распознавания документов — DeepSeek-OCR. В отличие от классических систем оптического распознавания символов (OCR), она не просто извлекает текст со страниц, а сразу восстанавливает структуру документа: заголовки, списки, таблицы, подписи к рисункам.
Результат можно получить в формате Markdown, который подходит для индексации и последующей работы нейросетей. DeepSeek-OCR распространяется под лицензией MIT и доступна на платформе Hugging Face.Главная особенность новинки — "оптическое сжатие контекста".
habr.com