Document AI от Mistral извлекает текст из документов и заметок с высокой точностью
Mistral AI представляет Document AI — модульную платформу для автоматизированной обработки документов, которая сочетает в себе распознавание символов, вывод структурированных данных и обработку естественного языка с гибкими вариантами развертывания.Document AI может с высокой точностью извлекать текст из PDF-файлов, файлов PowerPoint и Word, рукописных заметок, таблиц, диаграмм и сложных макетов.Помимо простого распознавания текста, Document AI включает в себя расширенную функцию аннотирования, которая позволяет пользователям извлекать нужную информацию из документов и преобразовывать её в пользовательские форматы JSON.Mistral предлагает два типа аннотаций: «Аннотация BBox», которая помечает и описывает отдельные визуальные элементы, такие как диаграммы, таблицы или подписи, и «Аннотация документа», которая фиксирует структуру всего документа.
Последняя в настоящее время ограничена исходными файлами размером до восьми страниц.Оба варианта позволяют автоматически извлекать определённое содержимое, например, положения из договоров, суммы в счетах, данные о транзакциях из чеков или заголовки глав и URL-адреса из научных PDF-файлов.Аннотации основаны на пользовательских моделях данных и могут быть объединены с языковой моделью, способной распознавать изображения, для интерпретации даже сложных макетов и контента.По словам Mistral AI, эта платформа хорошо подходит для организаций, работающих с большими объёмами разнородных документов и нуждающихся в высоком уровне автоматизации.
habr.com