Загрузка...

Mistral теперь может превращать любой PDF-файл в файл Markdown, готовый к работе с ИИ

203Опубликовано 07.03.2025 в 13:26Категория: ИИИсточник

Компания Mistral запустила новый многорежимный API OCR, который преобразует сложные PDF-документы в файлы Markdown, удобные для обработки ИИ. Этот API разработан с акцентом на эффективность и способен распознавать визуальные элементы, такие как иллюстрации, а также поддерживает сложное форматирование, включая математические выражения. По заявлению компании, он превосходит аналогичные продукты крупных конкурентов.

TechCrunch сообщает: в отличие от большинства API OCR, Mistral OCR является многорежимным и способен определять наличие иллюстраций и фотографий внутри блоков текста. API создает рамки вокруг графических элементов и включает их в выходные данные. Кроме того, вывод не представляет собой просто большой набор текста; он форматируется в Markdown — синтаксисе форматирования, который разработчики используют для добавления ссылок, заголовков и других элементов форматирования к обычному тексту.

Mistral OCR доступен на собственной платформе API компании Mistral или через облачных партнеров (AWS, Azure, Google Cloud Vertex и другие). Для компаний, работающих с классифицированными или чувствительными данными, компания предложила развертывание на месте. Согласно заявлению парижской ИИ-компании, Mistral OCR демонстрирует лучшие показатели по сравнению с API от Google, Microsoft и OpenAI. Компания протестировала свою модель OCR на сложных документах, включая математические выражения (форматирование LaTeX), продвинутые макеты или таблицы. Также сообщается о лучшей производительности при работе с документами не на английском языке.

Компания Mistral использует свой OCR для своего собственного ИИ-ассистента Le Chat. Когда пользователь загружает PDF-файл, компания использует Mistral OCR в фоновом режиме для понимания содержимого документа перед обработкой текста. Компании и разработчики, скорее всего, будут использовать Mistral OCR вместе с системой RAG (Retrieval-Augmented Generation) для использования многорежимных документов как входных данных в большие языковые модели (LLM). Есть множество потенциальных применений. Например, можно представить себе использование его юридическими фирмами для быстрого анализа огромного количества документов.

«За годы организации накопили большое количество документов, часто в форматах PDF или слайдов, которые недоступны для LLM, особенно для систем RAG. С Mistral OCR наши клиенты теперь могут преобразовать богатые и сложные документы в читаемое содержание на всех языках», — сказал соучредитель и главный научный руководитель компании Мистраль Гийом Лампль.

«Это важный шаг к массовому внедрению ИИ-ассистентов в компании, которые стремятся упростить доступ к своим огромным внутренним документам», — добавил он.

OCR API PDF Markdown искусственный интеллект обработка изображений форматирование текста облачные сервисы AWS Azure Google Cloud Vertex Le Chat RAG большие языковые модели LLM юридические документы анализ документов

Интересные статьи

Нет статей для отображения

Предыдущая статья

Загрузка предыдущей публикации...

Следующая статья

Загрузка следующей публикации...

Предыдущие новости в категории

Загрузка предыдущих новостей...

Следующие новости в категории

Загрузка следующих новостей...