Загрузка предыдущей публикации...
Загрузка предыдущих новостей...
Компания Mistral запустила новый многорежимный API OCR, который преобразует сложные PDF-документы в файлы Markdown, удобные для обработки ИИ. Этот API разработан с акцентом на эффективность и способен распознавать визуальные элементы, такие как иллюстрации, а также поддерживает сложное форматирование, включая математические выражения. По заявлению компании, он превосходит аналогичные продукты крупных конкурентов.
TechCrunch сообщает: в отличие от большинства API OCR, Mistral OCR является многорежимным и способен определять наличие иллюстраций и фотографий внутри блоков текста. API создает рамки вокруг графических элементов и включает их в выходные данные. Кроме того, вывод не представляет собой просто большой набор текста; он форматируется в Markdown — синтаксисе форматирования, который разработчики используют для добавления ссылок, заголовков и других элементов форматирования к обычному тексту.
Mistral OCR доступен на собственной платформе API компании Mistral или через облачных партнеров (AWS, Azure, Google Cloud Vertex и другие). Для компаний, работающих с классифицированными или чувствительными данными, компания предложила развертывание на месте. Согласно заявлению парижской ИИ-компании, Mistral OCR демонстрирует лучшие показатели по сравнению с API от Google, Microsoft и OpenAI. Компания протестировала свою модель OCR на сложных документах, включая математические выражения (форматирование LaTeX), продвинутые макеты или таблицы. Также сообщается о лучшей производительности при работе с документами не на английском языке.
Компания Mistral использует свой OCR для своего собственного ИИ-ассистента Le Chat. Когда пользователь загружает PDF-файл, компания использует Mistral OCR в фоновом режиме для понимания содержимого документа перед обработкой текста. Компании и разработчики, скорее всего, будут использовать Mistral OCR вместе с системой RAG (Retrieval-Augmented Generation) для использования многорежимных документов как входных данных в большие языковые модели (LLM). Есть множество потенциальных применений. Например, можно представить себе использование его юридическими фирмами для быстрого анализа огромного количества документов.
«За годы организации накопили большое количество документов, часто в форматах PDF или слайдов, которые недоступны для LLM, особенно для систем RAG. С Mistral OCR наши клиенты теперь могут преобразовать богатые и сложные документы в читаемое содержание на всех языках», — сказал соучредитель и главный научный руководитель компании Мистраль Гийом Лампль.
«Это важный шаг к массовому внедрению ИИ-ассистентов в компании, которые стремятся упростить доступ к своим огромным внутренним документам», — добавил он.
Загрузка предыдущей публикации...
Загрузка следующей публикации...
Загрузка предыдущих новостей...
Загрузка следующих новостей...