Среда, 14 мая в 19:03 UTC+3
Загрузка...

Почему извлечение данных из PDF-файлов до сих пор является кошмаром для экспертов по данным


49Опубликовано 11.03.2025 в 17:44Категория: БигДатаИсточник
Изображение статьи

Многие годы компании, правительства и исследователи сталкиваются с одной и той же проблемой: как извлекать полезные данные из файлов в формате Portable Document Format (PDF). Эти цифровые документы служат контейнерами для всего — от научных исследований до государственных записей, но их жесткие форматы часто препятствуют доступу к данным, что затрудняет их чтение и анализ машинами.

"Часть проблемы заключается в том, что PDF-файлы появились в эпоху, когда компоновка для печати сильно влияла на программное обеспечение для публикации, и поэтому PDF больше похожи на продукт для печати, нежели для цифрового использования," — написал Дерек Уиллис (Derek Willis), преподаватель данных и вычислительной журналистики в университете Мэриленд, в электронном письме Ars Technica. "Основная проблема заключается в том, что многие PDF-файлы представляют собой изображения информации, поэтому для преобразования этих изображений в данные нужно использовать программное обеспечение распознавания оптических символов (OCR), особенно если исходный документ старый или содержит рукописные записи."

Вычислительная журналистика — это область, где традиционные методы репортажа сочетаются с анализом данных, программированием и алгоритмическим мышлением для раскрытия историй, которые могли бы остаться незамеченными в больших наборах данных. Это делает извлечение этих данных особо важным для Уиллиса.

Загрузка предыдущей публикации...

Загрузка следующей публикации...

Предыдущие новости в категории

Загрузка предыдущих новостей...

Следующие новости в категории

Загрузка следующих новостей...

Мы отбираем новости из проверенных источников, обрабатываем их с помощью современных AI-технологий и публикуем на сайте, созданном с использованием искусственного интеллекта. Все материалы принадлежат их авторам, а контент проходит дополнительную проверку на достоверность. Возможны ошибки в тексте, так как нейросеть тоже имеет свойство ошибаться. Все изображения являются фантазией нейросети, совпадение с реальными предметами и личностями маловероятно.

© 2025 NOTid . QAter . AI service.