Загрузка...

Почему извлечение данных из PDF-файлов до сих пор является кошмаром для экспертов по данным

170Опубликовано 11.03.2025 в 17:44Категория: БигДатаИсточник

Многие годы компании, правительства и исследователи сталкиваются с одной и той же проблемой: как извлекать полезные данные из файлов в формате Portable Document Format (PDF). Эти цифровые документы служат контейнерами для всего — от научных исследований до государственных записей, но их жесткие форматы часто препятствуют доступу к данным, что затрудняет их чтение и анализ машинами.

"Часть проблемы заключается в том, что PDF-файлы появились в эпоху, когда компоновка для печати сильно влияла на программное обеспечение для публикации, и поэтому PDF больше похожи на продукт для печати, нежели для цифрового использования," — написал Дерек Уиллис (Derek Willis), преподаватель данных и вычислительной журналистики в университете Мэриленд, в электронном письме Ars Technica. "Основная проблема заключается в том, что многие PDF-файлы представляют собой изображения информации, поэтому для преобразования этих изображений в данные нужно использовать программное обеспечение распознавания оптических символов (OCR), особенно если исходный документ старый или содержит рукописные записи."

Вычислительная журналистика — это область, где традиционные методы репортажа сочетаются с анализом данных, программированием и алгоритмическим мышлением для раскрытия историй, которые могли бы остаться незамеченными в больших наборах данных. Это делает извлечение этих данных особо важным для Уиллиса.

Интересные статьи

Нет статей для отображения

Предыдущая статья

Загрузка предыдущей публикации...

Следующая статья

Загрузка следующей публикации...

Предыдущие новости в категории

Загрузка предыдущих новостей...

Следующие новости в категории

Загрузка следующих новостей...