Загрузка предыдущей публикации...
Загрузка предыдущих новостей...
Многие годы компании, правительства и исследователи сталкиваются с одной и той же проблемой: как извлекать полезные данные из файлов в формате Portable Document Format (PDF). Эти цифровые документы служат контейнерами для всего — от научных исследований до государственных записей, но их жесткие форматы часто препятствуют доступу к данным, что затрудняет их чтение и анализ машинами.
"Часть проблемы заключается в том, что PDF-файлы появились в эпоху, когда компоновка для печати сильно влияла на программное обеспечение для публикации, и поэтому PDF больше похожи на продукт для печати, нежели для цифрового использования," — написал Дерек Уиллис (Derek Willis), преподаватель данных и вычислительной журналистики в университете Мэриленд, в электронном письме Ars Technica. "Основная проблема заключается в том, что многие PDF-файлы представляют собой изображения информации, поэтому для преобразования этих изображений в данные нужно использовать программное обеспечение распознавания оптических символов (OCR), особенно если исходный документ старый или содержит рукописные записи."
Вычислительная журналистика — это область, где традиционные методы репортажа сочетаются с анализом данных, программированием и алгоритмическим мышлением для раскрытия историй, которые могли бы остаться незамеченными в больших наборах данных. Это делает извлечение этих данных особо важным для Уиллиса.
Загрузка предыдущей публикации...
Загрузка следующей публикации...
Загрузка предыдущих новостей...
Загрузка следующих новостей...