Среда, 14 мая в 19:02 UTC+3
Загрузка...

Википедия предоставляет свои данные разработчикам ИИ для защиты от ботов-скрейперов.


34Опубликовано 17.04.2025 в 13:57Категория: ИИИсточник
Изображение статьи

Википедия предпринимает попытки отговорить разработчиков искусственного интеллекта от сбора данных с платформы путем публикации набора данных, специально оптимизированного для обучения ИИ-моделей. Фонд Викимедиа объявил в среду о партнерстве с Kaggle — платформой сообщества специалистов по анализу данных, принадлежащей Google, которая размещает данные для машинного обучения — для публикации бета-версии набора данных, содержащего «структурированное содержание Википедии на английском и французском языках».

Фонд Викимедиа утверждает, что набор данных, размещенный на Kaggle, был «разработан с учетом рабочих процессов машинного обучения», что облегчает разработчикам ИИ доступ к данным статей в формате, пригодном для машинной обработки, для моделирования, тонкой настройки, проведения сравнительного анализа, выравнивания и анализа. Содержание набора данных лицензировано открыто и по состоянию на 15 апреля включает в себя краткие обзоры исследований, короткие описания, ссылки на изображения, данные из информационных блоков и разделы статей — без ссылок или нетекстовых элементов, таких как аудиофайлы.

«Хорошо структурированные JSON-представления контента Википедии», доступные пользователям Kaggle, должны стать более привлекательной альтернативой «сбору данных путем извлечения или разбора необработанного текста статей», по мнению Фонда Викимедиа — проблеме, которая в настоящее время создает нагрузку на серверы Википедии, поскольку автоматизированные ИИ-боты непрерывно потребляют пропускную способность платформы.

Фонд Викимедиа уже имеет соглашения об обмене контентом с Google и Internet Archive, но партнерство с Kaggle должно сделать эти данные более доступными для небольших компаний и независимых специалистов по анализу данных.

«Kaggle, как место, куда приходит сообщество машинного обучения за инструментами и тестами, очень рад быть хостом для данных Фонда Викимедиа», — заявила Бренда Флинн (Brenda Flynn), руководитель партнерских отношений Kaggle. «Kaggle рад сыграть роль в обеспечении доступности, наличия и полезности этих данных».

Загрузка предыдущей публикации...

Загрузка следующей публикации...

Предыдущие новости в категории

Загрузка предыдущих новостей...

Следующие новости в категории

Загрузка следующих новостей...

Мы отбираем новости из проверенных источников, обрабатываем их с помощью современных AI-технологий и публикуем на сайте, созданном с использованием искусственного интеллекта. Все материалы принадлежат их авторам, а контент проходит дополнительную проверку на достоверность. Возможны ошибки в тексте, так как нейросеть тоже имеет свойство ошибаться. Все изображения являются фантазией нейросети, совпадение с реальными предметами и личностями маловероятно.

© 2025 NOTid . QAter . AI service.