Релиз системы извлечения контента Apache Tika 1.0

Представлен релиз Apache Tika 1.0, набора библиотек на языке Java для выявления, анализа, парсинга и выделения мета-данных и структурированного контента из разнообразных форматов файлов. Всего поддерживается более 1200 форматов, включая HTML, XML, DOC, OLE2, OOXML, RTF, ePub, OpenDocument, PDF, различные форматы изображений, мультимедиа, архивов и пакетов программ.

Изначально Apache Tika был разработан как часть поискового движка Apache Lucene, но позднее перерос в самостоятельный проект. Кроме библиотек, подготовлены консольная утилита и GUI-приложение для удобного извлечения контента из разных наборов данных. Помимо языка Java, в рамках проекта подготовлены биндинги для языков Python, .NET и C++.

Источник:
http://www.opennet.ru/opennews/art.shtml?num=32321

<= Назад
Комментарии
]]> ipv6 ready Kiev LUGLinux4MeНостальгияЛичный сайт skeletora ]]>