Apache Tika 内容抽取工具集合

Apache Tika 利用现有的解析类库，从不同格式的文档中（例如HTML, PDF, Doc)，侦测和提取出元数据和结构化内容。

Tika是一个内容抽取的工具集合(a toolkit for text exTracting)。它集成了POI, PDFBox 并且为文本抽取工作提供了一个统一的界面。其次，Tika也提供了便利的扩展API，用来丰富其对第三方文件格式的支持。

该项目于2007年3月开始启动，最开始是ApacheLucene项目的子项目，2010年5月成为Apache组织的顶级项目。

功能包括：
侦测文档的类型，字符编码，语言，等其他现有文档的属性。
提取结构化的文字内容。
该项目的目标使用群体主要为搜索引擎以及其他内容索引和分析工具。编程语言为Java.

发布与更新

Apache Tika 1.17 发布，内容抽取工具集合: Apache Tika 1.7 发布了，Tika 是一个内容抽取的工具集合(a toolkit for text extracting)。它集成了 POI 和 Pdfbox，并且为文本抽取工作提供了一个统一的界面。其次，Tika 也提供了便利的扩展 API，用来丰富其对第三方文件格式的支持。Apache Tika 1.17包含许多改进和错误修复。 Fix thread-safety in ChmExtrac
发布于 2017-12-15 00:30:46 | 121 次阅读
Apache Tika 1.16 发布，内容抽取工具集合: Apache Tika 1.16 发布了，Tika 是一个内容抽取的工具集合(a toolkit for text extracting)。它集成了 POI 和 Pdfbox，并且为文本抽取工作提供了一个统一的界面。其次，Tika 也提供了便利的扩展 API，用来丰富其对第三方文件格式的支持。部分更新内容如下：Exclude jj2000 from edu.ucar grip to avoid potential lice
发布于 2017-07-12 23:52:06 | 148 次阅读
Apache Tika 1.15 发布，内容抽取工具集合: Apache Tika 1.15 发布了，该版本包含许多改进和错误修复。新发布的版本已推送到 Apache 发布网站以及 Maven Central。Tika 是一个内容抽取的工具集合(a toolkit for text extracting)。它集成了 POI 和 Pdfbox，并且为文本抽取工作提供了一个统一的界面。其次，Tika 也提供了便利的扩展 API，用来丰富其对第三方文件格式的
发布于 2017-05-31 00:01:20 | 123 次阅读
Apache Tika 1.14 发布，内容抽取工具集合: Apache Tika 1.14 发布了，该版本包含了一些改进和 Bug 修复。Tika 是一个内容抽取的工具集合(a toolkit for text extracting)。它集成了 POI, Pdfbox 并且为文本抽取工作提供了一个统一的界面。其次，Tika 也提供了便利的扩展 API，用来丰富其对第三方文件格式的支持。更新如下：Extract all headers from MSG/RFC822 (TIK
发布于 2016-11-11 01:20:58 | 176 次阅读
Apache Tika 1.13 发布，内容抽取工具集合: Apache Tika 1.13 发布了，更新如下：Upgrade to PDFBox 2.0.1 (TIKA-1285/TIKA-1959).PDFParser中的主要更新The classic sequential parser is no longer available.Tiff files are no longer extracted by default. See https://pdfbox.apache.org/2.0/dependencies.html#optional-components for option
发布于 2016-05-16 23:47:22 | 275 次阅读
Apache Tika 1.12 发布，内容抽取工具: Apache Tika 1.12 发布，Tika是一个内容抽取的工具集合(a toolkit for text extracting)。它集成了POI, Pdfbox 并且为文本抽取工作提供了一个统一的界面。其次，Tika也提供了便利的扩展API，用来丰富其对第三方文件格式的支持。该版本包含不少改进和 bug 修复。具体内容包括： * Slide notes are now linked to the s
发布于 2016-02-16 00:24:34 | 190 次阅读
Apache Tika 1.11 发布，内容抽取工具集合: Apache Tika 1.11 发布，此版本包括大量的改进和 bug 修复： * Java7 API support for allowing java.nio.file.Path as method arguments was added to Tika and to ParsingReader, TikaFileTypeDetector, and to Tika Config (TIKA-1745, TIKA-1746, TIKA-1751). * MIME
发布于 2015-10-27 00:47:19 | 167 次阅读
Apache Tika 1.9 发布，内容抽取工具集合: Apache Tika 1.9 发布，此版本包括一些改进和 bug 修复，详细改进请看更新日志：* The ability to use the cTAKES clinical text knowledge extraction system for biomedical data is &
发布于 2015-06-24 07:22:11 | 188 次阅读
Apache Tika 1.8 发布，内容抽取工具集合: Apache Tika 1.8 发布，此版本主要有以下更新：Fix null pointer when processing ODT footer styles (TIKA-1600).Upgrade to com.drewnoakes' metadata-extractor to 2.0 and add parser for webp metadata (TIKA-1594).Duration extracted from MP3s with no ID3 tags (TIKA-1589).U
发布于 2015-04-21 00:54:30 | 216 次阅读
Apache Tika 1.7 发布，文本内容抽取集: Apache Tika 1.7 发布了，Tika是一个内容抽取的工具集合(a toolkit for text extracting)。它集成了POI, Pdfbox 并且为文本抽取工作提供了一个统一的界面。其次，Tika也提供了便利的扩展API，用来丰富其对第三方文件格式的支持。该版本包含
发布于 2015-01-17 01:33:18 | 219 次阅读
Apache Tika 1.6 发布，内容抽取工具集合: Apache Tika 1.6 发布，此版本包括大量的改进和 bug 修复，现已提供下载，详情请查看更新日志。Tika是一个内容抽取的工具集合(a toolkit for text extracting)。它集成了POI, Pdfbox 并且为文本抽取工作提供了一个统一的界面。其次，Tika也提
发布于 2014-09-06 00:49:50 | 239 次阅读

Apache Tika 内容抽取工具集合

后端技术

前端技术

数据库

热门框架

常用IDE

其他