发布于 2014-09-06 00:49:50 | 235 次阅读 | 评论: 0 | 来源: 网友投递

这里有新鲜出炉的精品教程,程序狗速度看过来!

Apache Tika 内容抽取工具集合

Apache Tika 利用现有的解析类库,从不同格式的文档中(例如HTML, PDF, Doc),侦测和提取出元数据和结构化内容。


Apache Tika 1.6 发布,此版本包括大量的改进和 bug 修复,现已提供下载,详情请查看更新日志

Tika是一个内容抽取的工具集合(a toolkit for text extracting)。它集成了POI, Pdfbox 并且为文本抽取工作提供了一个统一的界面。其次,Tika也提供了便利的扩展API,用来丰富其对第三方文件格式的支持。

在当前的0.2-SNAPSHOT版本中, Tika提供了对如下文件格式的支持:

  • PDF - 通过Pdfbox

  • MS-* - 通过POI

  • HTML - 使用nekohtml将不规范的html整理成为xhtml

  • OpenOffice 格式 - Tika提供

  • Archive - zip, tar, gzip, bzip等

  • RTF - Tika提供

  • Java class - Class解析由ASM完成

  • Image - 只支持图像的元数据抽取

  • XML

Tika的API十分便捷,核心是Parser interface,其中定义了一个parse方法:
public void parse(InputStream stream, ContentHandler handler, Metadata metadata)
用stream参数传递需要解析的文件流, 文本内容会被传入handler,而元数据会更新至metadata。

可以使用Tika的ParserUtils工具来根据文件的mime-type来得到一个适当的Parser来进行解析工作。或者Tika还提供了一个AutoDetectParser根据不同的二进制文件的特殊格式 (比如说Magic Code),来寻找适合的Parser。



历史版本 :
Apache Tika 1.17 发布 ,内容抽取工具集合
Apache Tika 1.16 发布 ,内容抽取工具集合
Apache Tika 1.15 发布 ,内容抽取工具集合
Apache Tika 1.14 发布 ,内容抽取工具集合
Apache Tika 1.13 发布 ,内容抽取工具集合
Apache Tika 1.12 发布,内容抽取工具
Apache Tika 1.11 发布,内容抽取工具集合
Apache Tika 1.9 发布,内容抽取工具集合
Apache Tika 1.8 发布,内容抽取工具集合
Apache Tika 1.7 发布,文本内容抽取集
Apache Tika 1.6 发布,内容抽取工具集合
最新网友评论  共有(0)条评论 发布评论 返回顶部

Copyright © 2007-2017 PHPERZ.COM All Rights Reserved   冀ICP备14009818号  版权声明  广告服务