发布于 2014-07-17 23:17:47 | 251 次阅读 | 评论: 0 | 来源: 网友投递
Apache UIMA 非结构化信息管理应用
UIMA (Unstructured Information Management applications) 是一个软件系统,用来分析大量的非结构化信息从而发掘中对最终用户有用的知识点,一个最典型的 UIM 应用就是从文本文件中提取有用信息,例如人员、地址和组织等相关信息。
Apache UIMA-AS 2.6.0 发布,此版本的二进制和源代码现已提供下载。此版本主要是 bug 修复和一些改进,主要更新内容如下:
- Replaced ActiveMQ version 5.6.0 with version 5.7.0 - Added HTTP support - Improved error handling and recovery - Performance improvements 更多内容请看。
UIMA Java 框架产生的目的是为了构建一个 UIMA 兼容的 Java 分析引擎。
UIMA 是非结构化信息管理体系结构(Unstructured Information Management Architecture,UIMA)在字处理文档、电子邮件、视频和其他非结构化信息中搜索特定的文本甚至概念。从而发现、组织和传送有用的知识给客 户。在分析非结构化的信息的过程中,应用的算法有统计的方法、基于规则的自然语言处 理(NLP)、信息修复(IR)、机器学习(Machine Learning)和本体论(Ontologies)等。IBM的UIMA 就是一种Framework,该Frmaework便于开发者实现、描述、组合、布署UIMA的组件和应用。