发布于 2017-09-05 00:33:01 | 153 次阅读 | 评论: 0 | 来源: 网友投递
Apache UIMA 非结构化信息管理应用
UIMA (Unstructured Information Management applications) 是一个软件系统,用来分析大量的非结构化信息从而发掘中对最终用户有用的知识点,一个最典型的 UIM 应用就是从文本文件中提取有用信息,例如人员、地址和组织等相关信息。
Apache UIMA DUCC 2.2.1 发布,DUCC 是为分布式 UIMA 集群计算服务的,是集群管理系统,提供工具链,管理和调度设施。
此版本带来了一些改进和 bug 修复:
The userid of a privileged DUCC installation does not have to be "ducc"
ducc-mon login can be used on systems where users do not have password login
The DUCC head-node daemons may be moved to another host without breaking working applications
The deployment descriptor for a UIMA-AS service can be loaded from the classpath
Interactive applications run correctly with viaducc (fixed lost inputs)
Files created by DUCC jobs inherit the permissions of the launching shell's umask.
DUCC performance breakdown for scaled synchronous pipelines is now correct
Fixed javadoc method headers to enable ducc build with java 8
Fixed JP communication threads wait logic when JD returns no work
GC stats not available sometimes from remote JP
详细改进请看:
https://uima.apache.org/d/uima-ducc-2.2.1/issuesFixed/jira-report.html
UIMA (Unstructured Information Management applications) 是一个软件系统,用来分析大量的非结构化信息从而发掘中对最终用户有用的知识点,一个最典型的 UIM 应用就是从文本文件中提取有用信息,例如人员、地址和组织等相关信息。
下面是 UIMA 的结构图: