index.category: 大数据

0

Lucene

Lucene:信息检索(IR)工具库,或者称为工具箱。信息检索指文档搜索,文档内信息搜索,或者文档相关的元数据搜索等操作。Lucene允许你向自己的应用程序中添加搜索功能,其并不关心数据来源、格式、甚至不关心数据的语种、只要能把它转为文本格式即可。(服务器上的网页,本地文件系统中的文档,Word文档,XML、HTML、PDF文档,或者其他能够从中提取文本信息的数据格式)

0

IKAnalyzer中文分词器

IK Analyzer 是一个开源的,基亍 java 语言开发的轻量级的中文分词工具包。从 2006年 12 月推出 1.0 版开始, IKAnalyzer 已经推出了 4 个大版本。最初,它是以开源项目Luence 为应用主体的,结合词典分词和文法分析算法的中文分词组件。 从 3.0 版本开始,IK 发展为面向 Java 的公用分词组件,独立亍 Lucene 项目,同时提供了对 Lucene 的默认优化实现。 在 2012 版本中,IK 实现了简单的分词歧义排除算法,标志着 IK 分词器从单纯的词典分词向模拟语义分词衍化。