最近在突然对全文信息检索有了兴趣,本来嘛,以前是学信息管理的, 对全文信息检索有一定的了解,不过只是停留在理论上的,具体的如何操作没有什么概念,现在有一点空闲时间,来研究研究。
研究全文信息检索的,对于Lucene应该多少有一点的了解吧。当然它自己本身有分词的功能,但主要是在英文环境下面,所以对中文的支持不是好,但是它提供了一个接口,可以让其他的分词包能使用。下面简单的比较一下ikanalyzer和je-analysis这两个中文分词包,主要是它们对中文分词的效果的比较。下面是一段代码
String text = "IK Analyzer是一个结合词典分词和文法分词的中文分词开源工具包。它使用了全新的正向迭代最细粒度切分算法。";
//实例化IKAnalyzer分词器
Analyzer analyzer = new IKAnalyzer();
//以下是对文本进行分词的试验!
String text2 = "ajax是我比较喜欢的技术,我am是ajax";
StringReader sr = new StringReader(text2);
TokenStream ts = analyzer.tokenStream("s", sr);
Token t = ts.next();
int j = 0;
while (t != null) {
System.out.print(t.termText() + " | ");
t = ts.next();
j++;
}
System.out.println("\n");
MMAnalyzer analyzer1 = new MMAnalyzer();
try {
System.out.println(analyzer1.segment(text2, " | "));
} catch (IOException e) {
e.printStackTrace();
}
其结果:
ajax | 是 | 我 | 比较 | 喜欢 | 的 | 技术 | 我 | am | 是 | ajax |
ajax | 是我 | 比较 | 喜欢 | 技术 | am | ajax |
我觉得还是IKAnaylzer得中文分词效果稍微好一点。当然这里只是举一个简单的例子,理由不是很充分,但至少能说明一点问题。中文分词还是蛮有意思的,希望大家能多交流交流。我是抛砖了,希望能吸引个把玉过来!
分享到:
相关推荐
IKAnalyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。 采用了特有的“正向迭代最细粒度切分算法”,具有60万字/秒的高速处理能力。 采用了多子处理器分析模式,支持:英文字母(IP地址、Email、...
该资源为ik-analyzer-8.5.0-jar,欢迎下载学习使用哦!
IKAnalyzer2012_u6中文分词器jar包 IKAnalyzer2012_u6中文分词器jar包 IKAnalyzer2012_u6中文分词器jar包 IKAnalyzer2012_u6中文分词器jar包 IKAnalyzer2012_u6中文分词器jar包
solr中文分词jar包ik-analyzer 含class配置 ik-analyzer-7.5.0
1、lucene-core-3.6.0.jar 2、IKAnalyzer2012.jar(主jar包) 3、IKAnalyzer.cfg.xml(分词器扩展配置文件) 4、stopword.dic(停止词典) 5、IkSegmentation.java(样例类)
elasticsearch-analysis-ik 是一个常用的中文分词器,在 Elasticsearch 中广泛应用于中文文本的分析和搜索。下面是 elasticsearch-analysis-ik 分词器的几个主要特点: 中文分词:elasticsearch-analysis-ik 是基于...
ik-analyzer分词器,支持solr5-5.x
IKAnalyzer-5.0.jar及solr-analyzer-extra-5.3.jar,用于solr5.3做中文分词
solr更新到6.x的版本了,ik-analyzer-5.x.jar又不好使了。 无意间从"随-忆"的博客中看到了如何去修改源代码,从而让分词器能够适应6.x的版本,亲自尝试了一下,果然可以,于是奉上了自己重新编译的jar包。 6.x的版本...
solr6的中文分词器ik-analyzer-solr-6.0.jar,在solr上亲测可用
1、复制jar包 cp ik-analyzer-8.3.1.jar ../solr/WEB-INF/lib 另:为了方便自定义ik-analyzer的设置,可以把ik-analyzer-8.3.0.jar中的配置文件 也复制过来 cp -r ik-analyzer-8.3.1/* ../solr/WEB-INF/classes 2...
该资源为ik-analyzer-7.6.0-jar,欢迎下载学习使用哦!
IKAnalyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。此包兼容solr7.x
elasticsearch-analysis-ik-5.6.8, 中文分词器analysis-ik官方绿色解压版
IKAnalyzer--Java分词必备工具(源码+bin),学习分词的或需要用Java分词的可以下来看看,支持Lucene
使用IK分词器,应为该集群使用到的solr版本为4.10.3-cdh5.7.5,所以使用的 IK 包为IKAnalyzer2012FF_u1.jar,如果是3x的solr,使用IKAnalyzer2012_u6.jar solr-4.10.3下载地址:...
由于林良益先生在2012之后未对IKAnalyzer进行更新,后续lucene分词接口发生变化,导致不可使用。该Jar包在原代码上进行修改,支持Solr 6.1.0的Jar包。
最新版elasticsearch-analysis-ik-8.8.2.zip最新版elasticsearch-analysis-ik-8.8.2.zip最新版elasticsearch-analysis-ik-8.8.2.zip最新版elasticsearch-analysis-ik-8.8.2.zip
IK Analyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始, IKAnalyzer已经推出了4个大版本。最初,它是以开源项目Luence为应用主体的,结合词典分词和文法分析算法的中文...