当前位置:编程学习 > JAVA >>

关于分词技术

老师给我一个毕业设计题目,是关于分词和主题词智能抽取技术及时变语料库自动生成的,求好心人发我点分词算法的学习资料,网上的论文我看不太懂,邮箱806064621@qq.com,谢谢了 --------------------编程问答-------------------- 这个可以参考中科院的ICTCLAS,他具有较好的分词能力。http://www.oschina.net/p/freeictclas/
但是如果是一句话,我建议你还是用ICTCLAS
如果是一篇文章,内容较多的,建议你通过词频统计,及使用贝叶斯方式来处理。
本人曾今做过一个文章相似以及个性化推荐的毕业设计,所用的技术就这两个,效果还是不错就是,基本能满足要求。
其实hibernate-search之类的工具对于中文来说,确实具有局限性。

希望对你有所帮助。 --------------------编程问答-------------------- 这是语义分析么?要是没要求分词正确率,可以直接用二二分词,要是要求正确率,可以用字典查找的方法,字典可以用庖丁解牛,查找用Lucence
补充:Java ,  Eclipse
CopyRight © 2012 站长网 编程知识问答 www.zzzyk.com All Rights Reserved
部份技术文章来自网络,