问一个拆句子的问题
现在有两篇文章,我们老总的意思是对比文章的相似度,他的思路是:把文章里面的句子拆开,拆成一个个词语,然后按词语来对比两个文章的相似度难点:怎么知道一个句子里面哪个是词?
例:小明今天到我家来作客
拆分结果应该是去掉名词,形容词,动词,其结果应该是”作客“
请问这样的功能怎么实现? --------------------编程问答-------------------- 这个应该要有词库吧。没有词库怎么比对? --------------------编程问答-------------------- 方法1:找一个中文词库,网上能找到一些免费的,下载后, 比对就行了(string.Find()),这是简单的处理方法.
方法2:复杂点的,要做一些算法设计 ,那个难度有点大,可以试着找个开源的看有没有。
方法1处理不了以下内容:
研究生命科学 (研究 生命科学 /研究生、命、科学)。 --------------------编程问答-------------------- sorry,上面说的只是拆分 --------------------编程问答-------------------- 你需要 根据 汉语的语言结构定义一个判断类 把主题留下,其余的去掉 --------------------编程问答--------------------
现在主要的是怎么去掉一些不相干的字,得到骨干的词
补充:.NET技术 , C#