当前位置:编程学习 > C#/ASP.NET >>

关于搜索,中文分词,做过这种的兄弟进来讨论一下

现在在搞一个书店网站,其中搜索功能不是很强大
 
比如我书库汇中存在 数学建模基础和知识 
当用户搜索 数学建模 能找到,但是搜索 数学建模知识 就找不到了。

主要还是因为分词 多关键词搜索这块吧,

目前折中的办法是按空格来拆分,聪明的用户可能选择这样输入关键词   数学建模 知识 ,但是并不是每一个用户都会这样去搜索。
所以最终还是得搞一个中文分词
有做过的兄弟么?能提供点开源类的么?
好像找到了php相关的,想要找个.net的,
还有有强大点的词库么哪位,小弟刚入程序开发这块。。。。。希望各位前辈能提供点帮助。在此先谢过了

对了,具体效果可以参考当当网的图书搜索,他的分词就挺牛叉,基本能准确分出来。。。。 --------------------编程问答--------------------
先帮顶~ --------------------编程问答-------------------- 楼上谢谢帮顶 --------------------编程问答-------------------- 没有接触过
个人觉得还是
自己拆分吧,
把标题每两个字拆成一个词,然后存入关键字表,
每次搜索时直接查关键字表, --------------------编程问答-------------------- 参考 http://www.cnblogs.com/25-to-life/archive/2010/08/23/1806591.html

http://bbs.csdn.net/topics/70453844 --------------------编程问答-------------------- 中文是世界上少有的保留了非常原始的特性的语言,中文没有明显的分词语法。你需要有一个词库来基进行比对。例如对于“中文是世界上少有的保留了非常原始的特性的语言”这段文字,首先从“中”这个字开始从词库上搜索所有以这个字开头的词,看看匹配的有几个(可能返回一个“中文”这个词);然后再从“文”这个字开始从词库上搜索所有以这个字开头的词,看看匹配的有几个(可能返回0个词)......直到搜索到一“言”这个字之后,程序结束。

词典是按照文字摆放的树型结构,例如
   中
   --> 文
   --> 央
   --> 政
        --> 府
   --> 国
        ......
  政
   --> 府
   --> 治
   --> 权
        ......


这里先搞清楚数据结构,非常重要。 --------------------编程问答--------------------    中
   --> 文
   --> 央
       --> 政
           --> 府
   --> 国
        ......
   政
   --> 府
   --> 治
   --> 权
        ...... --------------------编程问答-------------------- 百度搜索 盘古分词大法 --------------------编程问答--------------------
引用 7 楼 diaodiaop 的回复:
百度搜索 盘古分词大法


贴出源代码下载地址,或者对原理进行讲解。

做广告还是算了! --------------------编程问答-------------------- 字段  like  '%数%学%建%模%' --------------------编程问答-------------------- 第一:你要建的这个网上书店是商城?就是在网上卖书的,这样就好办,网上很多开源的商城
第二:否则你可以看下www.nslib.cn,这个图书馆url
第三:搜索,你说的那个用linq技术很容易做到啊 --------------------编程问答--------------------
引用 8 楼 sp1234 的回复:
引用 7 楼 diaodiaop 的回复:百度搜索 盘古分词大法

贴出源代码下载地址,或者对原理进行讲解。

做广告还是算了!


这么高等级,这么多徽章,别让我笑话你OK不??

还广告.真真极是F了....

补充:.NET技术 ,  ASP.NET
CopyRight © 2012 站长网 编程知识问答 www.zzzyk.com All Rights Reserved
部份技术文章来自网络,