八倍提供的站内搜索服务主要有:中文分词、数据索引、数据搜索、数据分页、数据缓存、自学习 功能等
l 中文分词技术:
将输入的语句划分为有意义的中文词语。如“请问上海市有多少个旅游景点”可以切分成 “请问,上海市,有,多少,旅游,景点” 。这些词语用于数据库搜索时又会筛选成“上海,旅游,景点”这几个主要关键字进行搜索。
l 数据索引:
数据索引方式由基于数据库的索引方式,还有基于文件的索引方式。索引是为了使数据搜索更快。索引更新间隔可以 在30秒到几小时不等。
l 数据搜索:
对分词完毕的关键字进行搜索。按照相关度进行排序,或者按照客户的要求进行排序。
相关度进行排序举例:
如(“上海,旅游,景点”)
1、“上海,旅游,景点”全部包含排第1
2、“上海,旅游,景点”全部包含其中任意2个排第2
3、“上海,旅游,景点”全部包含其中任意1个排第3
l 数据分页:
1、 精确分页:数据准确地分到每一页,某些情况下速度稍慢。适合数据中等容量的情况。
2、 估算分页:数据通过估算分配到每一页,速度快。适合数据海量的情况。
3、 精确、估算 结合方法:前几页精确分页,剩余的页面估算。适合数据海量的情况。
l 数据缓存:
对数据进行适当的缓存可以加快查询速度。我们会适当地控制缓存时间、缓存量。
l 自学习:
会自动学习一些新的关键字、一些可能干扰查询的干扰词。
还提供其他的相关服务,如数据分析,特殊的搜索处理等。
案例演示: Http:// ask.5173.com (八倍提供技术)