收录日期:2019/10/22 15:03:02 时间:2016/06/06 10:24:48 标签:基础编程
最近我研究 全文搜索引擎的心得 
研究心得: 
1、看到网上那么多人在研究: Google的Page Rank我很心痛 ,我就看了两天Page Rank的资料,就明白它哪个算法基本上没有任何实用价值。其实只是一个思路而已,如果完全照搬它的算法,那将一事无成。 
2、还有很多人研究什么Java中的Luncece那就更可笑了,我就举一个很简单的问题:一亿网页的容量有多大,谁能告诉我? 
     接近 1万G呀,所以用普通编程的思路做全文搜索引擎是行不通的 。 
3、还有很多人研究中文分词,写了很长的文章,却只字不提中文分词在搜索引擎中的作用和用途。其实应该是两不分: A、用来计算关键字在文本中出现的次数 B、用来查询的。 
4、还有很多人问那些信息是如何保存的,其实很简单:文件+数据库 
最后我要说一下总体思路: 
  抓取----然后---预处理----然后索引---然后----保密 
预处理: 包括计算 rank 将htm文件中的htm表示提取纯文本信息 ,然后保存对应的文本信息 
数据库中只保存 文件编号 url Rank  Title 纯文本信息等基本信息 
然后索引  索引很重要么?  答案是:索引不是非常重要  
主要是 "保密" 这部分的运算 
运算之后就可以直接将结果返回给客户端了  
用我的新研究的方法进行运算取得结果用时在 1秒以内   

以上是我研究的一些心得,希望对大家有所帮助。 

也许有人会问,那你用什么语言开发? 
当然用 C、C++ 最好,其次是用Delphi开发 ,这样不但效率高,还可以保证程序在Linux下照样可以执行。 

最后也许还有人回问,蜘蛛的效率如何,你写过没有? 
答案是:我正在写,下面是一个网友对我的小蜘蛛进行的评测: 
========================================= 
▄【┻┳═一(99923309) 12:05:57 
思鱼给他们讲讲我的 蜘蛛  
思鱼(20275543) 12:02:50 
我在家里测试了一下 
  
思鱼(20275543) 12:03:00 
很不错 
  
思鱼(20275543) 12:03:10 
和摆渡前几年的一样   
============================ 
根据我自己的测试,我电脑的配置(P4+512MB内存+40G硬盘+512K的带宽)一天可以抓取 10万个网页,而且每个网页的大小限制在 100K以内,Baidu目前每个网页的大小限制在 130K以内。 

最后,我已经收集了100万个国内的一级域名. 

有兴趣的可以一起聊聊啊! 

erp2@163.com   
www.519so.com  是我花了两周时间做的一个小测试服务器的内存是 512MB 

QQ:99923309 
有几点不同意
-----------
2、还有很多人研究什么Java中的Luncece那就更可笑了,我就举一个很简单的问题:一亿网页的容量有多大,谁能告诉我? 
     接近 1万G呀,所以用普通编程的思路做全文搜索引擎是行不通的 。
---------------
这有什么可笑的?我就不明白了。lucence也是难道不是全文检索引擎吗?
你举的例子和lucence有什么关系吗?lucence的原理和你研究的差不多,不过比你的思想更高明。

----------
然后索引  索引很重要么?  答案是:索引不是非常重要  
----------------
我倒觉的有些可笑,不用索引你用什么?你是怎么优化查询的?
全文检索的关键部分就是索引,索引文件的算法直接影响你查询的速度。

------------------
也许有人会问,那你用什么语言开发? 
当然用 C、C++ 最好
------------
这个我倒同意,JAVA速度慢,脚本语言也不适合做全文检索。
非常欣赏这种广告方式,很高明,学习中。。。我进你的网站看一下。哈哈。
欢迎批评指正!
一百万个域名列表可以给下载不,还是要收钱
http://www.519so.com/S/?wd=%25
嘎嘎
支持ice_berg16的说法,呵呵,不过楼主蛮有创意的,很喜欢这样的帖
今天有好几个人都要求我去baidu的,还说我要是没有去baidu将是一种遗憾:) 

哈哈
不错啊

杭州萧山机场22号12:15到北京的机票,亲们求建议。 广州一家公司上班,用C#开发,月薪2K,没有年终奖。谁比我惨! VC2005 C# ASP.net SQL2005 基于数据库的动态网页开发 SQL group by 统计问题 关于pcm数据流中检测对方拨号音的问题 2003 SP2系统安装SQL2008企业版出现人品级问题。 蛋碎一地,大牛救救我 新手求助 Mcrypt扩展库安装 菜鸟的问题:如何在运行程序时,把返回值传给label让其显示… MFC继承关系(不是图)(VC6)(顺带散分) 形容人 说话 有一种大碴子味,是什么意思,褒义还是贬义 一个免费方便使用的图片管理系统piccms,php语言开发 年终奖是发了,可是心里憋屈了! 计算机的硬盘编号为什么会变? java 窗体开发需要一个属性控件,求思路? 关于pcm数据流中检测对方拨号音的问题 随手翻开身边的一本杂志,看到了项活活 请教,打印时保存成PDF文件,坐标系和打印的时候有什么区别 分割窗口如何收缩与伸展 句柄表是谁的组成部分? 多核CPU如何获取某个进程在各个核的使用率 在ssis2005中使用excel动态指定文件路径问题 做 Microsoft 开发人员越来越难混了 gridview数据源转换成table问题 ireport报表运行报错 一个菜鸟的提问 部署用eclipse开发的struts2应用 计算机指令设计 高分求网页退弹代码 这个是谁的账号 抽风的CSDN我点击找回密码竟然是这个账号?