收录日期:2020/06/05 10:29:24 时间:2016/06/06 10:24:49 标签:应用程序开发区
最近我研究 全文搜索引擎的心得 
研究心得: 
1、看到网上那么多人在研究: Google的Page Rank我很心痛 ,我就看了两天Page Rank的资料,就明白它哪个算法基本上没有任何实用价值。其实只是一个思路而已,如果完全照搬它的算法,那将一事无成。 
2、还有很多人研究什么Java中的Luncece那就更可笑了,我就举一个很简单的问题:一亿网页的容量有多大,谁能告诉我? 
     接近 1万G呀,所以用普通编程的思路做全文搜索引擎是行不通的 。 
3、还有很多人研究中文分词,写了很长的文章,却只字不提中文分词在搜索引擎中的作用和用途。其实应该是两不分: A、用来计算关键字在文本中出现的次数 B、用来查询的。 
4、还有很多人问那些信息是如何保存的,其实很简单:文件+数据库 
最后我要说一下总体思路: 
  抓取----然后---预处理----然后索引---然后----保密 
预处理: 包括计算 rank 将htm文件中的htm表示提取纯文本信息 ,然后保存对应的文本信息 
数据库中只保存 文件编号 url Rank  Title 纯文本信息等基本信息 
然后索引  索引很重要么?  答案是:索引不是非常重要  
主要是 "保密" 这部分的运算 
运算之后就可以直接将结果返回给客户端了  
用我的新研究的方法进行运算取得结果用时在 1秒以内   

以上是我研究的一些心得,希望对大家有所帮助。 

也许有人会问,那你用什么语言开发? 
当然用 C、C++ 最好,其次是用Delphi开发 ,这样不但效率高,还可以保证程序在Linux下照样可以执行。 

最后也许还有人回问,蜘蛛的效率如何,你写过没有? 
答案是:我正在写,下面是一个网友对我的小蜘蛛进行的评测: 
========================================= 
▄【┻┳═一(99923309) 12:05:57 
思鱼给他们讲讲我的 蜘蛛  
思鱼(20275543) 12:02:50 
我在家里测试了一下 
  
思鱼(20275543) 12:03:00 
很不错 
  
思鱼(20275543) 12:03:10 
和摆渡前几年的一样   
============================ 
根据我自己的测试,我电脑的配置(P4+512MB内存+40G硬盘+512K的带宽)一天可以抓取 10万个网页,而且每个网页的大小限制在 100K以内,Baidu目前每个网页的大小限制在 130K以内。 

最后,我已经收集了100万个国内的一级域名. 

有兴趣的可以一起聊聊啊! 

erp2@163.com   
www.519so.com  是我花了两周时间做的一个小测试服务器的内存是 512MB 

QQ:99923309 
up
欢迎大家批评指正!
不错不错
还是这样的帖子好,大家可以交流

我想问个问题,您的搜索抓到的网页怎么判断还能不能用?
因为部分网页在一定时间以后就不可用了
多谢

请教关于临界的用法(down up) 如何更改数据窗口的背景颜色和数据颜色 江湖救急!!!!!!!!!!!!!! 存储过程中如何用sql代码判断一个select查询的返回为空呢? 请教关于临界的用法(down up) 如何在有人访问静态页的时候重新生成它? 请教,关于子网划分中子网号能不能为全0和全1问题? 分页存储过程(讨论) 在document对象里怎么分离出图片和文字? 关于如何使用API函数的方法 求助~~一个web开发中保存数据时遇到的一个问题~~ 关于设置复杂对话框tab order(按tab键使控件焦点转移)的问题 存储过程中如何用sql代码判断一个select查询的返回为空呢? 关于内网访问IIS的问题 非常奇怪的程序发布的问题? 救命啊。不会要重装吧。 有人知道cfg和ini文件是做什么的么~?有这样的例子么,这样的文件到底怎么用呀 DataGrid 的镶套问题?? 请问各位我在2003的系统服务器上发布.net的项目出现以下错误,是怎么回事,哪里需要配置才能解决? 事務處理一定是對資料庫的資料進行??? 如何写一个过程,用排序串方法实现对树的展开. ASP中,怎么把网址隐藏? 如何然列表筐的内容有些可以选择有些不能选择? 如何提出数据库表中的字段? 2000server辅助域控制器的问题 遇到一个区域的问题(很急,在线等) 事務處理只能針對資料庫(如果我的資料放在xml中怎么辦)? EXCEL文件打不开,出现如下警告 怎么样把sql server2000的视图转为ACCESS的查询表(急在线等待) 如果加载的内核模块出错了,怎么卸载??