收录日期:2019/10/18 22:09:01 时间:2016/06/06 10:24:45 标签:Apache
最近我研究 全文搜索引擎的心得 
研究心得: 
1、看到网上那么多人在研究: Google的Page Rank我很心痛 ,我就看了两天Page Rank的资料,就明白它哪个算法基本上没有任何实用价值。其实只是一个思路而已,如果完全照搬它的算法,那将一事无成。 
2、还有很多人研究什么Java中的Luncece那就更可笑了,我就举一个很简单的问题:一亿网页的容量有多大,谁能告诉我? 
     接近 1万G呀,所以用普通编程的思路做全文搜索引擎是行不通的 。 
3、还有很多人研究中文分词,写了很长的文章,却只字不提中文分词在搜索引擎中的作用和用途。其实应该是两不分: A、用来计算关键字在文本中出现的次数 B、用来查询的。 
4、还有很多人问那些信息是如何保存的,其实很简单:文件+数据库 
最后我要说一下总体思路: 
  抓取----然后---预处理----然后索引---然后----保密 
预处理: 包括计算 rank 将htm文件中的htm表示提取纯文本信息 ,然后保存对应的文本信息 
数据库中只保存 文件编号 url Rank  Title 纯文本信息等基本信息 
然后索引  索引很重要么?  答案是:索引不是非常重要  
主要是 "保密" 这部分的运算 
运算之后就可以直接将结果返回给客户端了  
用我的新研究的方法进行运算取得结果用时在 1秒以内   

以上是我研究的一些心得,希望对大家有所帮助。 

也许有人会问,那你用什么语言开发? 
当然用 C、C++ 最好,其次是用Delphi开发 ,这样不但效率高,还可以保证程序在Linux下照样可以执行。 

最后也许还有人回问,蜘蛛的效率如何,你写过没有? 
答案是:我正在写,下面是一个网友对我的小蜘蛛进行的评测: 
========================================= 
▄【┻┳═一(99923309) 12:05:57 
思鱼给他们讲讲我的 蜘蛛  
思鱼(20275543) 12:02:50 
我在家里测试了一下 
  
思鱼(20275543) 12:03:00 
很不错 
  
思鱼(20275543) 12:03:10 
和摆渡前几年的一样   
============================ 
根据我自己的测试,我电脑的配置(P4+512MB内存+40G硬盘+512K的带宽)一天可以抓取 10万个网页,而且每个网页的大小限制在 100K以内,Baidu目前每个网页的大小限制在 130K以内。 

最后,我已经收集了100万个国内的一级域名. 

有兴趣的可以一起聊聊啊! 

erp2@163.com   
www.519so.com  是我花了两周时间做的一个小测试服务器的内存是 512MB 

QQ:99923309 
无聊的人~

你把你的数据换成一千万条记录,每条记录都是由 12800个‘无聊的人’组成的文字。

然后你搜索‘无聊’。

看你怎么把全部内容列出来,再看看你自己如何做的。
日,关键的东西一点都不说,就上来显摆!

如果你是白痴,大家可以原谅你。

如果,你是所谓的高人,至少我鄙视你!!!
在google 上搜索 
fdsafdsafdsafdsafdsafdsafdsafdsafdsafd
fdsafdsafdsafdsafdsafdsafdsafdsafd

分别看结果,能想到什么?

--------世界末日来了 怕怕了 咋办-------- treeview如何操作 Cocos2d CCNode 指定显示区域 新人报道,如何发帖 菜鸟一枚,求各位前辈指点一二。 C语言fread的问题 vb utf-8编码转中文 富文本框中记录新插入的文字 ASP修改密码,输入相同的密码提示密码不同 设计个像图片所示的那个样子的 登录 但不知道怎么搞 在图片上有 登录的form,求高手解决! smarty3.x {nocache}...{/nocache}之间的代码永远不会缓存? ASPxGridView控件的中英文版问题。。。。 末日前上CSDN C++中文乱码 请问每五条取一条记录怎么写 配置了org.springframework.web.context.ContextLoaderListener后,还可以使用普通Servlet么? 设计如图片所显示的登录,但不知道如何实现在图片上搞个登录,求高手解决! 初学servlet 看了韩顺平的视频, 写了简单用户登录的代码,继承了Httpservlet ,发现不能进行页面跳转,各位大神看看,小弟没分,真心求助 坚持不下去了 还是想辞职 虽然还有2个月都过年了 不显示删除回复 显示所有回复 显示星级回复 显示得分回复 收藏 新人问个用JDBC注册登陆页面的问题 希望各位大哥指点下思路 一个错误的解答 serv-u 搭建内网FTP服务器 内网正常,外网无法访问的问题。。。紧急啊!! 按学生姓名分组汇总所选课程明细的问题 商品信息数据库设计 Linux下C编程关于遍历的问题 分析实现这种网站需要多少人?多长时间能够完成?用什么技术? 为什么dataGridView会显示红叉叉,在Timer显示的 有人做过虚拟打印技术吗? apache 开启Rewrite模块报错 模板中嵌套模板,看不懂