收录日期:2019/10/22 14:58:53 时间:2016/06/06 10:24:39 标签:HTML/XML
最近我研究 全文搜索引擎的心得 
研究心得: 
1、看到网上那么多人在研究: Google的Page Rank我很心痛 ,我就看了两天Page Rank的资料,就明白它哪个算法基本上没有任何实用价值。其实只是一个思路而已,如果完全照搬它的算法,那将一事无成。 
2、还有很多人研究什么Java中的Luncece那就更可笑了,我就举一个很简单的问题:一亿网页的容量有多大,谁能告诉我? 
     接近 1万G呀,所以用普通编程的思路做全文搜索引擎是行不通的 。 
3、还有很多人研究中文分词,写了很长的文章,却只字不提中文分词在搜索引擎中的作用和用途。其实应该是两不分: A、用来计算关键字在文本中出现的次数 B、用来查询的。 
4、还有很多人问那些信息是如何保存的,其实很简单:文件+数据库 
最后我要说一下总体思路: 
  抓取----然后---预处理----然后索引---然后----保密 
预处理: 包括计算 rank 将htm文件中的htm表示提取纯文本信息 ,然后保存对应的文本信息 
数据库中只保存 文件编号 url Rank  Title 纯文本信息等基本信息 
然后索引  索引很重要么?  答案是:索引不是非常重要  
主要是 "保密" 这部分的运算 
运算之后就可以直接将结果返回给客户端了  
用我的新研究的方法进行运算取得结果用时在 1秒以内   

以上是我研究的一些心得,希望对大家有所帮助。 

也许有人会问,那你用什么语言开发? 
当然用 C、C++ 最好,其次是用Delphi开发 ,这样不但效率高,还可以保证程序在Linux下照样可以执行。 

最后也许还有人回问,蜘蛛的效率如何,你写过没有? 
答案是:我正在写,下面是一个网友对我的小蜘蛛进行的评测: 
========================================= 
▄【┻┳═一(99923309) 12:05:57 
思鱼给他们讲讲我的 蜘蛛  
思鱼(20275543) 12:02:50 
我在家里测试了一下 
  
思鱼(20275543) 12:03:00 
很不错 
  
思鱼(20275543) 12:03:10 
和摆渡前几年的一样   
============================ 
根据我自己的测试,我电脑的配置(P4+512MB内存+40G硬盘+512K的带宽)一天可以抓取 10万个网页,而且每个网页的大小限制在 100K以内,Baidu目前每个网页的大小限制在 130K以内。 

最后,我已经收集了100万个国内的一级域名. 

有兴趣的可以一起聊聊啊! 

erp2@163.com   
www.519so.com  是我花了两周时间做的一个小测试服务器的内存是 512MB 

QQ:99923309 
‘ 然后索引  索引很重要么?  答案是:索引不是非常重要  ??’

---楼主这个结论未免太片面了。搜索引擎没有索引如何在短时间内返回搜索结果? 如何根据搜索关键字找到对应的document?

你居然去否认lucene?!lucene的倒排索引效率非常高,已经在很多地方被采用了。

而中文分词涉及的知识更多,直接对中文搜索结果产生影响。

楼主未免有点自大。
Nutch 是一Open source ,也是基于 Luecene 索引的。

我们曾用Nutch开源软件做过试验,其效果和google的结果很相近。

我看了楼主贴的网站,搜了一下,结果没什么意义。 只是那篇文章有搜索关键字而已。一个搜索

引擎的意义在于找出最好的,最贴近,最符合用户需求的结果。

请教个关于线程的问题 nxc 超声波传感器 取值范围之外的数值的表示方法 求助高手 SQL Server性能优化若干问。 问个不连续编号的问题 谁干的?有蛋蛋说句话,没的算了。 WPF XamDataGrid 关于Open Inventor开发 转帖,诗歌<驱鬼> Flex的问题,ReferenceError: Error #1069 冰天雪地跪求:printf一次大概有多少延迟?非常感谢 MFC的CWinApp启动CWinThread.run()调用AfxWinMain,为什么程序入口不是WinMain? 四年工作经验从北京杀向深圳,求助 为什么有的数据库有代码提示,有的没有? 联想集团主席柳传志获“世界企业家”大奖 关于dotnetCHARTING控件的问题 关于button触发page_load的问题 周未散分,所有序程最经典的一句话是? 求助:VC6.0程序转VS2005出错! 什么事情必须要用到VirtualAlloc? vs 如何设置字体和颜色 mvc的一个form提交的问题,谢谢 保存结构体里的变量 专业要分方向,帮忙分析一下 俺只是天朝的屁民,不是人质、炮灰 支持360打倒tx vs 编译 c 程序时 出现fatal error 的问题 关于ddk的 鸡鸡鸡 说说你达到月薪过万的职业发展历程 什么代码能够实现弹出“编辑相片 ”窗口限定时间内自动关闭! 用ATL实现一个Com组件的话,就不用手动实现QueryInterface,AddRef,Release了吗?