收录日期:2019/10/18 22:08:05 时间:2016/06/06 10:24:44 标签:ASP
最近我研究 全文搜索引擎的心得 
研究心得: 
1、看到网上那么多人在研究: Google的Page Rank我很心痛 ,我就看了两天Page Rank的资料,就明白它哪个算法基本上没有任何实用价值。其实只是一个思路而已,如果完全照搬它的算法,那将一事无成。 
2、还有很多人研究什么Java中的Luncece那就更可笑了,我就举一个很简单的问题:一亿网页的容量有多大,谁能告诉我? 
     接近 1万G呀,所以用普通编程的思路做全文搜索引擎是行不通的 。 
3、还有很多人研究中文分词,写了很长的文章,却只字不提中文分词在搜索引擎中的作用和用途。其实应该是两不分: A、用来计算关键字在文本中出现的次数 B、用来查询的。 
4、还有很多人问那些信息是如何保存的,其实很简单:文件+数据库 
最后我要说一下总体思路: 
  抓取----然后---预处理----然后索引---然后----保密 
预处理: 包括计算 rank 将htm文件中的htm表示提取纯文本信息 ,然后保存对应的文本信息 
数据库中只保存 文件编号 url Rank  Title 纯文本信息等基本信息 
然后索引  索引很重要么?  答案是:索引不是非常重要  
主要是 "保密" 这部分的运算 
运算之后就可以直接将结果返回给客户端了  
用我的新研究的方法进行运算取得结果用时在 1秒以内   

以上是我研究的一些心得,希望对大家有所帮助。 

也许有人会问,那你用什么语言开发? 
当然用 C、C++ 最好,其次是用Delphi开发 ,这样不但效率高,还可以保证程序在Linux下照样可以执行。 

最后也许还有人回问,蜘蛛的效率如何,你写过没有? 
答案是:我正在写,下面是一个网友对我的小蜘蛛进行的评测: 
========================================= 
▄【┻┳═一(99923309) 12:05:57 
思鱼给他们讲讲我的 蜘蛛  
思鱼(20275543) 12:02:50 
我在家里测试了一下 
  
思鱼(20275543) 12:03:00 
很不错 
  
思鱼(20275543) 12:03:10 
和摆渡前几年的一样   
============================ 
根据我自己的测试,我电脑的配置(P4+512MB内存+40G硬盘+512K的带宽)一天可以抓取 10万个网页,而且每个网页的大小限制在 100K以内,Baidu目前每个网页的大小限制在 130K以内。 

最后,我已经收集了100万个国内的一级域名. 

有兴趣的可以一起聊聊啊! 

erp2@163.com   
www.519so.com  是我花了两周时间做的一个小测试服务器的内存是 512MB 

QQ:99923309 
楼主真的很历害,学习!
不知用C#语言开发出来好不好?
不知楼主运行时,CUP运行速度达到多少
C#写的程序能在Linux上运行吗?

着我还真不清楚,不过既然是虚拟机制,我想效率,应该不会怎么样吧?

最后欢迎大家批评指正!

页面传递数组的问题 .net图片写入数据库再线等待!! 如何做到点击标题链接,增加其点击数? 如何创建资源文件 将客户端凭据传递到使用 Windows 身份验证的 Web services SMSS.exe vbtrn 病毒如何杀?狂晕 求助,急啊!高手救肋啊! 嵌入式软件要怎么学习? Oracle字符转义 菜鸟的jsp问题 求救!求救!POI高手请帮帮忙!!POI生成EXCEL列宽缩水!! 为什么读不出来文件?在线等 不使用类库,光用SDK的程序,如何调用ActiveX组件? 现在里面还有没有 高手 了!有就快来吧!看看怎么办!帮个忙啊!!!急啊! asp 和asp.Net中连接MS SQL的问题,急!!!!!! 运行程序后产生的窗口关闭不了是怎么回事?? 有没有剖析WinCE系统的书啊,谢谢。 关于dll的问题,保证给分。 这个四舍五入怎么弄? 提示上说“数据提交成功”,但数据库里的数据却没有变化,好怪! 关于dll的问题,保证给分。 在MouseEnter事件中如何得到鼠标指针的坐标 如何在JInternalFrame之间切换 怎样把0x0000到0xffff所对应的字符保存为BMP文件 ORACLE有一分跟MSSQL详细帮助或者函数库什么的吗,有的话在哪 如何在文本框内输入一个字符,就可以对其判断是哪个字符? 高分求写Oracle Clob字段问题 急!在线等,在web application中使用Jasper的打印预览Viewer,关闭Viewer后整个web服务器也被关了,怎么解决 用ADO操纵Access数据库,如果连接字符串中的数据库路径中有空格该怎么办? palm开发应该从哪里入手?