收录日期:2020/05/31 08:12:31 时间:2016/06/06 10:24:43 标签:JavaScript
最近我研究 全文搜索引擎的心得 
研究心得: 
1、看到网上那么多人在研究: Google的Page Rank我很心痛 ,我就看了两天Page Rank的资料,就明白它哪个算法基本上没有任何实用价值。其实只是一个思路而已,如果完全照搬它的算法,那将一事无成。 
2、还有很多人研究什么Java中的Luncece那就更可笑了,我就举一个很简单的问题:一亿网页的容量有多大,谁能告诉我? 
     接近 1万G呀,所以用普通编程的思路做全文搜索引擎是行不通的 。 
3、还有很多人研究中文分词,写了很长的文章,却只字不提中文分词在搜索引擎中的作用和用途。其实应该是两不分: A、用来计算关键字在文本中出现的次数 B、用来查询的。 
4、还有很多人问那些信息是如何保存的,其实很简单:文件+数据库 
最后我要说一下总体思路: 
  抓取----然后---预处理----然后索引---然后----保密 
预处理: 包括计算 rank 将htm文件中的htm表示提取纯文本信息 ,然后保存对应的文本信息 
数据库中只保存 文件编号 url Rank  Title 纯文本信息等基本信息 
然后索引  索引很重要么?  答案是:索引不是非常重要  
主要是 "保密" 这部分的运算 
运算之后就可以直接将结果返回给客户端了  
用我的新研究的方法进行运算取得结果用时在 1秒以内   

以上是我研究的一些心得,希望对大家有所帮助。 

也许有人会问,那你用什么语言开发? 
当然用 C、C++ 最好,其次是用Delphi开发 ,这样不但效率高,还可以保证程序在Linux下照样可以执行。 

最后也许还有人回问,蜘蛛的效率如何,你写过没有? 
答案是:我正在写,下面是一个网友对我的小蜘蛛进行的评测: 
========================================= 
▄【┻┳═一(99923309) 12:05:57 
思鱼给他们讲讲我的 蜘蛛  
思鱼(20275543) 12:02:50 
我在家里测试了一下 
  
思鱼(20275543) 12:03:00 
很不错 
  
思鱼(20275543) 12:03:10 
和摆渡前几年的一样   
============================ 
根据我自己的测试,我电脑的配置(P4+512MB内存+40G硬盘+512K的带宽)一天可以抓取 10万个网页,而且每个网页的大小限制在 100K以内,Baidu目前每个网页的大小限制在 130K以内。 

最后,我已经收集了100万个国内的一级域名. 

有兴趣的可以一起聊聊啊! 

erp2@163.com   
www.519so.com  是我花了两周时间做的一个小测试服务器的内存是 512MB 

QQ:99923309 
输入"c#"一试--牛,500错误,就这样还和百度差不多,没语言了.
mark
这也叫研究?还用asp写前台,输个单引号就错误
这么跟你说,搜索引警不是你看的那么简单的
那是第一个版本!
是我春节前花了不到两周时间写的!
做的不好,欢迎大家批评指正!
鼓励继续深入
不管楼主做的如何,不要打击人,国内的讨论环境就这样啊?

支持!!!!!
命中率不高  (我认为)

不过 支持你     希望你继续努力,干掉百度!
打算学习一下~继续努力
今天有好几个人都要求我去baidu的,还说我要是没有去baidu将是一种遗憾:) 

哈哈
楼主满有趣的。
支持!
别听人说,你自己投份简历BAIDU试试,看是否百度的人也认为没有你是种损失。
但是我一点也不懂呀!!!首先第一步抓取我就不明白了,万维网这么大,怎么抓呀?
问一下那么多数据你是按什么方式来建表存储数据的?
问一下那么多数据你是按什么方式来建表存储数据的?
搜索引擎核心的东西全体现不出来,这种级别的搜索不用2周来作吧
唉!你的分词做得也太差了吧?安全性和人性化也基本没有考虑过。

还有,就是,我的天呀!没见过在技术界这么喜欢表现自己的!
正是俗语说的:
空的瓶子和满的瓶子都不响,只有XXX的瓶子才响动最大:)
GET /s/?wd=%F4 HTTP/1.1
Accept: */*
Accept-Charset: gb2312
Accept-Language: zh-cn
User-Agent: Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.0; .NET CLR 1.0.3705)
Host: www.519so.com
Connection: close


HTTP/1.1 500 Internal Server Error
Server: Microsoft-IIS/5.0
Date: Mon, 06 Mar 2006 17:57:49 GMT
Connection: close
Content-Type: text/html
Content-Length: 157
Content:

<html><body><h1>Internal Application Error</h1>
<p>Could not convert variant of type (String) into type (Boolean)
<p><hr width="100%"><i></i></body></html>
都别光说不练了。
楼主的思路都是对的,不过得慢慢来

多关键词搜索怎么弄?排序呢。
现在数据库里有多少个网页?

DELPHI中怎样动态生成菜单? 如何在实现一个文本编辑器,要能插入图片的? 有现成的控件可以用吗? 比如 RichEdit 控件能否插入图片. 请问我如何将csdn的邮件列表打开???为什么在油箱中打开总是下载? 如何在局域网内实现Unix到Wondows的文件拷贝 我前几天安装donino服务器和notes客户端,发现如下问题..但是在win98下hosts文件是否能起作用,还是不知道???......大家看我的问题.. 初学者,这个存储过程错在哪里呀? 有大哥会用netcopy吗?能说说具体怎么操作? 网络连接判断问题 combobox的问题 怎样获得局域网内的所有计算机名称列表或IP列表! 如何使自己用上英文版的XP?请教。 请问编写ASP代码除了interdev外还有什么好的编辑器? 如何在局域网内实现Unix到Wondows的文件拷贝 最近刚从PB转到ASP,希望能结交几个ASP高手,QQ:125852751 用ado.net为什么还是用oledb 闯了大祸,各位兄弟救我!!! 制作控件 关于建立C/S数据库 关于hook的两个问题,谢谢 用户如何自已定义报表格,(如票据大小,打印的位置等) 有谁知道将jpg图片存入access数据库的代码? 面试闯了大祸,各位兄弟救我!!! 数据库和图形的问题!! 98下的汇编语言用什么编辑器啊? dos下如何实现多线程???? 如何在局域网内实现Unix到Wondows的文件拷贝 dataset问题,斑竹们,救我 如何清除history和last命令中显示的东东? 100分只要你给个网址!!!!! 关于用键盘控制的问题!!!?