|
马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。
您需要 登录 才可以下载或查看,没有帐号?立即注册
x
学习JAVA的目的更多的是培养自身的工作能力,我觉得工作能力的一个核心就是:独立思考能力,因为只有独立思考后,才会有自己的见解
此搜刮引擎适于在一其中等范围的局域网中利用,因为找到的网页存在数据库中,不但能够索静态的Html页面,能够搜刮PHP、ASP等静态页面。关于一个具有5万个网页的体系(利用PII-400作为服务器),搜刮呼应工夫在2-10秒摆布,完整能够满意请求,因为Java、mysql、PHP都是跨平台的软件,以是此搜刮引擎不但能够事情在Windows服务器上,并且也能够事情在Linux等其他体系中。
1、创建搜刮引擎必要的数据库和数据表。
起首创建数据库:
c:mysqlin>mysqladmin-uroot-pmypasswdcreateSpider
然后创建数据库中的表布局
c:mysqlin>mysql-uroot-pmypasswdSpider<Spider.mysql
个中Spider.mysql为一个文本文件,其内容以下:
CREATETABLElink(
Idint(10)unsignedNOTNULLauto_increment,
Urlvarchar(120)NOTNULL,
Classtinyint(3)unsignedNOTNULLdefault0,
IsSearchLinktinyint(3)unsigneddefault0,
PRIMARYKEY(Url),
UNIQUEId(Id),
KEYUrl(Url),
KEYClass(Class)
);
#本局域网的初始主页地点,搜刮蜘蛛今后网址入手下手搜刮一切其他网页
INSERTINTOlinkVALUES(1,HTTP://102.211.69.1/,0,0);
#数据表webpagelocal用来寄存下载的一切的网页
CREATETABLEwebpagelocal(
Idint(10)unsignedNOTNULLauto_increment,
Urlvarchar(120)NOTNULL,
ContenttextNOTNULL,
PRIMARYKEY(Url),
UNIQUEId(Id),
KEYUrl(Url)
);
#数据表webpagefindfast
#用MakeFast.php从表webpagelocal中提取512字节的检索信息寄存个中
CREATETABLEwebpagefindfast(
Idint(10)unsignedNOTNULL,
Urlvarchar(120)NOTNULL,
Titlevarchar(64),
Contentblob,
PRIMARYKEY(Url),
KEYUrl(Url),
KEYTitle(Title)
);
<p>
令人可喜的是java现在已经开源了,所以我想我上述的想法也许有一天会实现,因为java一直都是不断创新的语言,每次创新都会给我们惊喜,这也是我喜欢java的一个原因。 |
|