了解下JAVA的用Java+MySQL+PHP轻松构建跨平台的搜刮引擎
学习JAVA的目的更多的是培养自身的工作能力,我觉得工作能力的一个核心就是:独立思考能力,因为只有独立思考后,才会有自己的见解此搜刮引擎适于在一其中等范围的局域网中利用,因为找到的网页存在数据库中,不但能够索静态的Html页面,能够搜刮PHP、ASP等静态页面。关于一个具有5万个网页的体系(利用PII-400作为服务器),搜刮呼应工夫在2-10秒摆布,完整能够满意请求,因为Java、mysql、PHP都是跨平台的软件,以是此搜刮引擎不但能够事情在Windows服务器上,并且也能够事情在Linux等其他体系中。
1、创建搜刮引擎必要的数据库和数据表。
起首创建数据库:
c:mysqlin>mysqladmin-uroot-pmypasswdcreateSpider
然后创建数据库中的表布局
c:mysqlin>mysql-uroot-pmypasswdSpider<Spider.mysql
个中Spider.mysql为一个文本文件,其内容以下:
CREATETABLElink(
Idint(10)unsignedNOTNULLauto_increment,
Urlvarchar(120)NOTNULL,
Classtinyint(3)unsignedNOTNULLdefault0,
IsSearchLinktinyint(3)unsigneddefault0,
PRIMARYKEY(Url),
UNIQUEId(Id),
KEYUrl(Url),
KEYClass(Class)
);
#本局域网的初始主页地点,搜刮蜘蛛今后网址入手下手搜刮一切其他网页
INSERTINTOlinkVALUES(1,HTTP://102.211.69.1/,0,0);
#数据表webpagelocal用来寄存下载的一切的网页
CREATETABLEwebpagelocal(
Idint(10)unsignedNOTNULLauto_increment,
Urlvarchar(120)NOTNULL,
ContenttextNOTNULL,
PRIMARYKEY(Url),
UNIQUEId(Id),
KEYUrl(Url)
);
#数据表webpagefindfast
#用MakeFast.php从表webpagelocal中提取512字节的检索信息寄存个中
CREATETABLEwebpagefindfast(
Idint(10)unsignedNOTNULL,
Urlvarchar(120)NOTNULL,
Titlevarchar(64),
Contentblob,
PRIMARYKEY(Url),
KEYUrl(Url),
KEYTitle(Title)
);
<p>
令人可喜的是java现在已经开源了,所以我想我上述的想法也许有一天会实现,因为java一直都是不断创新的语言,每次创新都会给我们惊喜,这也是我喜欢java的一个原因。 是一种使网页(Web Page)产生生动活泼画面的语言 应用在电视机、电话、闹钟、烤面包机等家用电器的控制和通信。由于这些智能化家电的市场需求没有预期的高,Sun公司放弃了该项计划。随着1990年代互联网的发展 是一种简化的C++语言 是一种安全的语言,具有阻绝计算机病毒传输的功能 关于设计模式的资料,还是向大家推荐banq的网站 http://www.jdon.com/,他把GOF的23种模式以通俗易懂的方式诠释出来,纯Java描述,真是经典中的经典。 另外编写和运行Java程序需要JDK(包括JRE),在sun的官方网站上有下载,thinking in java第三版用的JDK版本是1.4,现在流行的版本1.5(sun称作J2SE 5.0,汗),不过听说Bruce的TIJ第四版国外已经出来了,是专门为J2SE 5.0而写的。 所以现在应用最广泛又最好学的就是J2EE了。 J2EE又包括许多组件,如Jsp,Servlet,JavaBean,EJB,JDBC,JavaMail等。要学习起来可不是一两天的事。那么又该如何学习J2EE呢?当然Java语法得先看一看的,I/O包,Util包,Lang包你都熟悉了吗?然后再从JSP学起。 你现在最缺的是实际的工作经验,而不是书本上那些凭空想出来的程序。 是一种突破用户端机器环境和CPU 应用在电视机、电话、闹钟、烤面包机等家用电器的控制和通信。由于这些智能化家电的市场需求没有预期的高,Sun公司放弃了该项计划。随着1990年代互联网的发展 你现在最缺的是实际的工作经验,而不是书本上那些凭空想出来的程序。
页:
[1]