|
马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。
您需要 登录 才可以下载或查看,没有帐号?立即注册
x
PHP原始为Personal Home Page的缩写,已经正式更名为 "PHP: Hypertext Preprocessor"。注意不是“Hypertext Preprocessor”的缩写,这种将名称放到定义中的写法被称作递归缩写。 综述 XML代表Extensible Markup Language(eXtensible Markup Language的缩写,意为可扩大的标志言语)。XML是一套界说语义标志的划定规矩,这些标志将文档分红很多部件并对这些部件加以标识。它也是元标志言语,即界说了用于界说其他与特定范畴有关的、语义的、布局化的标志言语的句法言语。XML是现今最火门的手艺。而PHP也具有剖析XML文档的功效,上面咱们将配合切磋一下PHP中的XML使用的情形。
XML概貌
谈起XML(eXtended Markup Language:可扩大标志言语),咱们无妨先看一段HTML的代码:
<html>
<title>XML</title>
<body>
<p><center><font color="red">TEXT</font></center></p>
<a href="www.domain.com"><img src="http://edu.cnzz.cn/NewsInfo/logo.jpg"/></a>
</body>
</html>
下面这段代码从布局上就合适XML的划定规矩,XML可以了解是包括数据的树形的布局类型:
1、援用统一个元素的时分,利用分歧的巨细写,如<center></Center>就是不合适划定的
2、任何属性值(如 href="????")要用""引发来,如<a href=www.yahoo.com>就是不准确的
3、一切元素必需由翻开<和封闭>标注构成,元素应当形如<body></body>或空元素<img ... />,假如开头的 "/>" 少了"/"就是毛病的代码
4、一切元素必需彼此嵌套,就像写法式的轮回一样,并且,一切的元素必需嵌套于根元素当中,好比下面的代码一切的内容都嵌套于<html></html>当中。
5、元素称号(即下面的body a p img等)应为字母开首。
如何使用PHP的XML解析器Expat?
Expat是PHP剧本言语的XML解析器(一样称为XML处置器),可使法式会见XML文档的布局和内容。它是一种基于事务的解析器。XML解析器有两种根基类型:
基于树型的解析器:将XML文档转换成树型布局。这类解析器剖析整篇文章,同时供应一个API来会见所发生树的每一个元素。其通用的尺度为DOM(文档对象形式)。
基于事务的解析器:将XML文档视为一系列的事务。当一个特别事务产生时,解析器将挪用开辟者供应的函数来处置。基于事务的解析器有一个XML文档的数据集中视图,也就是说它集中在XML文档的数据局部,而不是其布局。这些解析器从头至尾处置文档,并将相似于-元素的入手下手、元素的开头、特点数据的入手下手等等-事务经由过程回调(callback)函数呈报给使用法式。
以下是一个"Hello-World"的XML文档典范:
<greeting>
Hello World
</greeting>
基于事务的解析器将呈报为三个事务:
入手下手元素:greeting
CDATA项的入手下手,值为:Hello World
停止元素:greeting
基于事务的解析器不发生描写文档的布局,固然假如利用Expat,需要时它一样可以在PHP中生成完整的原生树布局。在CDATA项中,基于事务的解析器不会失掉父元素greeting的信息。但是,它供应一个更底层的会见,这就使得可以更好天时用资本和更快地会见。经由过程这类体例,就没有需要将全部文档放入内存;而现实上,全部文档乃至可以大于实践内存值。
下面Hello-World的典范固然包含完全的XML格局,但它是有效的,由于既没有DTD(文档类型界说)与其接洽,也没有内嵌DTD。然而Expat是一个不反省无效性的解析器,因而疏忽任何与文档接洽的DTD。应注重的是文档依然需求完全的格局,不然Expat(和其他合适XML尺度的解析器一样)将会跟着失足信息而中断。
编译Expat
Expat可以编译进PHP3.0.6版本(或以上)中。从Apache1.3.22入手下手,Expat已作为Apache的一局部。在Unix体系中,可以经由过程-with-xml选项设置装备摆设PHP将其编译入PHP。
假如将PHP编译为Apache的模块,而Expat将默许作为Apache的一局部。在Windows中,则必需要加载XML静态毗连库。
XML典范:XMLstats
咱们所要会商的典范是利用Expat来搜集XML文档的统计数据。
关于文档中每一个元素,以下信息都将被输入:
该元素在文档中利用的次数
该元素中字符数据的数目
元素的父元素
元素的子元素
注重:为了演示,咱们使用PHP来发生一个布局来保留元素的父元素和子元素
用于发生XML解析器实例的函数有哪些?
用于发生XML解析器实例的函数为xml_parser_create()。该实例将用于今后的一切函数。这个思绪十分相似于PHP中MySQL函数的毗连标志。在解析文档前,基于事务的解析器凡是请求注册回调函数-用于特定的事务产生时挪用。Expat没有破例事务,它界说了以下七个能够事务:
对象 XML解析函数 描写
元素 xml_set_element_handler() 元素的入手下手和停止
字符数据 xml_set_character_data_handler() 字符数据的入手下手
内部实体 xml_set_external_entity_ref_handler() 内部实体呈现
未解析内部实体 xml_set_unparsed_entity_decl_handler() 未解析的内部实体呈现
处置指令 xml_set_processing_instruction_handler() 处置指令的呈现
记法声明 xml_set_notation_decl_handler() 记法声明的呈现
默许 xml_set_default_handler() 其它没有指定处置函数的事务
一切的回调函数必需将解析器的实例作为其第一个参数(另外还有其它参数)。
关于本文最初的典范剧本,需求注重的是它既用到了元素处置函数又用到了字符数据处置函数。元素的回调解理函数经由过程xml_set_element_handler()来注册。
这个函数需求三个参数:
解析器的实例
处置入手下手元素的回调函数的称号
处置停止元素的回调函数的称号
当入手下手解析XML文档时,回调函数必需存在。它们必需界说为与PHP手册中所描写的原型分歧。
例如,Expat将三个参数传递给入手下手元素的处置函数。在剧本典范中,其界说以下:
function start_element($parser, $name, $attrs)
$parser是解析器标记,$name是入手下手元素的称号,$attrs为包括元素一切属性和值的数组。
一旦入手下手解析XML文档,Expat在碰到入手下手元素是都将挪用start_element()函数并将参数传递曩昔。
XML的Case Folding选项
用xml_parser_set_option()函数将Case folding选项封闭。这个选项默许是翻开的,使得传递给处置函数的元素名主动转换为大写。但XML对巨细写是敏感的(所以巨细写对统计XML文档长短常主要的)。关于咱们的典范,case folding选项必需封闭。
若何对文档停止解析?
在完成一切的筹办任务后,如今剧本终究可以解析XML文档:
Xml_parse_from_file(),一个自界说的函数,翻开参数中指定的文件,并以4kb的巨细停止解析
xml_parse(),和xml_parse_from_file()一样,当产生毛病时,即XML文档的格局不完整时,将会前往false。
咱们可使用xml_get_error_code()函数来失掉最初一个毛病的数字代码。将此数字代码传递给xml_error_string()函数便可失掉毛病的文本信息。输入XML以后的行数,使得调试更轻易。
当解析文档时,关于Expat需求强调成绩的是:若何坚持文档布局的根基描写?
如前所述,基于事务的解析器自己其实不发生任何布局信息。不外标签(tag)布局是XML的主要特征。例如,元素序列<book><title>暗示的意思分歧于<figure><title>。书名和图名是没有关系的,固然它们都用到"title"这个术语。因而,为了更无效地利用基于事务的解析器处置XML,必需利用本人的栈(stacks)或列表(lists)来保护文档的布局信息。
为了发生文档布局的镜像,剧本最少需求晓得今朝元素的父元素。用Exapt的API是没法完成的,它只呈报今朝元素的事务,而没有任何前后关系的信息。因而,需求创立本人的栈布局。
剧本典范利用先辈后出(FILO)的栈布局。经由过程一个数组,栈将保留全体的入手下手元素。关于入手下手元素处置函数,今朝的元素将被array_push()函数推到栈的顶部。响应的,停止元素处置函数经由过程array_pop()将最顶的元素移走。
关于序列<book><title></title></book>,栈的填充以下:
入手下手元素book:将"book"赋给栈的第一个元素($stack[0])。
入手下手元素title:将"title"赋给栈的顶部($stack[1])。
停止元素title:从栈中将最顶部的元素移去($stack[1])。
停止元素title:从栈中将最顶部的元素移去($stack[0])。
PHP3.0经由过程一个$depth变量手动掌握元素的嵌套来完成典范,这就使剧本看起来对照庞杂。PHP4.0经由过程array_pop()和array_push()两个函数来使剧本看起来更简约。
若何搜集XML文档中的元素信息?
为了搜集每一个元素的信息,剧本需求记住每一个元素的事务。经由过程利用一个全局的数组变量$elements来保留文档中一切分歧的元素。数组的项目是元素类的实例,有4个属性(类的变量)
$count -该元素在文档中被发明的次数
$chars -元素中字符事务的字节数
$parents -父元素
$childs - 子元素
注重:PHP的一个特征是你可以经由过程while(list() = each())loop遍历全部类布局,好像你遍历全部响应的数组一样。一切的类变量(当你用PHP3.0时还无方法名)都以字符串的体例输入。
当发明一个元素时,咱们需求增添其响应的记数器来跟踪它在文档中呈现几何次。在响应的$elements项中的记数元素也要加一。
咱们一样要让父元素晓得今朝的元素是它的子元素。因而,今朝元素的称号将会到场到父元素的$childs数组的项目中。最初,今朝元素应当记住谁是它的父元素。所以,父元素被到场到今朝元素$parents数组的项目中。
显示统计信息
剩下的代码在$elements数组和其子数组中轮回显示其统计了局。这就是最复杂的嵌套轮回,虽然输入准确的了局,但代码既不简约又没有任何出格的技能,它仅仅是一个你能够天天用他来完成任务的轮回。
剧本典范被设计为经由过程PHP的CGI体例的号令行来挪用。因而,统计了局输入的格局为文本格局。假如你要将剧本应用到互联网上,那末你需求修正输入函数来发生HTML格局。
若何用PHP&XML编制一个迷你搜刮引擎实例?
让咱们起首来熟习一下咱们法式顶用到的谁人XML(保留为xyz.xml)。
<?xml version="1.0" encoding="gb2312" ?>
<links>采取PHP和XML手艺构建的搜刮引擎
<web memo="memo1" url="">name1</web>
<sub>电脑收集
<web memo="nemo2">name2</web>
<sub>法式设计
<web memo="memo3">name3</web>
<sub>PHP
<web url="http://www.phpbuilder.com/" memo="[英文]PHP开辟资本。">
www.phpbuilder.com</web>
<web url="http://www.fokus.gmd.de" memo="[英文]PHP开辟手册。 ">
PHP Manual</web>
</sub>
</sub>
</sub>
</links>
它的布局相当复杂,根元素就是links,sub代表着一个种别,web就是一个网站的信息,个中包括着属性,url代表网站的联接,memo为备注信息,<web>??</web> 、<sub>??</sub>中包括的为元素的数据在这里就是种别和网站的称号,这是合适下面的划定的。
如今咱们往返答下面提出的成绩:为何要用XML来编制搜刮引擎?
第一个缘由就是有时分因为各类缘由咱们能够不克不及用到数据库(MySQL或其他);
其次,关于小数据量的搜刮引擎来讲,它的数据量很小,假如用数据库来做,效力未必有多高;
最主要的一点是,这个搜刮引擎保护起来相当的复杂,而且不必编写繁琐的数据库的保护的法式。例如,咱们要添加一个种别或网页,只需编纂文本的文件,加上一福web>???</web>或是<sub>????</sub>就能够了,并且,假如想把一个种别挪动到另外一个中央的话,咱们只需将这一局部的sub复制曩昔就好了。
上面一个最复杂的用PHP显示XML的典范。
上面的法式是将解析XML并依照树形布局输入至阅读器,并显示每层的元素总数。
<?php
$file = "demo.xml";// XML文件
function xml_parse_from_file($parser, $file) {// 解析XML文件的函数 }
function start_element($parser, $name, $attrs) {//碰到了开元素标志如<a href="link">就履行这一段}
function stop_element($parser, $name) {//碰到了开元素标志如</body>就履行这一段}
function data($parser, $data) {……}
function showcount(){ //显示每层的元素总数}
global $level,$levelcount,$maxlevel;
$level = -1;
$parser = xml_parser_create();// 发生解析器的实例
xml_set_element_handler($parser, "start_element", "stop_element"); // 设置处置函数
xml_set_character_data_handler($parser, "data");
xml_parser_set_option($parser, XML_OPTION_CASE_FOLDING, 0);
$ret = xml_parse_from_file($parser, $file); // 解析文件
if(!$ret) {
die(sprintf("XML error: %s at line %d", xml_error_string(xml_get_error_code($parser)), xml_get_current_line_number($parser)));
}
xml_parser_free($parser); // 释放解析器
showcount();
?>
在下面的法式的基本上,可以显示一段子树,咱们按照元素的层数和他在该层的第几号来对他停止定位
例如:
links (0,1)
+----web (1,1)
+----sub (1,2)
| +----web (2,1)
| +----sub (2,2)
| | +----web (3,1)
| | +----sub (3,2)
:
:
:
上面的代码是咱们的搜刮引擎的基本。由于,要显示出一个子种别(如法式设计->PHP->)的信息就要用到他。
<?php
……
function start_element($parser, $name, $attrs) {
global $level,$levelcount,$maxlevel,$hide,$lev,$num,$PHP_SELF;
$level += 1;
if($level>$maxlevel)
$maxlevel=$level;
$levelcount[$level]+=1;
if($hide){ //判别是不是在子树的局限内,$hide==FALSE 为在
if($level==$lev&&$levelcount[$level]==$num)
$hide=FALSE;
}else{
if($level<=$lev)$hide=TRUE;
}
if(!$hide){
……//输入
}
}
function data($parser, $data) {
global $level,$hide;
if(!$hide){
if(trim($data)!=""){ echo trim($data); }
}
}
……
global $hide,$lev,$num,$PHP_SELF;
$level = -1;
$hide = TRUE;
echo "<p><a href=$PHP_SELF>Root</a></p>";
if($lev==""){
$lev=0;$num=1;
}
……
?>
mini的搜刮引擎究竟若何做呢?
作了若干的铺垫,上面咱们就来看一下咱们的搜刮引擎的次要文件。
第一段为仿sina,yahoo的依照种别查询
第二段为搜刮查询局部(把全部树遍历一遍)显示合适的内容。
xml3.php
关头字婚配采取eregi函数,咱们假定输出的文字都是不会招致毛病的。
小试一下身手,大概是没问题了,那么交给你个任务,做个留言本吧,这和HELLO WORLD有一比啊!^_^,同是新手面临的第一道关。 |
|