来谈谈：搜刮引擎的蜘蛛人（ROBOTS）奥密

只看该作者 · 发表于 2015-1-15 23:26:39

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

您需要登录才可以下载或查看，没有帐号？立即注册

x

结构清晰，容易被搜索引擎搜索到，天生优化了seo

我们晓得，搜刮引擎都有本人的“搜刮呆板人”（ROBOTS），并经由过程这些ROBOTS在收集上沿着网页上的链接（通常为http和src链接）不休抓取材料创建本人的数据库。

关于网站办理者和内容供应者来讲，偶然候会有一些站点内容，不但愿被ROBOTS抓取而公然。为懂得决这个成绩，ROBOTS开辟界供应了两个举措：一个是robots.txt，另外一个是TheRobotsMETA标签。

1、robots.txt

1、甚么是robots.txt？

robots.txt是一个纯文本文件，经由过程在这个文件中声明该网站中不想被robots会见的部分，如许，该网站的部分或全体内容就能够不被搜刮引擎收录了，大概指定搜刮引擎只收录指定的内容。

当一个搜刮呆板人会见一个站点时，它会起首反省该站点根目次下是不是存在robots.txt，假如找到，搜刮呆板人就会依照该文件中的内容来断定会见的局限，假如该文件不存在，那末搜刮呆板人就沿着链接抓取。

robots.txt必需安排在一个站点的根目次下，并且文件名必需全体小写。

网站URL
响应的robots.txt的URL

http://www.w3.org/
http://www.w3.org/robots.txt

http://www.w3.org:80/
http://www.w3.org:80/robots.txt

http://www.w3.org:1234/
http://www.w3.org:1234/robots.txt

http://w3.org/
http://w3.org/robots.txt

[123456789下一页
2、robots.txt的语法

"robots.txt"文件包括一条或更多的纪录，这些纪录经由过程空行分隔（以CR,CR/NL,orNL作为停止符），每笔记录的格局以下所示：

　　　　"<field>:<optionalspace><value><optionalspace>"。

在该文件中可使用#举行注解，详细利用办法和UNIX中的常规一样。该文件中的纪录一般以一行或多行User-agent入手下手，前面加上多少Disallow行,具体情形以下：

User-agent:

该项的值用于形貌搜刮引擎robot的名字，在"robots.txt"文件中，假如有多条User-agent纪录申明有多个robot会遭到该协定的限定，对该文件来讲，最少要有一条User-agent纪录。假如该项的值设为*，则该协定对任何呆板人均无效，在"robots.txt"文件中，"User-agent：*"如许的纪录只能有一条。

Disallow:

该项的值用于形貌不但愿被会见到的一个URL，这个URL能够是一条完全的路径，也能够是部分的，任何故Disallow开首的URL均不会被robot会见到。比方"Disallow:/help"对/help.html和/help/index.html都不同意搜刮引擎会见，而"Disallow:/help/"则同意robot会见/help.html，而不克不及会见/help/index.html。

任何一条Disallow纪录为空，申明该网站的一切部分都同意被会见，在"/robots.txt"文件中，最少要有一条Disallow纪录。假如"/robots.txt"是一个空文件，则关于一切的搜刮引擎robot，该网站都是开放的。

上面是一些robots.txt基础的用法：

l克制一切搜刮引擎会见网站的任何部分：
User-agent:*
Disallow:/

l同意一切的robot会见
User-agent:*
Disallow:
大概也能够建一个空文件"/robots.txt"file

l克制一切搜刮引擎会见网站的几个部分（下例中的cgi-bin、tmp、private目次）
User-agent:*
Disallow:/cgi-bin/
Disallow:/tmp/
Disallow:/private/

l克制某个搜刮引擎的会见（下例中的BadBot）
User-agent:BadBot
Disallow:/

l只同意某个搜刮引擎的会见（下例中的WebCrawler）
User-agent:WebCrawler
Disallow:

User-agent:*
Disallow:/

[上一页123456789下一页
3、罕见搜刮引擎呆板人Robots名字

称号搜刮引擎

Baiduspiderhttp://www.baidu.com

Scooterhttp://www.altavista.com

ia_archiverhttp://www.alexa.com

Googlebothttp://www.google.com

FAST-WebCrawlerhttp://www.alltheweb.com

Slurphttp://www.inktomi.com

MSNBOThttp://search.msn.com

4、robots.txt举例

上面是一些出名站点的robots.txt：

http://www.cnn.com/robots.txt

http://www.google.com/robots.txt

http://www.ckuyun.com/robots.txt

http://www.sun.com/robots.txt

http://www.eachnet.com/robots.txt

[上一页123456789下一页
5、罕见robots.txt毛病

l倒置了按次：
毛病写成
User-agent:*
Disallow:GoogleBot

准确的应当是：
User-agent:GoogleBot
Disallow:*

l把多个克制命令放在一行中：
比方，毛病地写成
Disallow:/CSS//cgi-bin//images/

1234下一页

提高易用性。使用CSS可以结构化HTML，例如：标签只用来控制段落，heading标签只用来控制标题，table标签只用来表现格式化的数据等等。

只看该作者 · 发表于 2015-1-16 00:35:17

有了CSS，我们不再需要用FONT标签或者透明的1pxGIF图片来控制标题，改变字体颜色，字体样式等等
准确的应当是
Disallow:/css/
Disallow:/cgi-bin/
Disallow:/images/

l行前有大批空格
比方写成
Disallow:/cgi-bin/
只管在尺度没有谈到这个，可是这类体例很简单出成绩。

l404重定向到别的一个页面：
当Robot会见良多没有设置robots.txt文件的站点时，会被主动404重定向到别的一个Html页面。这时候Robot经常会以处置robots.txt文件的体例处置这个Html页面文件。固然一样平常如许没有甚么成绩，可是最好能放一个空缺的robots.txt文件在站点根目次下。

l接纳年夜写。比方
USER-AGENT:EXCITE
DISALLOW:
固然尺度是没有巨细写的，可是目次和文件名应当小写：
user-agent:GoogleBot
disallow:

l语法中只要Disallow，没有Allow！
毛病的写法是：
User-agent:Baiduspider
Disallow:/john/
allow:/jane/

l健忘了斜杠/
毛病的写做：
User-agent:Baiduspider
Disallow:css

准确的应当是
User-agent:Baiduspider
Disallow:/css/

上面一个小工具专门反省robots.txt文件的无效性：

http://www.searchengineworld.com/cgi-bin/robotcheck.cgi</p>
[上一页123456789下一页
2、RobotsMETA标签

1、甚么是RobotsMETA标签

Robots.txt文件次要是限定全部站点大概目次的搜刮引擎会见情形，而RobotsMETA标签则次要是针对一个个详细的页面。和其他的META标签（如利用的言语、页面的形貌、关头词等）一样，RobotsMETA标签也是放在页面的<head></head>中，专门用来告知搜刮引擎ROBOTS怎样抓取该页的内容。详细的情势相似（见黑体部分）：

<html>

<head>

<title>时期营销--收集营销专业流派</title>

<metaname="Robots"content="index,follow">

<metahttp-equiv="Content-Type"CONTENT="text/html;charset=gb2312">

<metaname="keywords"content="营销…">

<metaname="description"content="时期营销网是…">

<linkrel="stylesheet"href="/public/css.css"type="text/css">

</head>

<body>

…

</body>

</html>

[上一页123456789下一页
2、RobotsMETA标签的写法：

RobotsMETA标签中没有巨细写之分，name=”Robots”暗示一切的搜刮引擎，能够针对某个详细搜刮引擎写为name=”BaiduSpider”。content部分有四个指令选项：index、noindex、follow、nofollow，指令间以“,”分开。

INDEX指令告知搜刮呆板人抓取该页面；

FOLLOW指令暗示搜刮呆板人能够沿着该页面上的链接持续抓取下往；

RobotsMeta标签的缺省值是INDEX和FOLLOW，只要inktomi除外，关于它，缺省值是INDEX,NOFOLLOW。

如许，一共有四种组合：

<METANAME="ROBOTS"CONTENT="INDEX,FOLLOW">

<METANAME="ROBOTS"CONTENT="NOINDEX,FOLLOW">

<METANAME="ROBOTS"CONTENT="INDEX,NOFOLLOW">

<METANAME="ROBOTS"CONTENT="NOINDEX,NOFOLLOW">

个中

<METANAME="ROBOTS"CONTENT="INDEX,FOLLOW">能够写成

<METANAME="ROBOTS"CONTENT="ALL">；

<METANAME="ROBOTS"CONTENT="NOINDEX,NOFOLLOW">能够写成

<METANAME="ROBOTS"CONTENT="NONE">

必要注重的是：上述的robots.txt和RobotsMETA标签限定搜刮引擎呆板人（ROBOTS）抓取站点内容的举措只是一种划定规矩，必要搜刮引擎呆板人的共同才行，并非每一个ROBOTS都恪守的。

今朝看来，尽年夜多半的搜刮引擎呆板人都恪守robots.txt的划定规矩，而关于RobotsMETA标签，今朝撑持的其实不多，可是正在渐渐增添，如出名搜刮引擎GOOGLE就完整撑持，并且GOOGLE还增添了一个指令“archive”，能够限定GOOGLE是不是保存网页快照。比方：

<METANAME="googlebot"CONTENT="index,follow,noarchive">

暗示抓取该站点中页面并沿着页面中链接抓取，可是不在GOOLGE上保存该页面的网页快照。

[上一页123456789下一页
例子:
#robots,scram

User-agent:*
Disallow:/cgi-bin
Disallow:/TRANSCRIPTS
Disallow:/development
Disallow:/third
Disallow:/beta
Disallow:/java
Disallow:/shockwave
Disallow:/JOBS
Disallow:/pr
Disallow:/Interactive
Disallow:/alt_index.html
Disallow:/webmaster_logs
Disallo

业界越来越关注DIV+CSS的标准化设计，大到各大门户网站，小到不计其数的个人网站。

只看该作者 · 发表于 2015-1-16 00:41:08

搜索引擎更加友好。相对与传统的table,采用DIV+CSS技术的网页，对于搜索引擎的收录更加友好。
w:/newscenter
Disallow:/virtual
Disallow:/DIGEST
Disallow:/QUICKNEWS
Disallow:/SEARCH

User-agent:Mozilla/3.01(hotwired-test/0.1)
Disallow:/cgi-bin
Disallow:/TRANSCRIPTS
Disallow:/development
Disallow:/third
Disallow:/beta
Disallow:/java
Disallow:/shockwave
Disallow:/JOBS
Disallow:/pr
Disallow:/Interactive
Disallow:/alt_index.html
Disallow:/webmaster_logs
Disallow:/newscenter
Disallow:/virtual
Disallow:/DIGEST
Disallow:/QUICKNEWS
Disallow:/SEARCH

User-agent:Slurp
Disallow:/cgi-bin
Disallow:/TRANSCRIPTS
Disallow:/development
Disallow:/third
Disallow:/beta
Disallow:/java
Disallow:/shockwave
Disallow:/JOBS
Disallow:/pr
Disallow:/Interactive
Disallow:/alt_index.html
Disallow:/webmaster_logs
Disallow:/newscenter
Disallow:/virtual
Disallow:/DIGEST
Disallow:/QUICKNEWS
Disallow:/SEARCH
</p>
[上一页123456789下一页
User-agent:Scooter
Disallow:/cgi-bin
Disallow:/TRANSCRIPTS
Disallow:/development
Disallow:/third
Disallow:/beta
Disallow:/java
Disallow:/shockwave
Disallow:/JOBS
Disallow:/pr
Disallow:/Interactive
Disallow:/alt_index.html
Disallow:/webmaster_logs
Disallow:/newscenter
Disallow:/virtual
Disallow:/DIGEST
Disallow:/QUICKNEWS
Disallow:/SEARCH

User-agent:Ultraseek
Disallow:/cgi-bin
#Disallow:/TRANSCRIPTS
Disallow:/development
Disallow:/third
Disallow:/beta
Disallow:/java
Disallow:/shockwave
Disallow:/JOBS
Disallow:/pr
Disallow:/Interactive
Disallow:/alt_index.html
Disallow:/webmaster_logs
Disallow:/newscenter
Disallow:/virtual
Disallow:/DIGEST
Disallow:/QUICKNEWS
Disallow:/SEARCH

User-agent:smallbear
Disallow:/cgi-bin
Disallow:/java
Disallow:/images
Disallow:/development
Disallow:/third
Disallow:/beta
Disallow:/webmaster_logs
Disallow:/virtual
Disallow:/shockwave
Disallow:/TRANSCRIPTS
Disallow:/newscenter
Disallow:/virtual
Disallow:/DIGEST
Disallow:/QUICKNEWS
Disallow:/SEARCH
Disallow:/alt_index.html

[上一页123456789下一页
User-agent:GoogleBot
Disallow:/cgi-bin
Disallow:/java
Disallow:/images
Disallow:/development
Disallow:/third
Disallow:/beta
Disallow:/webmaster_logs
Disallow:/virtual
Disallow:/shockwave
Disallow:/TRANSCRIPTS
Disallow:/newscenter
Disallow:/virtual
Disallow:/DIGEST
Disallow:/QUICKNEWS
Disallow:/SEARCH
Disallow:/alt_index.html

[
上一页123456&nb</p>

学习这篇入门教程之前，请确定你已经具有了一定的HTML基础。

只看该作者 · 发表于 2015-1-16 00:44:37

在几乎所有的浏览器上都可以使用。15.以前一些非得通过图片转换实现的功能，现在只要用CSS就可以轻松实现，从而更快地下载页面。
sp;789</p>

上一页1234

DIV本身就是容器性质的,你不但可以内嵌table还可以内嵌文本和其它的HTML代码CSS是CascadingstyleSheets的简称，中文译作“层叠样式表单”。

只看该作者 · 发表于 2015-1-16 09:03:06

技术的学习如同长跑。只要越过极限，就会越跑越轻松。技术的学习其实并不像想象中那么可怕，任何技术都并不高深莫测。

只看该作者 · 发表于 2015-1-18 10:13:34

足见市场的反响和MACROMEDIA公司对它们的自信。说到Dreamweaver8我们应该了解一下网页编辑器的发展过程，随着互联网(Internet)的家喻户晓。

只看该作者 · 发表于 2015-1-27 06:45:40

我深感到交流的重要。善于交流的人才是善于学习的人。在整个技术的学习过程中，我总结了四大定律：兴趣、恒心、虚心、时间。

只看该作者 · 发表于 2015-2-5 10:22:45

时间轴)窗口--时间轴--选中图层并拖图层到时间轴,将其放在指定帧上

只看该作者 · 发表于 2015-2-11 11:34:53

Dreamweaver8中文版(dw)是由Macromedia公司开发的一款所见即所得的网页编辑器。和二维动画设计软件FLASH，专业网页图像设计软件FIREWORKS，并称为“网页三剑客”。

只看该作者 · 发表于 2015-3-2 12:41:58

Dreamweaver在所见即所得添加链接，也可以先选中文字或图片然后在属性栏中的链接栏后的一个小圆圈，用鼠标点击小圆圈按住不放拖动出箭头然后指向文件即可。

只看该作者 · 发表于 2015-3-11 05:59:48

Dreamweaver是唯一提供Roundtrip HTML、视觉化编辑与原始码编辑同步的设计工具。它包含HomeSite和BBEdit等主流文字编辑器。

只看该作者 · 发表于 2015-3-17 23:11:35

Dreamweaver在所见即所得添加链接，也可以先选中文字或图片然后在属性栏中的链接栏后的一个小圆圈，用鼠标点击小圆圈按住不放拖动出箭头然后指向文件即可。

		自动登录	找回密码
密码			立即注册

[DIV+CSS] 来谈谈：搜刮引擎的蜘蛛人（ROBOTS）奥密

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

相关帖子