|
搜索引擎都是使用专门的程序robot来自动索引内容,但是对于很多网站来说,都有不便公开的网页,诸如程序的管理界面、存放数据库或其他重要内容的目录等。robots.txt是一个放置于网站目录中的文本文件,我们可以通过该文件声明网站中不想被搜索引擎访问的部分。
知己知彼详细了解robots.txt
robots.txt是一种存放于网站根目录下的ASCII编码的文本文件,它通常告诉搜索引擎的网页抓取程序,网站中内容那些可以被获取,以及那些不能收录。搜索引擎在访问网站中的内容信息时,会首先检查网站的根目录下是否存在robots.txt文件,该文件通过记事本建立即可,放置在网站根目录就可以了(图1)。


image003.jpg (40.42 KB)
2009-4-9 16:37
我们还可以在每个网页的头部使用Robots MetaTag标签来提示搜索引擎是否可抓取网页,该代码通常放置于HTML代码的HEAD区域中,它的格式如下所示:
robots.txt是搜索引擎间约定俗成的规则,国外的Google、雅虎、微软,国内的百度等搜索引擎都遵守的robots.txt文件撰写标准。
小提示:因为一些服务器系统对大小写区分,所以robots.txt文件名必须全部是小写,而且最好是放在网站根目录中。
合理撰写 隐藏网站内容
除了一些涉及到网站安全的文件以外,网站中的程序脚本、样式表等文件即使被蜘蛛索引,也不会增加网站的收录数量,还只会占用服务器带宽资源。因此统一需要在robots.txt文件里设置不要让搜索蜘蛛索引这些文件。
要撰写robots.txt文件,需要按照相应的规范来填写,百度就有专门的说明页面http://www.baidu.com/search/robots.html,上面有各类robots.txt文件用法的举例说明。
通常情况下,robots.txt文件有以下两个标记组成:
User-Agent: 表示需要拦截的搜索引擎robots名称,比如谷歌的就是googlebot,而百度搜索则是baiduspider。
Disallow: 表示不需要被索引的栏目或文件.
小提示:
在撰写robots.txt文件的时候一定要非常仔细,如果失误把所有的网站页面都屏蔽,那可就得不偿失了。
举一反三 排除重复页面
现在大多数网站都是使用动态程序搭建,并且另外生成了静态页面供访客浏览,但是动态的页面仍然会被搜索引擎索引到。这样一来就会造成重复页面,让搜索引擎对网站的权重降低。
这时我们就可以通过robots.txt文件的设置,避免搜索引擎访问到动态页面,以保证这些网页不会被视为重复的内容。
栏目:站长工具箱:HTML在线编辑工具
很多站长在修改网页的时候,通常都需要使用Dreamweaver等大型的编辑软件,但是如果在网吧或者他人的电脑没有安装,就会遇到无法修改页面的苦恼。KindEditor是一款基于浏览器的HTML在线编辑器软件,它的优势是所见即所得,只要有浏览器就可以使用。
软件的体积和文件都很小,但是功能却很多。不仅可以直接上传到网站中使用,还能够很方便地嵌入到ASP、PHP、JSP等程序中。以及通过添加插件的方法,设置自定义等多种功能。另外,该工具的风格页可以按照自己的要求修改,使其和网站融为一体。是一个简单易用,值得推荐的网页在线编辑器。
下载地址:http://kindeditor.googlecode.com/files/kindeditor-3.1.1.zip |
程序, 服务器, 技术, 软件, 网吧, 网络, 系统, DOS, VIP, 服务器, 广告, 绿茶, 论坛, 诺德尔, 网吧, 网络, 系统, 电脑, 服务器, 破解, 软件, 网吧, 网络, 系统, 3389, DOS, FTP, 绿茶, 密码, 网吧, Windows, 程序, 电脑, 破解, 软件, 网络
|