不利于搜索引擎爬行和抓取的蜘蛛陷进有哪些

供稿:hz-xin.com     日期:2024-05-22
网站结构优化中的蜘蛛陷阱有哪些

1、Flash
在网页的某一小部分使用 Flash 增强视觉效果是很正常的,比如用 Flash 做成的广告、图标等。这种小 Flash 和图片是一样的,只是 HTML 代码中的很小一部分,页面上还有其他以文字为主的内容,所以对搜索引擎抓取和收录没有影响。
但是有的网站整个首页就是一个大的 Flash 文件,这就构成了蜘蛛陷阱。搜索引擎抓取的 HTML 代码只有一个连向 Flash 文件的链接,没有其他文字内容。搜索引擎是无法读取 Flash 文件中的文字内容和链接的。这种网站整个就是一个 Flash 的网站,可能视觉效果做得精彩异常,可惜搜索引擎看不到,不能索引出任何文字信息,也就无从判断相关性。
有的网站喜欢在首页放一个 Flash 动画片头(Flash Intro),用户访问网站看完片头后被转向到真正的 HTML 版本的文字网站首页。搜索引擎不能读取 Flash,一般也没办法从 Flash Intro 跟踪到 HTML 版本页面。
虽然搜索引擎在这方面有新的突破,但是做网站就请不要考验蜘蛛的能力。

2、Session ID
有些网站使用 Session ID(会话 ID)跟踪用户访问,每个用户访问网站时都会生成独特唯一的 Session ID,加在 URL 中。搜索引擎蜘蛛的每一次访问也会被当成一个新的用户,URL 中会加上一个不同的 Session ID,这样搜索引擎蜘蛛每次来访问时所得到的同一个页面的 URL 将不一样,后面带着一个不一样的 Session ID。这也是最常见的蜘蛛陷阱之一。
搜索引擎遇到这种长长的 Session ID,会尝试判断字符串是 Session ID 还是正常参数,成功判断出 Session ID 就可以去掉 Session ID,收录正常 URL。但也经常判断不出来,要么不愿意收录,要么收录多个带有不同 Session ID 的 URL,内容却完全一样,形成大量复制内容,这两种情况对网站优化都不利。
通常建议跟踪用户访问应该使用 cookies 而不要生成 Session ID。或者程序判断访问者是搜索引擎蜘蛛还是普通用户,如果是搜索引擎蜘蛛,则不生成 Session ID。跟踪搜索引擎蜘蛛访问是没什么意义的,蜘蛛既不会填表,也不会把商品放入购物车。

3、各种跳转
除了后面会介绍的 301 转向以外,搜索引擎对其他形式的跳转都比较敏感,如 302 跳 转、JavaScript 跳转、Flash 跳转、Meta Refresh 跳转。
有些网站用户访问首页时会被自动转向到某个目录下的页面。如果是按用户地理位置 转向至最适合的目录,那倒情有可原。但大部分这种首页转向看不出任何理由和目的,这样的转向能避免则避免。
如果必须转向,301 转向是搜索引擎推荐的、用于网址更改的转向,可以把页面权重从旧网址转移到新网址。其他转向方式都对蜘蛛爬行不利,原因泪雪在前面的关于黑帽 SEO 中已经写到过了,黑帽 SEO 经常使用转向欺骗搜索引擎和用户。所以除非万不得已,尽量不要使用 301 转向以外的跳转。

4、框架结构
如果作为站长的你不知道什么是框架结构( Frame),那么恭喜你,你已经避免了这个蜘蛛陷阱,根本没必要知道什么是框架结构。如果你在网站设计中还在使用框架结构,我的建议是立即取消。
使用框架结构设计页面,在网站诞生初期曾经挺流行,因为对网站的页面更新维护有一定方便性。不过现在的网站已经很少使用框架了,不利于搜索引擎抓取是框架越来越不流行的重要原因之一。对搜索引擎来说,访问一个使用框架的网址所抓取的 HTML 只包含调用其他 HTML 文件的代码 t 并不包含任何文字信息,搜索引擎根本无法判断这个网址的内容是什么。虽然蜘蛛可以跟踪框架中所调用的其他 HTML 文件,但是这些文件经常是不完整的页面,比如没有导航只是正文。搜索引擎也无法判断框架中的页面内容应该属于主框架,还是属于框架调用的文件。
总之,如果你的网站还在使用框架,或者你的老板要使用框架结构,唯一要记住的是,忘记使用框架这回事。和 Flash -样,别浪费时间研究怎么让搜索引擎收录框架结构网站。

5、动态 URL
动态 URL 指的是数据库驱动的网站所生成的、带有问号、等号及参数的网址。一般来说动态 URL 不利于搜索引擎蜘蛛爬行,应该尽量避免。下面对动态 URL。及其静态化还有更详细的讨论。

6、JavaScript 链接
由于 JavaScript 可以创造出很多吸引人的视觉效果,有些网站喜欢使用 JavaScript 脚本生成导航系统。这也是比较严重的蛛蛛陷阱之一。虽然搜索引擎都在尝试解析 JS 脚本,不过我们不能寄希望于搜索引擎自己去克服困难,而要让搜索引擎跟踪爬行链接的工作尽量简单容易。
据我观察,虽然有的搜索引擎在技术上可以获得 JavaScript 脚本中包含的链接,甚至可以执行脚本并跟踪链接,但对一些权重比较低的网站,搜索引擎觉得没有必要,不会费那个劲。所以网站上的链接必须使用最简单标准的 HTML 链接,尤其是导航系统。用 css 做导航系统一样可以实现很多视觉效果。
JavaScript 链接在 SEO 中也有特殊用途,那就是站长不希望被收录的页面(比如没有排名意义的页面,重复内容页面等),不希望彻底权重的链接,可以使用 JavaScript 脚本阻挡搜索引擎爬行。

7、要求登录
有些网站内容放在需要用户登录之后才能看到的会员区域,这部分内容搜索引擎无法看到。蜘蛛不能填写用户名、密码,也不会注册。

8、强制使用 Cookies
有些网站为了实现某种功能,如记住用户登录信息、跟踪用户访问路径等,强制用户使用 Cookies,用户浏览器如果没有启用 Cookies,页面显示不正常。搜索引擎蜘蛛就相当于一个禁用了 Cookies 的浏览器,强制使用 Cookies 只能造成搜索引擎蜘蛛无法正常访问。
以上是泪雪这么久以来的一个对于蜘蛛陷阱的总结,虽然这里只写到了 8 点,最常见的、最容易大家忽略的地方写到了,当然还有一些细节的优化,泪雪就没怎么写了。以后如果还有值得写出来的,泪雪还是会写的。好了,不算太长也不算太短,时间也差不多了。就写到这里了。

首先搜索引擎最常见的一种陷阱是Flash。在网页的某一小部分使用Flash增强视觉效果是和很正常的,比如用Flash做成广告,图标等。这样的Flash对搜索引擎的爬行与抓取是没有什么影响的。但是,万万不可在首页使用一个大大的Flash文件,因为这样就形

首先搜索引擎最常见的一种陷阱是Flash。在网页的某一小部分使用Flash增强视觉效果是和很正常的,比如用Flash做成广告,图标等。这样的Flash对搜索引擎的爬行与抓取是没有什么影响的。但是,万万不可在首页使用一个大大的Flash文件,因为这样就形成一个蜘蛛陷阱。当搜索引擎抓取的HTML代码只有一个连向Flash文件的连接,没有其他的文字内容。如果Flash效果是必须滴,那也要在首页加上一个通往HTML版本的链接。这个链接要在Flash文件之外的HTML代码中,搜索引擎跟踪这个链接可以抓取后面的HTML版本页面。

再一个常见的蜘蛛陷阱就是Session ID(会话ID)。有些网站使用Session
ID跟踪用户反问,每个用户访问网站时都会生成独特唯一的Session
ID,加在URL中。搜索引擎蜘蛛的每一次访问也会被当成一个新的用户,URL中会加上一个不同的Session
ID,这样搜索引擎蜘蛛每次来访问时所得到的同一个页面的URL将不一样,后面带着一个不一样的Session ID也是一个蜘蛛陷阱。

各种跳转也是蜘蛛陷阱之一,除了301转向以外,搜索引擎对其他形式的跳转都比较敏感,如:302跳转,JavaScrt跳转,Flash跳转,Meta
Refresh跳转。有些网站用户访问首页时会被自动转向到某个目录下的页面。但大部分这种首页转向看不出任何理由和目的,像这样的转向应能勉则勉,不到万不得已,尽量不要使用301转向以外的跳转。

框架结构也可以算是一种蜘蛛陷阱,如果你还在使用框架结构的设计,本人在这里建议大家立马停止。不要浪费时间如研究怎么让搜索引擎去收录框架结构网站。因为搜索引擎无法判断框架中的页面内容应属于主框架还是框架调用的文件。

动态URL不利于搜索引擎蜘蛛爬行,应该尽量避免。

JavaScript链接可以创造出很多好的视觉效果,但是,这也是一种蜘蛛陷阱。在这里,告诉大家,用CSS做导航系统一样能创造出好的视觉效果,所以,大家可以用CSS来代替JavaScript,可能会事半功倍哦!

有些网站内容必须用户登陆之后才能看到,我们可以试着猜想一下,如果是搜索引擎想要抓取该页面内容呢,难道也要先登陆吗,要清楚,搜索引擎是不会填写登陆资料和注册会员的。所以,我们也要避免这种蜘蛛陷阱的产生。

最后给大家介绍一种非常值得大家注意的蜘蛛陷阱,那就是当一个网站为了实现某种功能,如记住用户登陆信息,跟踪用户访问路径等,强制用户使用Cookies,如果用户的浏览器没有启用Cookies,页面的显示就会不正常。这个问题直接就指向了搜索引擎,因为搜索引擎蜘蛛就相当于一个禁用Cookies的浏览器,如果强制搜索引擎蜘蛛使用Cookies的话就会造成无法正常访问。
希望可以帮助到你~望采纳哦~谢谢~

网站结构优化中的蜘蛛陷阱有哪些
答:第三:各种跳转 搜索引擎蜘蛛对于各种跳转也是十分的敏感的。因为黑帽SEO最喜欢用跳转这种手段了。黑了别人的网站,然后在别人的网站上挂上一个指向自己网站的跳转。第四:框架结构 第五:动态的URL地址 动态的URL地址一般过于长,带有较多的参数。好比“?”“=”“id”等,搜索引擎蜘蛛一旦爬行进入,...

SEO中蜘蛛池搜索陷阱有哪些
答:1、动态URL,在url中加入过多的符号或者网址参数等,这种蜘蛛陷阱我在url优化中曾经有提到,虽然说随着搜索引擎的的技术发展,动态url对于蜘蛛的抓取已经越来越不是问题了,但是从搜索引擎友好度上来讲,静态哪怕是伪静态url相对来说都比动态url要好,可以看下很多SEO同行对于url中的处理方式。2、框架,...

不利于搜索引擎爬行和抓取的蜘蛛陷进有哪些
答:首先搜索引擎最常见的一种陷阱是Flash。在网页的某一小部分使用Flash增强视觉效果是和很正常的,比如用Flash做成广告,图标等。这样的Flash对搜索引擎的爬行与抓取是没有什么影响的。但是,万万不可在首页使用一个大大的Flash文件,因为这样就形成一个蜘蛛陷阱。当搜索引擎抓取的HTML代码只有一个连向Flash文...

SEO优化中不可忽视的蜘蛛陷阱有什么
答:1、登录要求 有些企业站和个人站的设置一定要注册登录后才能看到相关的文章内容,这种对蜘蛛不是很友好,蜘蛛不会注册、也不会登录。2、动态URL 什么叫动态URL、什么叫静态URL,简单的说就是带有问号、等号及参数的网址就是动态URL,动态URL不利于搜索引擎蜘蛛的爬行和抓取。3、强制用Cookies 部分站长为...

SEO优化中需要注意的蜘蛛陷阱有哪些
答:这也是最常见的蜘蛛圈套之一。第三、各种跳转 除了301跳转以外,搜索引擎蜘蛛对其他方法的跳转都对比灵敏,如302跳转,javascript跳转、meta refresh 跳转。若是有必要转向,301转向是搜索引擎引荐的、用于网站更改的转向,能够吧页面权重从旧网址转移到新网址。其他的转向方法都对蜘蛛匍匐晦气。所以除非万...

蜘蛛陷阱的蜘蛛的6大陷阱
答:1、登陆要求有些企业站和个人站的设置一定要注册登陆后才能看到相关的文章内容,这种对蜘蛛不是很友好,蜘蛛不会注册、也不会登陆。2、动态URL什么叫动态URL、什么叫静态URL,简单的说就是带有问号、等号及参数的网址就是动态URL,动态URL不利于搜索引擎蜘蛛的爬行和抓取。3、强制用Cookies部分站长为了让...

SEO优化中要避免的蜘蛛陷阱有什么
答:1、框架结构 首先各位站长你知道什么叫框架结构的世界吗?如果你不知道恭喜你,这个蜘蛛陷阱你已经躲避了,也不要去了解,所以有关框架结构的设计不做任何的介绍。虽然说框架结构对网站的维护和更新有一定的方便性。但是,它不利于搜索引擎蜘蛛抓取。这也就是现在框架结构不流行的因素之一。2、各种跳转 对...

几个主流搜索引擎蜘蛛的名称
答:2.百度蜘蛛名称:Baiduspider首字母B大写,其余为小写 3.雅虎(Yahoo!)蜘蛛名称:1)Yahoo!搜索蜘蛛名称:Yahoo!Slurp.2)Yahoo!搜索引擎广告蜘蛛:Yahoo!-AdCrawler.用来抓取Yahoo!搜索引擎广告登陆页网页 4.有道蜘蛛名称:YodaoBot 5.腾讯搜搜soso蜘蛛名称:Sosospider首字母S大写,其余为小写 6.搜狗(...

什么样的网页利于百度爬行蜘蛛的访问来提高自己网站的收录
答:1.网站及页面权重。这个肯定是首要的了,权重高、资格老、有权威的网站蜘蛛是肯定特殊对待的,这样的网站抓取的频率非常高,而且大家知道搜索引擎蜘蛛为了保证高效,对于网站不是所有页面都会抓取的,而网站权重越高被爬行的深度也会比较高,相应能被抓取的页面也会变多,这样能被收录的页面也会变多。2....

搜索引擎的“蜘蛛”是怎么在网站内“爬行”的?它们可以进入网站的服务...
答:首先我们看下百度百科的介绍:百度蜘蛛,是百度搜索引擎的一个自动程序。它的作用是访问收集整理互联网上的网页、图片、视频等内容,然后分门别类建立索引数据库,使用户能在百度搜索引擎中搜索到您网站的网页、图片、视频等内容。在看下工作机制:百度蜘蛛的构建的原理。搜索引擎构建一个调度程序,来调度...