造成Baiduspider抓取异常的原因
   有一些网页,内容优质,用户也可以正常访问,但是Baiduspider却无法正常访问并抓取,造成搜索结果覆盖率缺失,对百度搜索引擎对站点都是一种损失,百度把这种情况叫“抓取异常”。对于大量内容无法正常抓取的网站,百度搜索引擎会认为网站存在用户体验上的缺陷,并降低对网站的评价,在抓取、索引、排序上都会受到一定程度的负面影响,最终影响到网站从百度获取的流量。

下面向站长介绍一些常见的抓取异常原因:
        1,服务器连接异常
        服务器连接异常会有两种情况:一种是站点不稳定,Baiduspider尝试连接您网站的服务器时出现暂时无法连接的情况;一种是Baiduspider一直无法连接上您网站的服务器。
        造成服务器连接异常的原因通常是您的网站服务器过大,超负荷运转。也有可能是您的网站运行不正常,请检查网站的web服务器(如apache、iis)是否安装且正常运行,并使用浏览器检查主要页面能否正常访问。您的网站和主机还可能阻止了Baiduspider的访问,您需要检查网站和主机的防火墙。

2,网络运营商异常:网络运营商分电信和联通两种,Baiduspider通过电信或网通无法访问您的网站。如果出现这种情况,您需要与网络服务运营商进行联系,或者购买拥有双线服务的空间或者购买cdn服务。

3,DNS异常:当Baiduspider无法解析您网站的IP时,会出现DNS异常。可能是您的网站IP地址错误,或者域名服务商把Baiduspider封禁。请使用WHOIS或者host查询自己网站IP地址是否正确且可解析,如果不正确或无法解析,请与域名注册商联系,更新您的IP地址。

4,IP封禁:IP封禁为:限制网络的出口IP地址,禁止该IP段的使用者进行内容访问,在这里特指封禁了BaiduspiderIP。当您的网站不希望Baiduspider访问时,才需要该设置,如果您希望Baiduspider访问您的网站,请检查相关设置中是否误添加了BaiduspiderIP。也有可能是您网站所在的空间服务商把百度IP进行了封禁,这时您需要联系服务商更改设置。

5,UA封禁:UA即为用户代理(User-Agent),服务器通过UA识别访问者的身份。当网站针对指定UA的访问,返回异常页面(如403,500)或跳转到其他页面的情况,即为UA封禁。当您的网站不希望Baiduspider访问时,才需要该设置,如果您希望Baiduspider访问您的网站,useragent相关的设置中是否有Baiduspider UA,并及时修改。

6,死链:页面已经无效,无法对用户提供任何有价值信息的页面就是死链接,包括协议死链和内容死链两种形式:
         协议死链:页面的TCP协议状态/HTTP协议状态明确表示的死链,常见的如404、403、503状态等。
       内容死链:服务器返回状态是正常的,但内容已经变更为不存在、已删除或需要权限等与原内容无关的信息页面。
       对于死链,我们建议站点使用协议死链,并通过百度站长平台--死链工具向百度提交,以便百度更快地发现死链,减少死链对用户以及搜索引擎造成的负面影响。


7,异常跳转:将网络请求重新指向其他位置即为跳转。异常跳转指的是以下几种情况:
        1)当前该页面为无效页面(内容已删除、死链等),直接跳转到前一目录或者首页,百度建议站长将该无效页面的入口超链接删除掉
        2)跳转到出错或者无效页面
        注意:对于长时间跳转到其他域名的情况,如网站更换域名,百度建议使用301跳转协议进行设置。

8,其他异常:
        1)针对百度refer的异常:网页针对来自百度的refer返回不同于正常内容的行为。
        2)针对百度ua的异常:网页对百度UA返回不同于页面原内容的行为。
        3)JS跳转异常:网页加载了百度无法识别的JS跳转代码,使得用户通过搜索结果进入页面后发生了跳转的情况。
        4)压力过大引起的偶然封禁:百度会根据站点的规模、访问量等信息,自动设定一个合理的抓取压力。但是在异常情况下,如压力控制失常时,服务器会根据自身负荷进行保护性的偶然封禁。这种情况下,请在返回码中返回503(其含义是“Service Unavailable”),这样Baiduspider会过段时间再来尝试抓取这个链接,如果网站已空闲,则会被成功抓取。

相关文章:
哪些网页无法建入索引库
百度优先建重要库的原则
新链接重要程度判断
造成Baiduspider抓取异常的原因
Baiduspider抓取频次原则及调整方法
Baiduspider抓取过程中涉及的网络协议
Baiduspider 主要抓取策略类型
Spider抓取系统的基本框架
Baiduspider抓取频次原则及调整方法
    Baiduspider根据上述网站设置的协议对站点页面进行抓取,但是不可能做到对所有站点一视同仁,会综合考虑站点实际情况确定一个抓取配额,每天定量抓取站点内容,即我们常说的抓取频次。那么百度搜索引擎是根据什么指标来确定对一个网站的抓取频次的呢,主要指标有四个:
        1,网站更新频率:更新快多来,更新慢少来,直接影响Baiduspider的来访频率
        2,网站更新质量:更新频率提高了,仅仅是吸引了Baiduspier的注意,Baiduspider对质量是有严格要求的,如果网站每天更新出的大量内容都被Baiduspider判定为低质页面,依然没有意义。
        3,连通度:网站应该安全稳定、对Baiduspider保持畅通,经常给Baiduspider吃闭门羹可不是好事情
        4,站点评价:百度搜索引擎对每个站点都会有一个评价,且这个评价会根据站点情况不断变化,是百度搜索引擎对站点的一个基础打分(绝非外界所说的百度权重),是百度内部一个非常机密的数据。站点评级从不独立使用,会配合其它因子和阈值一起共同影响对网站的抓取和排序。

抓取频次间接决定着网站有多少页面有可能被建库收录,如此重要的数值如果不符合站长预期该如何调整呢?百度站长平台提供了抓取频次工具(http://zhanzhang.baidu.com/pressure/index),并已完成多次升级。该工具除了提供抓取统计数据外,还提供“频次调整”功能,站长根据实际情况向百度站长平台提出希望Baiduspider增加来访或减少来访的请求,工具会根据站长的意愿和实际情况进行调整。

相关文章:
哪些网页无法建入索引库
百度优先建重要库的原则
新链接重要程度判断
造成Baiduspider抓取异常的原因
Baiduspider抓取频次原则及调整方法
Baiduspider抓取过程中涉及的网络协议
Baiduspider 主要抓取策略类型
Spider抓取系统的基本框架
    刚才提到百度搜索引擎会设计复杂的抓取策略,其实搜索引擎与资源提供者之间存在相互依赖的关系,其中搜索引擎需要站长为其提供资源,否则搜索引擎就无法满足用户检索需求;而站长需要通过搜索引擎将自己的 内容推广出去获取更多的受众。spider抓取系统直接涉及互联网资源提供者的利益,为了使搜素引擎与站长能够达到双赢,在抓取过程中双方必须遵守一定的 规范,以便于双方的数据处理及对接。这种过程中遵守的规范也就是日常中我们所说的一些网络协议。

以下简单列举:
        http协议:超文本传输协议,是互联网上应用最为广泛的一种网络协议,客户端和服务器端请求和应答的标准。客户端一般情况是指终端用户,服务器端即指网 站。终端用户通过浏览器、蜘蛛等向服务器指定端口发送http请求。发送http请求会返回对应的httpheader信息,可以看到包括是否成功、服务 器类型、网页最近更新时间等内容。

https协议:实际是加密版http,一种更加安全的数据传输协议。

UA属性:UA即user-agent,是http协议中的一个属性,代表了终端的身份,向服务器端表明我是谁来干嘛,进而服务器端可以根据不同的身份来做出不同的反馈结果。

robots协议:robots.txt是搜索引擎访问一个网站时要访问的第一个文件,用以来确定哪些是被允许抓取的哪些是被禁止抓取的。 robots.txt必须放在网站根目录下,且文件名要小写。详细的robots.txt写法可参考 http://www.robotstxt.org 。百度严格按照robots协议执行,另外,同样支持网页内容中添加的名为robots的meta标 签,index、follow、nofollow等指令。

相关文章:
哪些网页无法建入索引库
百度优先建重要库的原则
新链接重要程度判断
造成Baiduspider抓取异常的原因
Baiduspider抓取频次原则及调整方法
Baiduspider抓取过程中涉及的网络协议
Baiduspider 主要抓取策略类型
Spider抓取系统的基本框架
Baiduspider 主要抓取策略类型

上图看似简单,但其实Baiduspider在抓取过程中面对的是一个超级复杂的网络环境,为了使系统可以抓取到尽可能多的有价值资源并保持系统及实际环境中页面的一致性同时不给网站体验造成压力,会设计多种复杂的抓取策略。以下做简单介绍:

1、抓取友好性
        互联网资源庞大的数量级,这就要求抓取系统尽可能的高效利用带宽,在有限的硬件和带宽资源下尽可能多的抓取到有价值资源。这就造成了另一个问题,耗费被抓网站的带宽造成访问压力,如果程度过大将直接影响被抓网站的正常用户访问行为。因此,在抓取过程中就要进行一定的抓取压力控制,达到既不影响网站的正常用户访问又能尽量多的抓取到有价值资源的目的。

通常情况下,最基本的是基于ip的压力控制。这是因为如果基于域名,可能存在一个域名对多个ip(很多大网站)或多个域名对应同一个ip(小网站共享ip)的问题。实际中,往往根据ip及域名的多种条件进行压力调配控制。同时,站长平台也推出了压力反馈工具,站长可以人工调配对自己网站的抓取压力,这时百度spider将优先按照站长的要求进行抓取压力控制。

对同一个站点的抓取速度控制一般分为两类:其一,一段时间内的抓取频率;其二,一段时间内的抓取流量。同一站点不同的时间抓取速度也会不同,例如夜深人静月黑风高时候抓取的可能就会快一些,也视具体站点类型而定,主要思想是错开正常用户访问高峰,不断的调整。对于不同站点,也需要不同的抓取速度。


2、常用抓取返回码示意
        简单介绍几种百度支持的返回码:
        1)最常见的404代表“NOT FOUND”,认为网页已经失效,通常将在库中删除,同时短期内如果spider再次发现这条url也不会抓取;
        2)503代表“Service Unavailable”,认为网页临时不可访问,通常网站临时关闭,带宽有限等会产生这种情况。对于网页返回503状态码,百度spider不会把这条url直接删除,同时短期内将会反复访问几次,如果网页已恢复,则正常抓取;如果继续返回503,那么这条url仍会被认为是失效链接,从库中删除。
        3)403代表“Forbidden”,认为网页目前禁止访问。如果是新url,spider暂时不抓取,短期内同样会反复访问几次;如果是已收录url,不会直接删除,短期内同样反复访问几次。如果网页正常访问,则正常抓取;如果仍然禁止访问,那么这条url也会被认为是失效链接,从库中删除。
        4)301代表是“Moved Permanently”,认为网页重定向至新url。当遇到站点迁移、域名更换、站点改版的情况时,我们推荐使用301返回码,同时使用站长平台网站改版工具,以减少改版对网站流量造成的损失。



3、多种url重定向的识别
        互联网中一部分网页因为各种各样的原因存在url重定向状态,为了对这部分资源正常抓取,就要求spider对url重定向进行识别判断,同时防止作弊行为。重定向可分为三类:http 30x重定向、meta refresh重定向和js重定向。另外,百度也支持Canonical标签,在效果上可以认为也是一种间接的重定向。

4、抓取优先级调配
        由于互联网资源规模的巨大以及迅速的变化,对于搜索引擎来说全部抓取到并合理的更新保持一致性几乎是不可能的事情,因此这就要求抓取系统设计一套合理的抓取优先级调配策略。主要包括:深度优先遍历策略、宽度优先遍历策略、pr优先策略、反链策略、社会化分享指导策略等等。每个策略各有优劣,在实际情况中往往是多种策略结合使用以达到最优的抓取效果。



5、重复url的过滤
        spider在抓取过程中需要判断一个页面是否已经抓取过了,如果还没有抓取再进行抓取网页的行为并放在已抓取网址集合中。判断是否已经抓取其中涉及到最核心的是快速查找并对比,同时涉及到url归一化识别,例如一个url中包含大量无效参数而实际是同一个页面,这将视为同一个url来对待。



6、暗网数据的获取
        互联网中存在着大量的搜索引擎暂时无法抓取到的数据,被称为暗网数据。一方面,很多网站的大量数据是存在于网络数据库中,spider难以采用抓取网页的方式获得完整内容;另一方面,由于网络环境、网站本身不符合规范、孤岛等等问题,也会造成搜索引擎无法抓取。目前来说,对于暗网数据的获取主要思路仍然是通过开放平台采用数据提交的方式来解决,例如“百度站长平台”“百度开放平台”等等。

7、抓取反作弊
        spider在抓取过程中往往会遇到所谓抓取黑洞或者面临大量低质量页面的困扰,这就要求抓取系统中同样需要设计一套完善的抓取反作弊系统。例如分析url特征、分析页面大小及内容、分析站点规模对应抓取规模等等。

相关文章:
哪些网页无法建入索引库
百度优先建重要库的原则
新链接重要程度判断
造成Baiduspider抓取异常的原因
Baiduspider抓取频次原则及调整方法
Baiduspider抓取过程中涉及的网络协议
Baiduspider 主要抓取策略类型
Spider抓取系统的基本框架

Spider抓取系统的基本框架 不指定

元创 , 2014/12/19 09:50 , 百度动态 , 评论(0) , 阅读(1853) , Via 本站原创
Spider抓取系统的基本框架

互联网信息爆发式增长,如何有效的获取并利用这些信息是搜索引擎工作中的首要环节。数据抓取系统作为整个搜索系统中的上游,主要负责互联网信息的搜集、保存、更新环节,它像蜘蛛一样在网络间爬来爬去,因此通常会被叫做“spider”。例如我们常用的几家通用搜索引擎蜘蛛被称为:Baiduspdier、Googlebot、Sogou Web Spider等。

Spider抓取系统是搜索引擎数据来源的重要保证,如果把web理解为一个有向图,那么spider的工作过程可以认为是对这个有向图的遍历。从一些重要的种子 URL开始,通过页面上的超链接关系,不断的发现新URL并抓取,尽最大可能抓取到更多的有价值网页。对于类似百度这样的大型spider系统,因为每时 每刻都存在网页被修改、删除或出现新的超链接的可能,因此,还要对spider过去抓取过的页面保持更新,维护一个URL库和页面库。

下图为spider抓取系统的基本框架图,其中包括链接存储系统、链接选取系统、dns解析服务系统、抓取调度系统、网页分析系统、链接提取系统、链接分析系统、网页存储系统。Baiduspider即是通过这种系统的通力合作完成对互联网页面的抓取工作。

点击在新窗口中浏览此图片

相关文章:
哪些网页无法建入索引库
百度优先建重要库的原则
新链接重要程度判断
造成Baiduspider抓取异常的原因
Baiduspider抓取频次原则及调整方法
Baiduspider抓取过程中涉及的网络协议
Baiduspider 主要抓取策略类型
Spider抓取系统的基本框架
我是元创,上篇文章元创提到《如何做好微信公众账号栏目策划》和今天分享的内容运营是紧密相连的。做营销,想要获得好的效果,内容是根本。传统营销,例如报纸广告,文案写的不好,效果会很差;做网络营销,即使精通各种营销手段,但是内容不能抓住用户需求点,不能给用户带来价值,不能突出产品卖点,效果也会有折扣;在SEO中,有一句话是,内容为王,外链为皇,足以说明内容的重要性,那么对于移动互联网营销来说,微信目前是一把营销利剑,企业通过微信公众账号引粉丝、造品牌、铺销量。但微信公众账号是被动关注,用户对你的账号感兴趣,才会主动关注你,类似邮件订阅一样,怎么才能让用户主动关注你的账号呢,为用户提供有价值的内容是关键。

但做内容谈何容易呀,元创也有订阅号,也订阅了很多公众账号,现在发现一个非常明显的现象,很多公众账号推送内容频率明显减少,为什么呢?要么是没有运营人员,要么是没有内容可发。想要做好微信公众账号的运营,需要专门一个人来维护,先不说原创内容了,每天找优质的内容至少得1-2个小时,这只是简单维护运营,如果要做个活动,那就不止需要一个内容运营人员了,还需要策划人员。

很多企业虽然很重视微信营销,也增设了微信运营职务,但都想快速通过微信公众账号销售产品,把微信公众账号当作发广告的工具,这样就失去了微信营销的本质目的。

很多人会问了,元创,你说了这么久了,到底微信内容如何运营啊

我刚开始在运营公众账号时,也尝试过很多内容,行业资讯、牛人分享、各类访谈,但通过微信后台数据发现打开率并不高(除了考虑自身推广力度外)。我就转变思路,先分析用户,分析目标用户,了解用户的需求点,然后解决需求。

我就分析我的朋友圈大家都乐意分享什么信息,分享正能量、最新资讯、实用信息,案例等类的居多,自从微信公众账号可以查看阅读量以后,就更方便了,直接打开看看这些文章的阅读量,高的肯定是用户喜欢的,并乐意分享的。比如前一段时间阿里巴巴有一个视频《阿里巴巴纪录片:扬子江中的大鳄》,马云老婆的励志文章,世界互联网大会嘉宾演讲信息、PPT等这些信息被各大公众账号转发,阅读量都非常高,说明什么,别人发了,是他的用户群体看到了,但不一定我们的用户群体都看到,我们是否也可以转发呢?这样的文章,用户喜欢看,也最容易分享到自己的朋友圈,引起更多的分享,这就是用户想要的。我不是说让大家疯狂的转载别人的内容,我们要分析哪些内容是用户喜欢的,针对我们用户群体去找文章或原创文章。

那具体,微信公众账号发什么内容呢,元创给大家分享几个技巧
1、每天观察朋友们分享的内容,是否会吸引你,如果吸引你,再观察阅读量,可以整理成为自己的素材。
2、多关注热点,分享热点,比如前一段时间的世界互联网大会,冬天护肤,雾霾等信息,备受关注。
3、多收集热门案例,特别是最新的成功案例,PPT,视频等,不要把老掉牙的案例拿出来分享
4、团队管理、好书推荐还是有必要的

每个行业每个账号需要根据用户定内容,但吃喝玩乐、学习、健康、工作这些是大众化需求,人人都需要的。

微信内容运营除了内容之外,还需要做好很多细节,比如如何引导用户分享,如何吸引人关注公众账号,如何让用户持续关注,这些都是需要每个运营人员做的,元创的下一篇文章会分享《如何引导用户关注的几个关键点》,敬请关注。

PS:这是一篇元创写的文章!

扫一扫右侧二维码,关注“元创”回复“百度”   免费领取:
《百度站长平台高级工程师-高波 分享的《链接人与信息》》
《百度站长平台高端沙龙徐州站ppt分享《百度流量异常排查方法》》
关注“元创”回复“PPT”   免费领取:
《2014乌镇世界互联网大会PPT》
2014乌镇世界互联网大会PPT下载

   2014年11月19日至21日,首届世界互联网大会将在浙江乌镇举行。这是中国举办的规模最大、层次最高的互联网大会,也是世界互联网领域一次盛况空前的高峰会议。大会以“互联互通 共享共治”为主题,由国家互联网信息办公室和浙江省人民政府共同主办,由浙江省网信办、浙江省经信委、桐乡市政府和中国互联网络信息中心联合承办。

2014年11月18日,首届世界互联网大会新闻发言人、国家互联网信息办公室新闻信息传播局局长姜军表示,世界互联网大会将永久落户乌镇,每年一届,持续举办。
点击在新窗口中浏览此图片
互联网的出现让地球变成一个村庄,从东方到西方,只需一个视频,我们就可以彼此谈国事、聊情感。今天,世界互联网大会在散发着古老文明气息的中国再次走在了世界前列。2014乌镇世界互联网大会PPT资料下载

由国家网信办和浙江省人民政府主办的首届世界互联网大会,是中国举办的规模最大、层次最高的互联网大会,也是世界互联网领域的一场高峰。

获取方式:扫一扫右侧底部元创微信公众账号,关注“元创”,回复“PPT”,即可下载!
百度认为什么样的网站更有抓取和收录价值呢?我们从下面几个方面简单介绍.鉴于技术保密以及网站运营的差异等其他原因,以下内容仅供站长参考,具体的收录策略包括但不仅限于所述内容。

第一方面:网站创造高品质的内容,能为用户提供独特的价值。

百度作为搜索引擎,最终的目的是满足用户的搜索需求,所以要求网站内容首先能满足用户的需求,现今互联网上充斥了大量同质的内容,在同样能满足用户需求的前提下,如果您网站提供的内容是独一无二的或者是具有一定独特价值的,那么百度会更希望收录您的网站。

温馨提示:百度希望收录这样的网站:

网站能满足一定用户的需求

网站信息丰富,网页文字能清晰、准确地表述要传达的内容。

有一定原创性或独特价值。

相反的,很多网站内容是“一般或低质”的,甚至某些网站利用欺骗手段来获取更好的收录或排名,下面列举一些常见的情况,虽然无法对各种情况一一列举。但请不要抱有侥幸心理,百度有完善的技术支持发现并处理这些行为。

请不要为搜索引擎创造内容。

某些网站在设计时不是从用户角度出发考虑的,而是为了从搜索引擎骗取更多的流量。比如提交给搜索引擎一种内容而显示给用户另一种。这些行为包括但不仅限于:在网页中加入隐藏文字或隐藏链接;在网页中加入与网页内容不相关的关键词;具有欺骗性跳转或重定向;专门针对搜索引擎制作桥页;针对搜索引擎利用程序生成的内容。

请不要创建多个包含大量重复内容的网页、子域或域。

百度会尽量收录提供不同信息的网页,如果您的网站包含了大量重复的内容,那么搜索引擎会减少相同内容的收录,同时认为该网站提供的内容价值偏低。

当然如果网站上相同的内容是通过不同形式展现(如论坛的简版页面、打印页),可以使用robots.txt禁止spider抓取网站不想向用户展现的形式,这也有助于节省带宽。

请不要制作欺诈性或安装有病毒、特洛伊木马或其他有害软件的网页。

谨慎加入频道共建、内容联盟等不能产生或很少产生原创内容的计划,除非网站能为内容联盟创造原创的内容。

第二方面:网站提供的内容得到了用户、站长的认可和支持

一个网站上的内容如果得到了用户和站长的认可,那么对百度来说也是非常值得收录的。百度会通过分析真实用户的搜索行为、访问行为、网站之间的关系等综合给一个网站的认可度的评价。但是值得说明的是,这种认可必须是建立在网站为用户提供了优质内容的基础上,是真实、有效的。下面仅以网站之间的关系为例,来说明百度是如何看待其他站长对您网站的认可的:通常网站之间的链接可帮助百度的抓取工具找到您的网站,并提高您的网站的认可度。百度将从网页A至网页B的链接解释为网页A向网页B的投票。通过网页投票表决可以体现网页本身的“认可度”更具分量,并且有助于提高其他网页的“认可度”。链接的数量、质量以及相关性都会影响到“认可度”的计算。

但请注意,不是所有的链接都能参与认可度的计算,只有那些自然的链接才是有效的。(自然链接是指当其他网站发现您的内容具有价值并认为其可能对访问者有所帮助时,在网络的动态生成过程中形成的。)

要使其他网站创建与您网站相关的链接,最好的方式是创建可在互联网内赢得人气的独特且相关的内容。您的内容越实用,其他站长越容易发现您的内容对其用户有价值,因而也就越容易链接到您的网站。在做出是否要增加链接的决定之前,您应当先考虑:这样做对我网站的访问者是否真的有益?

然而,某些网站站长时常不顾链接质量和链接来源而进行链接交换,并单纯地为了认可度而人为的建立链接关系,这些都会对其网站产生长期影响。

温馨提示:会对网站产生不良影响的链接包括但不仅限于:

企图操纵“认可度”计算的链接

指向网络中违禁网站、垃圾站点或恶性链接的链接

互惠链接或链接交换(如“链接到我,我也会链接到您”)过多

购买或销售用于提升网站“认可度”的链接

第三方面: 网站有良好的浏览体验

一个网站有良好的浏览体验,那么对用户来说是非常有益的,百度也会认为这样的网站是有更好的收录价值的。良好的浏览体验是指:

网站具有清晰的层次结构。

为用户提供包含指向网站重要部分的链接的站点地图和导航。使用户能够清晰、简单的浏览网站,快速的找到其所要的信息。

网站有良好的性能:包括浏览速度和兼容性。

网站速度快可以提高用户满意度,还可改善网页的整体质量(尤其对于互联网连接速度慢的用户)。

确保网站的内容在不同的浏览器中均能正确显示,防止某些用户不能正常访问。

网站的广告不干扰用户的正常访问。

广告是网站的重要收入来源,网站包含广告是非常合理的现象,但是如果广告过多会影响了用户的浏览;或者网站有太多不相关的弹窗、飘窗广告都可能会使用户反感。

百度的目标是向用户提供相关度最高的搜索结果以及最佳用户体验,如果广告对用户体验造成伤害,那么这样的站点是百度抓取时需要减少的。

合理设置网站的权限。

网站的注册访问等权限可以增加网站的注册用户、保证网站的内容质量,但过多的权限设置可能会使新用户失去耐性,给用户带来不好的体验。从百度来说希望减少提供对用户来说信息获取成本太高的网页。
分页: 5/128 第一页 上页 1 2 3 4 5 6 7 8 9 10 下页 最后页 [ 显示模式: 摘要 | 列表 ]