网站如何让百度收录增多? 不指定

元创 , 2012/12/02 17:23 , SEO策略 , 评论(8) , 阅读(23904) , Via 本站原创
网站如何让百度收录增多?
先明确一些基本点,一个网页被收录与否,有两个因素

是否被爬虫爬过
页面质量是否过关

  很多人说,“我看看site的数据不就行了!”,事实上没有这个指标,很多工作就无从下手。从数据中找出问题,利用数据指导解决方案,分析数据验证工作成果。 任何数据分析由,目标->分析->评估->决策,四个环节组成。

目标:我们想看一下网站的收录情况如何,在搜索引擎优化方面是否还有提高的机会。
分析:收录情况什么算好什么算坏,是不是用一些指标来衡量?网站的收录情况是不是过于笼统,是不是应该细分下各个页面的收录情况?
评估:于是我们需要下面一些数据

网站的页面层级关系
点击在新窗口中浏览此图片
各个层级页面带来的SEO流量
各个层级页面的收录情况如何
点击在新窗口中浏览此图片

SEO流量的占比可以从Google Analytics中过滤出来。
页面数量可以从数据库获得,或者通过火车头or自制小脚本抓取统计。
收录率可以将获取的页面通过工具进行搜索,火车头也可以。


问题立马凸显!

1+2级目录页带来了大量的流量,收录率不是很好,优化收录的流量提升突破口在在此!
产品页面数量很多,收录也不是很理想,但是带来的流量有限,除了收录问题,还有页面内容的问题,本文中先不管它了。
决策:我们的结论是立刻展开行动对目录页面进行收录的优化。
看到这边,似乎刚开始的目标:“通过优化收录提升流量”
演变成了新的目标:“如何提高目录页面的收录量”
这边能不能再次通过数据分析的方法进行SEO呢?

我们再来重新走一遍 目标->分析->评估->决策 的过程
目标:提高目录页面的收录量

分析:通过本文开始的有关收录的两个因素,我们需要检查一下,网页是否被爬虫爬行过,网页的质量是不是过关。

1. 关于爬虫的情况,我们需要分析日志,才能确定。于是我们从日志中拆分一系列数据看看页面是否真的被爬行过。
2. 由于页面质量似乎是一个很难衡量的值,于是我们可以用相同模板下的:
已被爬行的页面数量/已被爬行并且被收录页面数量

来评估该模板页面质量对收录的影响大小。如果被爬的页面都被收录了,那至少说明这套页面的内容搜索引擎还算认可。(实际情况远比这个复杂,而且收录后也有可能因为质量问题被删除,但总比什么参照都没有要好,对吧!)

评估:(敏感信息用编号代替,均为真实数据)

先看一下爬虫日志的情况,通过Shell脚本,我们可以分析出。
目录总计被爬行的次数为13000次左右
不重复的目录爬行次数为5500次左右
频道A下的目录几乎被100%抓取过至少1次,频道B的目录抓取也不错,有70%被至少抓过一次。
其余频道下的目录被抓取的覆盖率不到30%
点击在新窗口中浏览此图片

不要觉得这个结果很神奇,其实很多网站都会面对这样的糟糕问题,只要你把数据不断的细分,细分,再细分,总会观察出一些端倪的。

关于日志分析,不要迷信任何的日志分析软件,那都是给懒人用的,自制脚本+Excel才是王道,可以拆分显示出任何你想要的数据,当然,甚至可以连Excel都不要。

然后,我们统计了一下被抓得最频繁的频道A和频道B,目录页的收录率
点击在新窗口中浏览此图片
频道A和B是很让人放心的,说明页面质量没问题,但是余下的收录情况就让人比较担心了。

决策:通过上面的数据评估,我们已经得到了如下结论。

页面质量并不是影响收录的原因。

频道A,B的抓取量异常的高,通过调查了解,原来是首页上的目录页,显示的全是频道A下的目录页,首页又拥有全站最高的权重。频道B拥有比其他频道强大的外链资源,权重也非常高。
除了A, B频道,其他频道的抓取情况不容乐观,抓取入口太少,太深,进而影响了收录情况。
很明显,现在频道A从站内的角度来说太强大了,必须进行一些“劫富济贫”的运动来降低频道A的抓取量,转移到其他频道中去。同时,需要给爬虫提供更多的入口抓取频道页。

现在问题变得清晰起来,我们开始把工作分成两部分:1.提供更多的入口 2.将资源平分给各频道而不是集中在少数几个频道上。

提供入口工作:
1.把目录页的URL制作成sitemap。提交给搜索引擎,并且将其设置为比较高的抓取权重。
2.完善面包屑导航,将面包屑导航划分得更加细致,以提供更多入口
3.在其他产品中推荐目录页

资源平分工作:(一些概念:任意页面都有可能成为爬虫入口,百度爬虫抓取深度有限,页面相对入口越浅,被抓取的概率越高。)

1.原先首页指向的都是频道A的目录页+产品页,将其全部nofollow,确保从首页进入的爬虫,全部抓取到频道页,通过频道页再进入目录页(其实这个不算太重要)
2.原先频道页指向自身的产品页,将其全部nofollow(确保从频道页入口的爬虫,最大程度的抓取目录页)
3.从目录页返回到首页的链接,将其全部nofollow。
4.减少一些页面上无关链接。(什么情况下这么做都是非常有效的。)
现在可以开始动手了。。

成果
这么做到底有什么效果呢,我们来看看修改后1个月后的数据。
点击在新窗口中浏览此图片
目录页的收录率提高了100%!
产品页的收录率也有一定程度的提高,这是归功于目录页对于产品的良好展现。
目录页的SEO表现:
SEO流量占比上升了15%
增长10%的到访关键词数量(新页面的收录)
SEO流量增长了50%以上。(包含一些季节因素)
文章为夜息撰写,来源于:http://bbs.zhanzhang.baidu.com/thread-9116-1-1.html
   百度外链工具内测体验
     自从雅虎外链工具失效以后,站长们对如何查询外链这块非常饥渴,一方面想了解自己的网站外链数据到底是否有效,另一方面也方便分析竞争对手在哪里发过外链等等,在前几天百度站长平台就推出了只能查自己网站外链的工具,在百度站长平台的工具中,测试版的外链数据站长们反映外链数据不准确,数据少,只能查自己的外链等问题,百度站长平台外链查询工具又继续升级,推一把论坛有幸被邀请参加百度站长平台的外链查询工具新版内测。简单说说体会:

1、数据更准确:
比测试版外链查询更精准,测试版查询的外链数据有几年前的,可能没有及时更新吧,但内测升级版外链工具数据,已经接近非常接近真实的外链数据了。
点击在新窗口中浏览此图片

除了自身数据精准外,不用说,比其他外链工具要准确的多,升级后的外链工具可以精确的了解自己网站的外链数据和竞争对手的外链数据。

2、可查询全网数据
升级版外链工具,除了可以查询自己网站功能外,还可以查询其他网站的数据。
点击在新窗口中浏览此图片
可以了解竞争对手在哪些网站发了外链,哪些具体页面都可以一目了然,非常有借鉴意义。


3、数据更多:测试版外链数量显示很多
测试版外链数量和被链接数量都只提供2页的数据,不完全。
升级以后,把所有外链数据均显示出来,包含链接你的域名个数、链接所在页面、定位文字等信息,方便站长更好的查询自己的外链数据。可以了解自己的外链是否广泛性。也进一步说明域名个数很重要,不能把外链只集中也某些平台上。与雅虎外链相比,雅虎外链之前最多显示1000个有效外链,按照权重高低分布,可以很好地给予站长借鉴,百度外链权重是按照站点的权重顺序排列,也可以让站长们了解,那些站点权重更高。
点击在新窗口中浏览此图片
推一把外链总数:204273,
点击在新窗口中浏览此图片
域名个数为1400个左右

百度外链工具的确非常不错,大家以后不用在到处找外链工具了。建议大家赶快使用,地址:http://zhanzhang.baidu.com/welcome 。



元创 - 本周IT快报(10月29号-11月2号)

    本周IT快报介绍:元创在平时看一些新闻,相信很多朋友也爱好这方面新闻,就在业余时间,整理一下业内最新的一些资讯,分享给大家。如有异议可以留言。

如果有朋友需要,可以点击上面的图片订阅本快报,谢谢!

下载地址:
点击在新窗口中浏览此图片
快报内容截图!
10月30号百度推出百度外链查询工具

1.什么是外链

外链是指从别的网站(B)导入到自己网站(A)的链接。

2. 如何使用外链工具?

点击在新窗口中浏览此图片
10月30号百度外链查询工具

第一步,注册并登录百度站长平台
第二步,提交网站并验证归属,具体验证网站归属方法可见帮助文档      
第三步,选择左侧“站点管理”
第四步,在已认证归属的站点列表中选择需要查询的站点
第五步,选择左侧“外链工具”
第六步,可查看自己网站的外链详情

百度提示您:该页面可能因黑客侵入而存在安全风险

自从10月24号百度增加了网站安全检测工具,很多网站均出现这样的情况。

点击在新窗口中浏览此图片

如果出现这种情况如何解决呢?

1,在百度站长工具中检测,选网站安全监测

点击在新窗口中浏览此图片

2,看检测提示,是QQ管家提示的
点击在新窗口中浏览此图片

如果提示违禁词,需要先删除网站中的违禁词,然后需要去QQ管家申诉。
申诉地址:电脑管家:http://guanjia.qq.com/complaint.html

如果是其他安全商提示的,就去相应的安全商网站申诉:

各安全厂商联系方式
Scanv投诉地址:http://www.scanv.com/seccenter/appeal/
百度投诉地址:http://tousu.baidu.com/webmaster/suggest
电脑管家:http://guanjia.qq.com/complaint.html
金山云安全:http://fish.ijinshan.com/Kws/appeal
若您发现自己的网站被误报,请优先向误报厂商发起申诉,安全厂商会迅速定位您的问题,并给出反馈。也可以向百度发起申诉,但人工受理申诉的流程会比较慢,请您谅解。

3、在填写时资料需要填写完整,备案号,网站其他批号,公司名字等真实信息。

然后等待申诉成功!



10月23号百度算法更新:针对购买链接行为

尊敬的各位用户、站长朋友们,大家好!
    近期,我们综合数据分析出的问题、用户及广大优质站长反馈的意见,即将对百度反作弊算法进行再一次的更新升级。本次百度系统算法升级,打击的主要对象为意图通过超链作弊的方式操纵网站在百度搜索结果中排名的行为。其中,包括对任一指向贵网站的链接或从贵网站导出的链接进行蓄意操纵的行为。操纵这些链接可能会影响到百度搜索结果的质量从而伤害用户体验,同时亦伤害了大量勤恳建设网站内容的站长利益,恶性循环,导致互联网生态不健康发展,出现各种各样的利益群体剥削站长利益。我们希望通过本次算法升级可以达到两个切实目的:第一,进一步降低此种行为对用户体验的伤害;第二,维护勤恳建站的站长利益,从而将主要精力放在网站内容建设上来。具体打击的蓄意操纵行为包括但不限于如下举例:

1、花钱购买链接或出售可以提升所谓网站权重的链接;

2、通过创建大量的无价值网页或站点建立的交叉轮链;

3、使用程序机在web2.0等网站大量的群发指向您网站的链接;

4、通过扫描网站漏洞在高质量站点中加入隐藏链接

不具推荐意义的交换链接等等

    根据我们自己的评估及用户调研,本次算法更新将使3%~4%的关键词搜索体验有所提升,算法准确率亦达到了相当高的程度,但仍不排除出现个别误伤的情况,如果您确信自己的网站被错误处理, 请通过百度站长投诉中心进行反馈。虽然我们无法一一进行回复,但对于每一个线上反馈,都会认真仔细的分析,并将分析结果体现到下一次升级中。

    同时,近期我们还将针对超链作弊的行为有更进一步的策略,请广大站长将更多的精力放在为互联网增加优质内容上。我们会继续针对任何意图操纵搜索引擎排名的作弊行为进行打击,维护用户体验及绝大部分优质站长利益。倾听搜索用户声音的同时,加大与站长的交流,例如近期大量站长反馈的买卖链接、黑链等行为,我们会在未来一到两个月内进行更进一步的识别处理。我们相信,只要坚持不懈的为用户提供高质量内容,在做任何决定之 前,只要想清楚这样做是否对访问者有益而非单纯针对搜索引擎,肯定会得到用户的青睐。最后,感谢向我们反馈意见的用户及站长朋友。

手机站如何优化?百度发布手机站优化指南v1.1

百度移动搜索是全球最大的中文手机搜索引擎,每天用户使用百度移动搜索发起的搜索请求高达数亿次。本文档旨在为手机站站长提供官方、明确的搜索引擎优化标准,使站长合理、可持续的提升手机站流量,获得长久、稳定的发展,同时促进整个移动互联网的良性发展。

百度移动搜索一直致力于手机站点的收录,任何符合手机站收录标准的站点,Baiduspider都会积极收录。其中移动搜索会优先收录的手机站点为

A:拥有手机用户迫切需要内容资源的手机站点。
B:符合手机建站规范的站点具体建站规范如下:

1. 域名尽量简短,越短的域名,用户记忆成本越低。

2. robots限制放开,百度spider的爬虫UA是Baiduspider(www和wap一致),个别站长经常会误认为百度手机爬虫的UA是baiduspider-mobile。

3. 对内容组织,最好能通过二级域名或者目录区分。使用规范、简单的url,尽量去除与页面内容无关的参数,如用来区分手机型号、区分访问用户,方便统计等的参数。例如:“新浪体育”http://sports.sina.cn/?pos=101&vt=3 “百度知道”http://wapiknow.baidu.com/;“搜狐邮箱”http://wap.mail.sohu.com/。

4. 网站首页或者频道首页的网页代码中最好加上keywords属性的meta标签,内容中列举该网页或该频道的关键字,多个关键字之间以逗号分隔。 例如手机新浪首页(http://3g.sina.com.cn/)的源码中含有如下keywords标签:

< met a name=" keywords " conten t=" 手机新浪网,新浪首页,新闻资讯,新浪新闻,新浪无线 " / >

5. 网站首页或者频道首页的网页代码中最好加上description属性的meta标签,内容中列举该网页或该频道的描述信息,对搜索结果的展现(摘要)大有帮助。 例如手机新浪首页(http://3g.sina.com.cn/):

< meta name =" de scription " content = " 手机新浪网是新浪网的手机门户网站,为亿万用户打造一个手机联通世界的超级平台,提供24小时全面及时的中文资讯,内容覆盖国内外突发新闻事件、体坛赛事、娱乐时尚、产业资讯、实用信息等。手机新浪网iphone版 - sina.cn "  / >

6. 减少内容死链接,如果没有内容,最好http状态码指定,比如404403等;如果内容死链希望重定向到首页,最好通过302跳转,不要使用javascript跳转。

7. 网站应该有清晰的结构和明晰的导航,建议采用树形结构,大致可以分为三个层次:首页<-->频道页<-->内容页,每个页面应该有指向上级、下级以及相关内容的链接。比较合理的网站应该是一种扁平的树形结构。

8. 页面最好有面包屑导航信息,能够帮助用户和搜索引擎方便的定位当前网页在网站中的位置:类似 百度知道 > 电脑/网络 > 操作系统/系统故障 > Windows7 > 当前浏览内容。

9. 标题描述清晰最好包含主站和频道信息。
首页:网站名称 或者 网站名称_提供的服务或者产品介绍;
频道页:频道名称_网站名称;
内容页:内容标题_频道名称_网站名称。例如:NBA_新浪体育 、无线机票_手机淘宝网。

10. 控制子域名的数量。子域名数量过多时,优质域名下的资源可能会被普通域名淹没。例如:不要使用用户ID作为二级域名:user.a.com 其中user是某个用户的帐户。

11. 网页链接指向的url最好是正常格式的目标url,而不需要中间跳转。

12. 改版或者换域名的时候,为了保证老用户不流失,希望旧网页可以301永久定向到新内容新老内容映射尽量简单。换域名时,如果能够做到路径不变,则负面影响面会更小,而且影响时间也会更短。 比如:a.com/abc/abc.htm –> 301跳转到 –> b.com/abc/abc.htm 13. 如果站点做了高、低端机适配,最好按照域名进行区分,例如www.a.com适配到高端机最好302到 i.a.com 低端机到 3g/m/wap.a.com。

14. 根据手机终端的发展趋势,我们鼓励站点进行多版本建设,使用html5和xhtml建站,站点进行不同版式的自动适配。

15. 对于高版本的手机站,建议页面按照屏宽适配,主要内容直接展示在页面中,减少折叠形式,且避免被浮层广告或弹框遮盖。此外,确保页面中的下载、视频等功能可正常使用。

16. 对于移动站点,当baiduspider ua或者其它无法确定来源的ua访问时,建议默认情况下直接返回html5或xhtml类型的移动页面,不要重定向到PC页面。

17. 网页源代码中,请使用规范的、符合标准的xhtml/html5/wml协议和javascript不使用仅有个别浏览器支持的特性。

18. 手机页面进行合适的DOCTYPE声明有助于搜索引擎识别该页面是否适合手机浏览。 声明位于文档中的最前面的位置,处于 标签之前。例如, xhtml协议的手机页面中可以使用如下DOCTYPE:

< ! DOCTYPE ht ml  PUBLIC  "- // WAPF ORUM// DTD XHTML Mobile 1.0/ /E N " " h ttp://www.wapforum.org/DTD/xhtml-mobile10.dtd "  >

wml协议的手机页面可以使用如下DOCTYPE:

< ! D OCTYPE wml P UBLIC "-// W APFORUM//DTD WML 1.1//EN "  " http://www.wapforum.org/D TD/wml_1.1.xml " >

而HTML5协议的DOCTYPE为:

< !  DOCTYPE HTM L  >

此为百度官方发布的手机站优化指南v1.1 ,手机互联网时代已经到来,做好手机优化势在必行!

下载该指南!百度手机站优化指南v1.1
百度快照时间为什么会回档?  

    很多网站经常出现快照回荡的现象,很多站长担心是降权,下面是百度官方的解释:
    
     一个重要网页的快照往往会在搜索引擎数据库中保存有多份网页快照,这些快照的抓取时间并不相同。在一些极特殊情况下,搜索引擎系统可能会选择不同于当前搜索结果中的快照版本,导致出现快照时间倒退的情况。这对网站在搜索引擎中的表现无任何影响,也并不代表搜索引擎对该网站做了降权处理。  

百度快照为什么会更新?

    首先,需要澄清一下网页的抓取频率和快照的更新频率是完全不同的两个概念。

   每一个被百度收录的网站,baiduspider都会根据其网站内容更新的频率不断的检查有无新网页产生,通常情况下,Baiduspider的抓取频率会和网站产生新内容的速度相符,通常说的更新,是指Baiduspider对网页内容的抓取。

    每个新抓取或者新检查过的网页,我们都会根据其重要程度以及其时效性价值以不同的速度去创建索引,通常所说的快照更新时间是指索引时间,一些经常有重要内容更新的网页,我们会以更快的速度创建索引。如果一个网页只是一般的文字变更或者内容没有时效性的价值,并不一定会被搜索引擎认为有快速更新索引的价值,即便百度蜘蛛重新抓取了该网页内容,其快照也不一定会快速更新,但这并不意味着它不重要或者百度更新的速度很慢。

快照时间为什么会倒退?

一个重要网页的快照往往会在搜索引擎数据库中保存有多份网页快照,这些快照的抓取时间并不相同。在一些极特殊情况下,搜索引擎系统可能会选择不同于当前搜索结果中的快照版本,导致出现快照时间倒退的情况。这对网站在搜索引擎中的表现无任何影响,也并不代表搜索引擎对该网站做了降权处理。  

   综上,快照的更新与页面中是否出现重要新增内容有直接关联,而与网站本身的“权重”、是否“被K”并无直接关联。站长不必过多关注网站的快照时间,我们建议站长将精力集中在网站的内容建设中,只有提高网站的内容价值和检索体验,方可受到用户和搜索引擎的信赖。

分页: 13/130 第一页 上页 8 9 10 11 12 13 14 15 16 17 下页 最后页 [ 显示模式: 摘要 | 列表 ]