网站收录减少是怎么回事

网站收录减少的几个现象:
1、网站收录基本正常,只有收录内容减少。
网站收录基本正常,只有收录内容减少,这是常事,特别是对于新站。就像我的两个网站电影网和图片网被引擎收录后,短短几天收录数量突飞猛进,到一个月左右时,就出现了收录内容减少甚至是大量减少或首页多日不更新。这些都是正常现象,过一段时间自然就会好的。
当然一连好多天收录内容减少,就值得我们重视了。站长同志们应该首先看友链里面是否有被引擎K了和超过半个月不更新首页的网站,如果有马上去掉;其次查看网站内部链接是否存在过多死链;最后,采集过来的文章尽量处理下,能有原创最好。
2、网站只更新首页,不更新内页,减少收录。
网站只更新首页,不更新内页,减少收录。从这现象来看,现阶段还处于降权,还没有到受到百度过度处罚。所以只要消除过度优化的现象、做弊的手法,保持网站的更新度,多增加一些原创文章,减少文章中过度的链接,保持循环链接,就能解决。当然,还要增加高质量的链接。
3、网站首页被屏蔽,内页正常更新,总体收录减少。
网站首页被屏蔽,多半是首页关键字词密度过大,title过长等原因造成。要首页重新被收录必须要减少该页面关键字密度,
缩短title,不相关的关键字词删除,违反国家政策等词语全部删除,减少堆积(这点很重要),保持更新。另外检查你的robots.txt文件,是否符合百度的抓取政策;检查LOG,是否百度Bot还在抓取,怎样的频率。或者,直接将服务器的主机头索引修改为其他页面,或将首页的文件名称重新修改。但是做这些的先决条件是这个页面没有进行过度优化。
4、网站全部页面删除。
网站全部页面删除,这个问题是比较严重,一般出现了这个问题就意味着你的站点肯定存在很大问题。有可能是过度优化、有可能是网站结构等等。遇到这样的问题必须要将站点恢复原样,去掉多余链接修改网站框架结构。等待搜索引擎重新收录,一般这个周期会很长。如果这个站点域名不是很重要的话,可以考虑换掉域名,重新提交搜索引擎。


如何选择Apache,Nginx,Lighttpd的web服务

如果你不确定应该用什么服务器,那就应该用Apache
但是稍微可以配置多个服务的情况下,做一个Nginx在最前端,然后把需要的功能转发给Apache是最好的选择
如果你打算跑fcgi,Lighttpd是不二的选择
如果你打算做图片服务器,独立的Lighttpd也是很好的选择
Apache
Apache2对fcgi支持并不好
非常好用的proxy和proxy_ajp(很多人用它作为tomcat的前端)
不支持epoll
Nginx
速度快,占用资源少
杀手级的proxy和rewrite
非常不错的静态文件能力
最适合作为整个网站的前端服务(将php、svn等不同请求发送往后端apache)
Lighttpd
杀手级的静态文件能力
杀手级的fcgi能力
不稳定的proxy模块


web压力测试工具—Siege

获取地址:
ftp://ftp.joedog.org/pub/siege/siege-latest.tar.gz
修改siege配置
vi ~/.siegerc
调整:
verbose = false
concurrent = 50
delay = 1
internet = true
benchmark = true

参数介绍:

-cNUM 设置并发的用户(连接)数量,比如-c10,设置并发10个连接。默认的连接数量可以到~/.siegerc中查看,指令为concurrent = x,前面咱们已经调整了默认并发连接为50。
-rNUM(repetitions),重复数量,即每个连接发出的请求数量,设置这个的话,就不需要设置-t了。对应.siegerc配置文件中的reps = x指令
-tNUM(time),持续时间,即测试持续时间,在NUM时间后结束,单位默认为分,比如-t10,那么测试时间为10分钟,-t10s,则测试时间为10秒钟。对应.siegerc中的指令为time = x指令
-b (benchmark),基准测试,如果设置这个参数的话,那么delay时间为0。在.siegerc中咱们修改为默认开启。
-f url.txt (file),这是url列表文件。对应.siegerc配置文件中的file = x指令
测试结果分析:

[root@bbs ~]# siege -c 500 -r 50 -f bbs.url
** SIEGE 2.67
** Preparing 500 concurrent users for battle.
The server is now under siege..done.
Transactions:25000 hits
Availability:100.00 %
Elapsed time:65.52 secs
Data transferred:83.65 MB
Response time:0.57 secs
Transaction rate:381.56 trans/sec
Throughput:1.28 [...]


开源Web搜索引擎系统

1.Nutch
Nutch是Lucene的作者Doug Cutting发起的另一个开源项目,它是构建于Lucene基础上的完整的Web搜索引擎系统,虽然诞生时间不长,但却以其优良血统及简洁方便的使用方式而广收欢迎。我们可以使用Nutch搭建类似Google的完整的搜索引擎系统,进行局域网、互联网的搜索。
2.YaCy
YaCy是一款基于P2P(peer-to-peer)的分布式开源Web搜索引擎系统,采用Java语言进行编写,其核心是分布在数百台计算机上的被称为YaCy-peer的计算机程序,基于P2P网络构成了YaCy网络,整个网络是一个分散的架构,在其中所有的YaCy-peers都处于对等的地位,没有统一的中心服务器,每个YaCy-peer都能独立的进行互联网的爬行抓取、分析及创建索引库,通过P2P网络与其他YaCy-peers进行共享,并且每个YaCy-peer又都是一个独立的代理服务器,能够对本机用户使用过的网页进行索引,并且采取多机制来保护用户的隐私,同时用户也通过本机运行的Web服务器进行查询及返回查询结果。
YaCy搜索引擎主要包括五个部分,除普通搜索引擎所具有的爬行器、索引器、反排序的索引库外,它还包括了一个非常丰富的搜索与管理界面以及用于数据共享的P2P网络。


网页性能优化工具

Firefox Firebug Net panel,见http://www.getfirebug.com
Yslow,Yahoo 性能扩展Firebug,见http://developer.yahoo.com/yslow/
Firefox LiveHTTP Headers,见http://livehttpheaders.mozdev.org/
IE Fiddler,同时也是一个多用途封包监听器,见http://www.fiddlertool.com/fiddler/
IE HTTPWatch,见http://www.httpwatch.com/
Web检查工具,见http://webkit.org/blog/?p=41


使用Squid配置反向代理(HTTP 加速器)

通过squid配置反向代理主要就是配置“squid.conf”这个配置文件。下面以Linux操作系统为例进行介绍,其它版本的在 UNIX也同样适用。在Linux中squid如果是以源代码方式安装的话,这个文件一般在“/usr/local/squid/etc/”目录下。如果 是系统自带的squid,一般配置文件在“/etc/squid/”目录下。
1.Squid反向代理单个后台WEB服务器
如果WEB服务器和反向代理服务器是两台单独的机器(一般的反向代理应该有两块网卡分别连接了内外部网络)。那么,应该修改下面的内容来设置反向代理服务。

http_port 80 # squid监听的端口
httpd_accel_host 172.16.250.250 # 内部WEB服务器的IP地址
httpd_accel_port 80 # WEB服务器的端口
httpd_accel_single_host on # 转发为缓冲的请求到一台单独的机器
httpd_accel_with_proxy on #
httpd_accel_uses_host_header off
如果WEB服务器和反向代理服务器是同一台机器。
那么,应该设置WEB服务器的监听端口为非80端口(比如:81端口)。要修改的内容如下:
http_port 80 # squid监听的端口
httpd_accel_host localhost # 内部WEB服务器的IP地址
httpd_accel_port 81 # WEB服务器的IP地址
httpd_accel_single_host on # 转发为缓冲的请求到一台单独的机器
httpd_accel_with_proxy on #
httpd_accel_uses_host_header off

  
下面解释一下配置指令。
  http_port 80
  选项 http_port 指定squid监听HTTP请求的端口,一般都设置成80端口,这样使用户感觉不到反向代理的存在,就像访问真正的WEB服务器一样。
  httpd_accel_host 172.16.250.250?和?httpd_accel_port 80
  选项httpd_accel_host 和 httpd_accel_port 指定WEB服务器的IP地址和端口号,可以根据自己的WEB服务器的实际情况而定。
  httpd_accel_single_host on
  选项httpd_accel_single_host 为on 时,squid被设置成仅对单一的web服务器作反向代理。不考虑HTTP头信息,Squid转发所有的未被缓冲的页面请求到这个web服务器。如果 squid需要做多个web服务器反向代理,必须将此选项设置为off,并且使用转向器或者DNS去映射请求到合适的后台WEB服务器。
  httpd_accel_with_proxy on
  如果希望squid既作反向代理服务器又作本地机器的上网代理,需要将httpd_accel_with_proxy 改为 [...]