基于Php实现自动获取关键词的分析

现在的CMS都自带了采集功能,内容和标题相对来说很好处理,但大部分情况关键词很难能提取到。于是自动获取关键字成为当前PHP类CMS的“传统问题”。
那如何才能自动获取关键词呢,其主要步骤主要可以分为如下三个步骤:
1,通过分词算法将标题和内容分别进行分割,提取出关键词和频度
在内容的分词阶段,当前主要的两个算法是中科院的ICTCLAS和隐马尔可夫模型。但这两个都太高端,有一定的门槛,且都是只支持C++/JAVA。基于PHP的当前有两个是值得推荐的PSCWS和HTTPCWS。
SCWS于2008-03-08发布1.0.0 正式版,到现在最新版本已经到了1.0.4。PSCWS是它的PHP版。
而HTTPCWS是张宴开发的,之前叫PHPCWS。PHPCWS 先使用“ICTCLAS 3.0 共享版中文分词算法”的API进行初次分词处理,再使用自行编写的“逆向最大匹配算法”对分词和进行词语合并处理,并增加标点符号过滤功能,得出分词结果。目前仅支持Linux/Unix系统。
2,将提取结果与现有词库进行比较,得到最符合规则的关键词
这里主要就是要看词库了,我们可以自己定义词库,也可以使用现有的成熟词库。
3,然后将这两套关键词进行比较,得到最符合当前内容的关键词
在这个阶段就是具体情况具体分析了。当前PHP类CMS都自有自己的提取关键词系统。其中在网络上流传最广的是DEDECMS的分词源码,我也在我的POPCMS上作过测试,效果很不错,不过类似“我们”等无意义的词提取并被列为关键词的频率太高,甚至有时候还会把空格的HTML提出来做为关键词,亟待改进。不过如果作为辅助功能,它已经很好了。
另外PHPCMS和DISCUZ的自动提取关键词功能也很强大。


注意:什么导致搜索引擎不收录页面

现在搜索引擎收录是网站推广的一个很重要的手段,如果辛苦做好站点,网络蜘蛛不过来,是很郁闷的事情。
是什么导致搜索引擎不收录页面?请注意以下几点
网页使用框架
框架内的内容通常不在搜索引擎抓取的范围之内。
图片太多,文本太少
提交页面转向另一网站
提交太过频繁
网站关键词密度太大
一般认为100个字的描述中含有3-4个关键词为最佳。
文本颜色跟背景色彩一样
搜索引擎认为你在堆砌关键词欺骗它。
动态网页
网站的内容管理系统方便了网页更新,却给大部分搜索引擎带来麻烦,很多搜索引擎不收取动态页面,或只收取第一层页面,不会向下深入收取。这时要考虑使用WEB服务器的重写(rewrite)技术,把动态页面的url映射成和静态页面url相似的格式,搜索引擎误以为是静态页面,就会收取了。
网站转移服务器
搜索引擎通常只认IP地址,转换主机或域名时,IP/DNS地址发生改变,这时你要重新提交网站。
搜索引擎抓取时网站不在线
如果主机不稳定,就有可能出现这种情况。更糟糕的是,即使网站已经收录,重新抓取时发现不在线,还会将网站整个删除。
错误地阻挡了robots索引网站
有两种方法可能阻挡robots:主机服务器的根目录下有简单文本文件;网页中含某种META标签。
过多特效及障碍
大量运用Flash、DHTML、cookies、html” class=”wordstyle”>JavaScript、Java制作或密码进入的网页,搜索引擎很难从这种页面中提取内容。
网站的链接广泛度太低
搜索引擎难以找到你,这时要考虑把网站登录到知名分类目录,或多做几个友情链接。
服务器速度太慢
网络带宽小,网页下载速度太慢,或者网页太复杂,都可能导致搜索引擎还没搜到文本内容就暂停。
关键字问题
如果正文没有出现你的META标签中提到的关键字,搜索引擎可能以为是垃圾关键字


SEO关键词的位置也很重要

关键词很重要,不仅是指关键词的数量,也包括关键词质量。
如果你在页面标题,分级标题,第一段等有很多关键词,要比在页面底部有很多关键词要重要。
原因是URL(网址,尤其是域名),文件名,目录名,页面标题,分级标题等独立部分的关键词,要远远比普通文本中的关键词重要。即使你的竞争对手和你拥有一样的关键词密度,而你的关键词分布在URL(网址)中,那么搜索引擎,尤其是 Yahoo!(雅虎),将会给你带来不可思议的排名。


如何写好网页Head标签

meta标签是内嵌在你网页中的特殊html标签,包含着你有关于你网页的一些隐藏信息。Meat标签的作用是向搜索引擎解释你的网页是有关哪方面信息的。对于高级的搜索引擎来说,html 的meta 标签并不是什么新奇的东西。但是无论如何它是一个优秀网页不可缺少的。下面我们就它进行一些讲解吧。
一般的加入meta 并不能帮助你在搜索引擎中获得更好的排名。有好几种meta标签,但重要的有以下几个:description标签,keywords标签,title标签(严格来说title不算是一个标签)。当你不时刷新标签时这几个标签显得特别的重要。如果你希望搜索引擎对你的网站进行索引时就会用到html标签的重定向(redirect)标签与robots标签。
注意:调查表只有20%的网页用到“关键字”与“描述”标签(即keyword,description)
下面是对于这两个标签的例子:
<html>
<head>
<title>标题内容</title>
<meta name=”description” content=”你的描述内容”>
<meta name=”keyword” content=”关键字1,关键字2,—”>
</head>
</html>
多个关键字用英文逗号分开。
title标签
title 标签可能是你网页中最重要的标签,它是你网页中最先看到的部分。把它放在description 与 keyword前。在这个标签中最好是加上你网站的关键字,title标签在搜索引擎的搜索中占有非常重要的地位。最好是把它放在其他meta标签前,这更有利于你网站的排名。(注意:有些搜索引擎会按title标签的字母的优先权进行排名,尽量在你的title中使用开始的字母)title标签是人们在搜索引擎中第一个看到有关你网站的描述,所以尽量把它弄得简单、明了。让人一看就知道你的网站是关于什么的。
Description标签
Description标签就在title后面,该标签可以是一小段(一个或者两个句子)。用于描述你网站。与title标签一样,这也是人们在搜索引擎列表中链接到你网站的点击。这些描述将鼓动人们去浏览你的网站而不是你竞争对手的。(描述不能太夸张。不然,当访问者到你网站发现内容根本不是你说的那个样子,那么他很快就会退出去。)很多搜索引擎允许描述的字数在150个左右,所以你要保证你的描述在150以下,否则搜索引擎会自动把多余的部分剪去从而造成你网站的描述的不完整。搜索引擎认为描述里的关键字远比网页中的内容要重要(好像现在这种情况不是那么明显了)。真如上所述,这里提供了非常重要的信息:确定你的描述能正确的反映你网站的主题,尽量在描述中加入你主要的关键字,越靠meta的关键字意义越大。这样会突显你的关键字。
现在大多的搜索引擎(google除外)都会支持descriptin标签。如果你不使用的话你将会失去排名靠前的可能。
keyword标签
相比于description与title标签,keyword标签显得并不是那么重要了。有些搜索引擎把它完全地忽略,但是使用下正确的keyword标签对提高排名仍然有效。


网站诊断分析

一 xx网站流量及页面分析
1、网站流量分析
(1)、流量来路统计
访问来源分析,从 2006-12-12 到 2007-02-28 的统计: (略)
(2)、浏览页面和入口分析 (略)
(3)、客流地区分布 (略)
问题:是否能尽快开通北京分站?以留住网站的流量!
(4)、搜索引擎与关键词分析
各搜索引擎带来的流量比例分析:
各搜索引擎来访次数具体统计如下:(数据采集时间段:2006-12-12_2007-02-28)

搜索引擎名称
来访次数

百度
65.565%(9465 次)

Google
25.408%(3668 次)

腾讯SOSO
4.28%(618 次)

互联星空(114搜索)
1.343%(194 次)

百度图片
0.782%(113 次)

搜狗
0.637%(92 次)

Yahoo
0.519%(75 次)

新浪爱问
0.512%(74 次)

MSN搜索
0.436%(63 次)

网易
0.27%(39 次)

3721
0.11%(16 次)

Live搜索
0.09%(13 次)

中国搜索
0.013%(2 次)

TOM搜索
0.013%(2 次)

有道
0.006%(1 次)

Google图片
0.006%(1 次)

Power by Cnzz.Com

搜索关键词统计:(数据采集时间段:2006-12-12_2007-02-28)
2、站点页面分析
(1)、主页面整体分析
A 首页冗长,导航效果不理想。根据日志分析显示,一些分类优惠券栏目的访问量都较大,可见某些内容在首页呈现,并不能起到很好的导航效果,反而对降低了用户体验,导致首页加载时间较长。
B导航栏:采用了不利被搜索引擎索引的flash文件,搜索引擎一般根据导航栏目结构索引更多深层的页面,而蜘蛛程序不能识别flash文件的内容和链接。
B 使用图片太多,大量的花哨的边栏效果,一方面降低了页面访问速度,另一方面内容不利于被搜索引擎索引。
C 网站目录结构基本呈扁平化趋势,但重点频道如美食和潮流可以采用二级域名,因为搜索引擎对二级域名的适应性比普通页面好,能索引更多的内容。
D 网站地图仍是老版网站的,一直没有更新,一个好的网站地图能提高搜索引擎索引速度。
E 超链接混乱。重要专区页面动态链接和静态链接并存,以买当劳和绿茵阁为例,专区页面链接已经静态化了,而首页左侧的推荐链接仍然是index.jsp,浪费了链接资源,等于是浪费了搜索引擎对重要页面的评分机会。
(2)、页面标签分析
以下是xx首页的页面tittle内容和关键词描述。
页面tittle内容:
<title>xx网-中国最大的电子优惠券发布中心|电子优惠券|手机优惠券|手机折扣券|电子折扣券|折扣信息|打折信息</title>
文字内容太长,而且忽视了主次排列顺序的问题。
meta关键词的内容:
<META CONTENT=”xx,xx网,Xxxxx.com,电子优惠券,肯德基优惠券,肯德基电子优惠券,麦当劳优惠券,麦当劳电子优惠券,必胜客优惠券,必胜客电子优惠券,电子折扣券,折扣信息,手机折扣券,手机优惠券,当当优惠券,卓越优惠券,电子优惠券下载,折扣券下载,打折信息,折扣信息,最新优惠活动,有奖活动,广州有奖优惠活动,广州最新折扣信息,美食优惠券,手机优惠,降价促销,打折促销,电子优惠券发布中心”>
太多与网站不相关的关键词,指望通过首页关键词优化命中所有的关键词搜索排名是不现实的,应该集中提炼好与主题或产品相关的几个关键词。
meta网页的描述,这部分内容通常搜索引擎在结果页面呈现给用户的摘要。
<META CONTENT=”xx网,中国最大的电子优惠券发布中心,手机优惠券免费注册,获取手机优惠券方式,电子优惠券,电子折扣券,折扣信息,手机折扣券,手机优惠券,电子优惠券下载,折扣券下载,广州电子优惠券,广州优惠券,广州打折信息,广州折扣信息,广州最新优惠活动,有奖活动,电子优惠券发布中心,xx网优惠券,彩信折扣券,二维码,优惠信息,折扣信息,优惠商家,xxxxx,xxxxx.com,xxxxxxx,xxxxxxx网,xx网官方网站,广州优惠信息,信用卡优惠信息,网上购物优惠券,广州电子优惠券,打印优惠券,优惠券网,优惠券平台,优惠券门户网站,优惠券设计,肯德基优惠券,下载手机电子优惠券,下载电子优惠券,优惠券基地,优惠券发布中心,优惠券下载中心,手机优惠券下载中心,电子优惠券,电子折扣券,折扣信息,手机折扣券,手机优惠券,电子优惠券下载,折扣券下载”>
网页描述部分,应该简单的描述网站是提供什么样的产品或服务,例如:综合消费门户xx网,提供中文地区最全的生活资讯,消费指南,麦当劳、肯德基、必胜客等电子优惠券以及商场超市打折促销信息,xx社区汇聚消费攻略,消费娱乐,促销活动等
(3)、超链接检查
超链接对于搜索引擎营销的重要性几乎是排在第一位的,搜索引擎都是通过链接关系来判断网页的价值。
A 首页导航栏采用flash文件,里面包含的超链接不会被搜索引擎索引到,这样的链接等于是无用的链接,等于浪费了搜索引擎对于频道首页的网页评分机会。
B 首页焦点图采用了javascript代码,包含的链接也不会被搜索引擎索引。
C 全站大量使用了动态链接,这等于是提高了被搜索引擎索引的难度,还降低了用户访问页面的效率。
D 在买当劳、绿茵阁这样的专题页面里使用了大量的图片热点链接,搜索引擎无法识别图片上的内容, 有些图片链接是毫无必要的,纯粹是为了美观,如果代替以文字链接,在锚文字中包含关键词,则会大大提高搜索引擎命中的机会。
(4)、浏览速度分析
网页访问速度一般,北方用户打开比较慢,包括上海在内的不少用户反应访问速度慢
网页访问速度慢不外乎以下几个原因:
A服务器及带宽的原因。包括网站服务器本身带宽的限制、南北互通的问题等。
B 超链接的原因。全站大量使用了动态链接,增加了页面加载响应时间。
C 网站设计的原因。网页图片太多,包括导航栏flash文件、页面栏目导航条都采用了大量图片效果,花哨而影响了用户体验,一个网页文件一般保持5K-10K的范围内是最合适的,首页大部分图片都超过了10KB以上。使用像opera这样的浏览器更会明显感觉到图片太多而影响网页浏览速度。
二 [...]