策略研究

转雷军的十大优秀创业项目标准

过去,我曾简单介绍过我选择项目的四个必备条件,就是“大方向很好,小方向被验证,团队出色,投资回报率高”。关于大方向,主要是看这个方向五到十年是否长期看好。每个投资人都有自己独到的见解,目前我最看好的方向是移动互联网和电子商务,当然,我也还愿意学习研究一些新的方向。关于投资回报的问题,早期风险投资成功项目回报的目标是十倍的收益,天使投资比早期风险投资进入要早,风险更高,所以,天使投资要求的回报会更高。这样,投资的关键问题主要在于具体方向和团队。
在我看来,团队和方向两者相辅相成,缺一不可。也就是说,如果创业者能力不足,再好的方向和机遇也很难把握;如果创业者能力非常出色,但做得方向不对,难成大器。具体如何评估一个创业项目,我总结了十条标准供大家参考。
一、团队(投资就是投人。人是最关键的因素,如果这个创业团队非常优秀,一般应具备根据市场形势做一些具体方向的调整)
1) 能洞察用户需求,对市场极其敏感
2) 志存高远并脚踏实地
3) 最好是两三个优势互补的人一起创业
4)一定要有技术过硬、并能带队伍的技术带头人(互联网项目)
5)低成本情况下的快速扩张能力
6) 履历漂亮的人优先,比如担任过大公司高管或有创业经验等会加分
二、方向(在对的时候做对的事情)
7)做最肥的市场,选择自己能做的最大的市场。只有大市场才能造就大企业,小池子养不了大鱼。方向略有偏差,会浪费宝贵的创业资源。
选择正确的时间点。市场基本成熟了,企业也已有雏形,引入天使投资后,业务会得到爆炸性增长
9) 专注、专注再专注。最好只做一件事情,这样能把事情做到极致!
10)业务在小规模下被验证,有机会在某个垂直市场做到数一数二的位置。
大家可能觉得上面的条件非常苛刻,难道不具备这些条件就不能成功吗?当然不是,这些条件并非完全必须,但具备这些条件的创业团队成功的把握会更大。尤其在目前的市场环境下,随着全球金融风暴席卷全球,风险投资家对于项目的审查标准也会变得更为严格,满足的条件越多越好。
这两三年来,我就是运用这十大标准选择了一些项目,比如VANCL凡客诚品, UCWEB优视动景, Lakala拉卡啦, duowan多玩等。这些企业在我投资的时候,要么只有十来人,要么还只是一个idea,只用短短的一两年时间,每一家都完成了两轮以上的机构融资,目前都有200人以上的规模。今天来说,这些项目的表现都是非常不错的,这一切都和创业者的能力、创业方向密不可分。
最后,我很愿意分享寻求投资最重要的一个技巧:熟人介绍更易成功。创业者的诚信是投资的前提,无论花多长时间和创业者沟通,都很难一下子建立彼此足够的信任。天使投资人由于是个人行为,投资前没有能力做足够的尽职调查,投资后基本不参与管理,这样对诚信的要求就更高了。熟人的介绍,相当于是对创业者诚信的背书。盲目寄送项目书,得到投资的难度会高很多。


好心态做SEO

做优化不能急功近利,就好像慢火熬汤最营养那样。一心想着赚钱的人往往最后什么也没有得到,做优化也是一样的。不要把排名看得太重,那个只是表面的东西。不能因为排名而优化。我们考虑的是这个网站是不是对我们的访问者有用。网站的标题是不是正确的反应了网页的内容。访问者进来了是不是停留了很久?为什么我们的网页没有吸引住他们?搜索引擎的使命是让一个用户输入关键词时出现相关有用的信息,我们不能违背这个原则。
1.观察竞争对手的网站看看别人为什么会排名那么高?是内部的优化做的好?结构清晰合理?还是外链的链接做的很多?分析出的每一个竞争对手的优点和缺点在哪里。
2.考虑自己内部的网站的结构,网站的只有少部分的静态化。全部给静态化过一遍(这里懂点程序就是强静态化不求别人)。别人来看我的网站是否符合用户的习惯?别人查阅到你的网站内容是不是每一个地方不超过四次的点击就可以看到所有的信息。修改了一些用户体验的不好的界面。时常利用遍历自己的网站是否有死链接、看看对方的友情链接是否还存在。观察这个网页设置的关键词是否合理?
3.每天坚持查看百度、谷歌、雅虎的排名如何。盘问自己为什么会升了又为什么降了。每一次的排名都做成表格记录下来。还订阅了一些牛人写的文章查看他们对搜索引擎的变化的描述(当然这里讲的不是他们知道搜索引擎算法的改变,而是他们通过长期对搜索引擎优化的积累通过收入量通过排名来感觉搜索引擎算法是否改变了)。可能在某一个时期算法对友情链接看得不是那么重要了。对网站的描述不是看得那么重要了等等!这个也是做SEOER必须慢慢学习的慢慢积累才能体会到这样细微的变化。
4.安个网站的流量统计我用的是谷歌的。每天都要查看我们的访问统计。分析他们来看我们的网站是通过什么样的词来的。这个词是否是我们设置要优化的关键词?流量怎么样?为什么我们本来设置的词没有得到很好的流量?是用户习惯的不同还是我们设置的词就是偏词?又有多少的词可以容易的就转化成为你的客户?等等要带着一万个为什么去查看自己的网站。
5.网站每天坚持更新,坚持自己的原创,检测自己的网站新页被收入的情况怎么样。是不是很快。不同时段的上传新网页观察蜘蛛爬行的痕迹。别让蜘蛛空手而回太多次!他会对你讨厌的!
6.加强和别人友情链接(这个还得靠你自己的口才和网站的实力了)。开自己的博客写一些文章链接到自己的网站获得一些网站的外链。
7.保持良好的心态相信自己的网站会获得较好的名词!


seo的偏门技巧

这是一篇转的seo帖子,很实在,留下了
例子1:利用自己论坛做热门电影关键词
记得是05年底的时候,那时候我的个人网站还活着。有天我看流量统计突然发现从“哈利波特4BT下载”这个关键词来了特别多的流量。原来我有个会员很偶然的在论坛的BT版区,发了个哈利波特4下载的帖子。正好被百度收录了,而且这个关键词排在了百度第一
我当时思考,为何在一个论坛的帖子,一个搜索量极大的关键词,能够排在百度第一。经过实际分析后我发现,当时哈利波特4这部电影其实还没全球公映,网上根本就没有下载的片源,所以正规的BT下载网站都没提供下载的地址。因此当时网上没有几个网站有发布带着“哈里波特4BT下载”这个关键词的内容页面。我的论坛会员很偶然的提前发布了这个信息,因为同个关键词竞争网站很少,所以排到了百度第一的位置。虽然这部影片当时还没公映,但是很多哈利波特的狂热分子就已经疯狂的在网上尝试查找下载的片源。所以这个词当时的搜索量也特别大。我记得最高的一天就光这个词,就来了5000多IP。创造了我论坛直接从搜索引擎来源流量的最高记录。
有了这次经历后,我想自己能不能人为的制造这样的搜索引擎流量。我就开始关注哪些热门电影即将上映。记得当时做得最成功的是“无极BT下载”这个词。当时“电影无极”就快公映了,我提前在论坛的BT版区,发布了这个虚假的下载帖子,其实正文内容是无极电影的介绍,就没有BD种子可以下载。果然就被百度收录了而且排在百度第一页第一个位置,通过“无极BT下载”这个关键词给我论坛带来了不少的流量。
例子2:利用第3方网站做流量。
我这里的第3方网站,其实就是指的百度知道和百度空间。因为我当时做的是动漫社区,热爱动漫的朋友都知道,最近几年最火的就是“火影忍者”“海贼王”“死神”等3部动漫。这些热门动漫都是每周出一集。当时我在百度搜索“火影忍者 XX集”“海贼王XX集”发现排在第一页第一个位置的经常都是百度空间或者百度知道的帖子,然后指向到有这视频源的网站上。百度知道和百度空间的内容都是网民自己产生的,我想我能不能也去制造点百度空间百度知道的帖子,把这些流量引到自己的动漫社区上。
我当时真的是个SEO白痴,不知道如何下手。后来一个好朋友提醒了我,你看别人是怎么做的,就直接复制过来就行了。后来我就把别人在百度知道,百度空间发布的内容,完全拷贝了过来,唯一的区别是把链接地址换成了自己的。
当时利用百度知道,百度空间做SEO流量的并不只有我。我如何和别人竞争最有利的位置了。首先要清楚,这些热门动漫的最新集数是什么时候第一时间出来,比如海贼王是每周星期日晚上,火影忍者是每周4晚上,死神是每周3晚上。做这个的道理其实和前面的一个例子一样。只是这个的有效周期只有一周,而且是每周都会产生新的热门词,和热门电影不同。我一般是在最新集数出来前的2-3天在百度知道和百度空间发布该动漫最新集数下载的关键词内容
如何利用百度知道做SEO
先举例用百度知道做的SEO的例子,比如周日最新的海贼王366就会出来,如果利用百度知道做这个关键词,我会在周1的时候去知道提问“海贼王366下载地址哪里有”,周2的时候用马甲去回答问题”XX网站,周日的时候会第一时间推出,然后留下网址”,周4的时候把自己马甲的回答设为最佳答案。因为百度知道只会把已经设为最佳答案的优先推在百度网页搜索结果里。一般周6或-周1的时候。在百度搜索海贼王366或者海贼王366下载的时候,我的那个百度知道帖子就会出现在最好的位置(当时是做10次,能有8次达到这效果)。而且周日 -周1的期间,是海贼王迷们搜索最新集数频率最高的时候。每周可能都有几十上百W的动漫迷们,等着在网上寻找最新海贼王集数。这些人群里,就有那么一部分人习惯用百度搜索去寻找最新的集数。


怎么检查网站外链

一:最简单的三种方式
1,站长工具查询
2,专门的软件进行统计
3,通过百度或谷歌进行查询
以上方法是最常用的,不作过多描述,重点介绍二、三种。
二:YAHOO中文站长工具
YAHOO中文收归马云后,一直重视站长这个群体,推出的站长工具,虽然还不算完善,但简单方便的功能,还是得到了很多站长的认可,功能不断完善,大家可以直接访问YAHOO中文站,本文以朋友的DHC化妆品网为例,输入http://www.dhc-china.com (此处提醒站长注意:网址前需要加“http://”才能查询),得到了DHC化妆品网被雅虎收录的结果页,之后点击链向该地址的网页按钮,就得到了所有链向此站的搜索结果。我们看到,结果中有许多网站内链,但没有关系,YAHOO提供方便的过滤功能,也就是加选“过滤当前域名下的链接”这个选项,就可以得到比较准确的外链网址了。
三:用过搜狗查询外链
搜狗虽然不是站长和用户常用的搜索引擎,所占的搜索市场较小,但自从搜狗推出RANK之后,大有逐步扩大搜索市场的态势,其LINK查询命令逐步得到部份部长的认可,准确率可以说是最高的。同时还有类似于GOOGLE的搜狗RANK值,当然不可排除的还是含有少量的子域名内链。搜狗RANK值是打份从0-100,能充分反应出网站的外链数量和质量,我们举例说明使用方法:
打开搜狗主页,在搜索框中输入:link:www.dhc-china.com,之后回车即可得到查询网址的外链结果数。
以上查询的DHC化妆品网为例,GOOGLE PR值是5,但搜狗的RANK值是49,基本上比较得出搜狗的RANK值能更准确的查询网站的外链质量。
目前看来,站长工具和外链的查询统计软件基本上都是采用百度和谷歌的LINK或DOMAIN命令,从搜索得到的结果来看,并不能正确查询出外链数量,甚至误差较大。以上重点提供的2种查询外链的方式较为准确,一定程度上,至少80%以上能查询出正确的外链。


seo的技术难题

优化难点之一:内容管理系统(CMS)
内容管理系统(CMS)的出现,满足了人们自己创建、发布和更新网站而又不必懂技术的要求。对于那些需要频繁更新或拥有大量投稿群的网站公司来说,CMS系统无疑能够为他们带来切实的经济利益。CMS在房地产业和一些小型零售业中的应用尤为广泛。
现在CMS程序已达上百种之多。但遗憾的是,首先,在这上百种形形色色的CMS程序中,真正能够对搜索引擎具有友好性的却寥寥无几。而且由于CMS的类型非常之多,一旦搜索引擎优化人员遇到从前没有遇到过的新类型CMS,那么他们在对网站实施优化前,就必须先要突击学习这种CMS系统。其次,CMS系统往往还会为搜索引擎优化人员对于站内的单独页面进行标题及其它元标识的优化工作增加相当程度的难度。此外,许多CMS系统的文件命名设置的默认值较为笨拙,常常会用象“page1.htm”或“nextpage.php”这样毫无意义的名字。正是上述三个问题使得优化人员在对用CMS系统设计的网站进行优化时常会遭遇重重困难。而且很大程度上限制住了优化人员的手脚,影响了对网站的整体优化力度,达不到预期的排名效果。
优化难点之二:FLASH
FLASH如果运用得当,可以为网站增色不少。但若运用不当,不但会为网站带来用户体验方面的种种问题,而且还会很大程度地影响到网站的搜索引擎排名。许多网民都有打开一个网站,首先展现眼前的是一个纯图片介绍或FLASH介绍信息的经历。
FLASH主要是一个电影,同时它还具备构成一个网页的能力。我们可以在FLASH中内嵌入链接和文字来创建一个看上去很标准的网页。可是由于这些数据被存储在网站的托管服务器上,后缀为.SWF的图形文件中,对于搜索引擎的爬行索引程序来说,它们无法读取并记录这些数据。糟糕的是,有些网站甚至彻头彻尾都用的是FLASH。对于这样的网站,可以建立一个标准的HTML页面,然后把FLASH内嵌到该标准网页中。FLASH的开发商Macromedia公司正着手开发一个更新的对搜索引擎具备友好性的升级版本。不过在这个新版本发布之前,那些纯粹使用FLASH的站点想要在搜索引擎中获得前十名的可能性几乎很渺茫。
优化难点之三:Frames
网站设计者们往往利用Frame来实现工具栏导航功能,即将一个页面(浏览器窗口)分割成两到多个活动区域,并在其中一个区域内放置静态菜单页面。无论用户访问网站的什么位置,静态菜单页面部分是始终不变的。其好处是导航清晰,而且由于不必在每个内容页面中再包含菜单项目,减少了代码量。
困扰搜索引擎对Frames型站点的检索的主要问题frame-set被写入源代码的方式。当我们在浏览一个使用Frames设计的网页, 我们其实是在浏览至少三个文件。这些文件被编译到一起,使它们看起来是一个文件。第一个文件就是frame设置文件(frame-set)。然后该文件再调用剩下的其它页面,并让它们在页面上逐次出现,这样就能达到看起来好象一个页面的效果。
当搜索引擎的爬行程序在源代码之间穿梭时,它们也只能看到文件名,但看不到实际的文件或文件内容本身。对Frames的优化可以通过诸如《noframes》元标识优化之类的方法进行,但这些方法都比不上一个设计适当的普通HTML文件来的有效。
优化难点之四:图片型索引页/主页
图片型索引页/主页的优化处理也是相当棘手的。许多设计人员在兴致勃勃地为网站创建一个绚丽无比的“封面”,却忽略了搜索引擎所需要的文本信息。因而,这样的设计虽然可能会让网站看起来如其企业一般极具组织性和有效性,但是一个纯图片型的首页却往往会被搜索引擎的爬行程序所忽略掉,因为在这个页面上只有图片,而没有任何可供其读取和记录的文本内容。
图片型网页的设计者往往习惯于在图片上加链接,而不是提供文本链接让搜索引擎可以跟进检索网站中的其它页面,这样一来,由于搜索引擎的检索程序不跟进图片链接,那么图片中所包含的链接就很有可能被搜索引擎忽略。
优化难点之五:购物系统(Shopping Carts)
购物系统不仅实现了商务电子化,而且它满足了人们可以直接从网上购物的需要。但遗憾的是,大部分购物系统软件都对搜索引擎缺乏友好性。对于网上商店来说,我推荐大家使用Apple Pie Cart系统,这是一款具有客户获得特性的购物系统。其设计者为罗伯特。李,为W3C(World Wide Web Consortium互联网联合组织)的会员,也是一名资深网站开发人员。在设计该款购物系统时,罗伯特对搜索引擎的性能进行了全面的考虑。当然,市场中不乏同样对搜索引擎具有友好性的其它种类的购物系统,但这是我见过的对搜索引擎的爬行程序最开放的一款购物系统。


服务器处理性能估算

系统的建设,必须满足未来5年业务发展和管理的需求,所以下面对服务器性能指标的估算,将以满足未来5年的需要为基准。
1. 数据库服务器
1.1. TPCC值估算
约定:
系统同时在线用户数为100人(U1);
平均每个用户每分钟发出2次业务请求(N1);
系统发出的业务请求中,更新、查询、统计各占1/3;
平均每次更新业务产生3个事务(T1);
平均每次查询业务产生8个事务(T2);
平均每次统计业务产生13个事务(T3);
一天内忙时的处理量为平均值的5倍;
经验系数为1.6;(实际工程经验)
考虑服务器保留30%的冗余;
服务器需要的处理能力为:
TPC-C=U1*N1*(T1+T2+T3)/3*3*经验系数/冗余系数
则数据库服务器的处理性能估算为:
TPC-C= 100*2*(3+8+13)/3*5*1.6/0.7= 18,285 TPM
1.2. 内存估算
该服务器内存主要由操作系统占用内存、数据库系统占用内存、并发连接占用内存等几部分组成。
约定:
操作系统占用约400M内存空间;
数据库系统占用内存0.8G ;
每个并发连接占用5 M;
考虑服务器内存保留15%的冗余;
则服务器的内存估算为:
Mem =(400M + 0.8GB??+ 100*5M) /(1-15%)??= 2 GB
1.3. 存储容量估算
预算管理系统中存储着预算编制数据等资料信息以及日志等管理信息。
在已经考虑了数据冗余的前提下,约定:
每月有100个分局或部室编制预算;
每月每个分局或部室编制1次预算;
预算模板共含6000个预算指标;
每个预算指标含5条明细项目;
每条记录占用空间300B;
每月的预算数据存储容量需求:6000*5*100*500B=1.5G
每月的日志数据存储容量需求:0.1G
每月进行数据备份一次,数据存储容量需求:12*9G=108G
整年总共需用存储容量:12*1.5G+1.5G+12*0.1G+12*9G=20.7G+108G=128.7G
约定系统中预算编制数据等资料信息以及日志等管理信息在线保存5年(备份数据每年进行清除),则预算管理系统的存储容量估算为:
5*20.7G+108G =103.5G+108G=211.5G
1.4. 服务器安装软件
该服务器中将需要安装的软件如下:
操作系统为:Windows 2000 Server
数据库:Oracle
1.5. 建议配置
根据以上的性能指标建议数据库服务器标准配置如下:
应用名称 功能描述 数量 说明
数据库服务器 CPU: TPCC值应大于18,285 TPM
内存:2G及以上
硬盘:211.5GB以上(建议通过RAID5或镜像等方式进行数据备份)
以太网卡:100M及以上 1
1.2. 中间件应用服务器
1.2.1. TPCC值估算
约定:
系统同时在线用户数为100人(U1);
平均每个用户每分钟发出2次业务请求(N1);
系统发出的业务请求中,更新、查询、统计各占1/3;
平均每次更新业务产生3个事务(T1);
平均每次查询业务产生8个事务(T2);
平均每次统计业务产生13个事务(T3);
一天内忙时的处理量为平均值的5倍;
经验系数为1.6;(实际工程经验)
考虑服务器保留30%的冗余;
服务器需要的处理能力为:
TPC-C=U1*N1*(T1+T2+T3)/3*3*经验系数/冗余系数
则数据库服务器的处理性能估算为:
TPC-C= 100*2*(3+8+13)/3*5*1.6/0.7= 18,285 TPM
1.2.2. 内存估算
该服务器内存主要由操作系统占用内存、数据库系统占用内存、并发连接占用内存等几部分组成。
约定:
操作系统占用约400M内存空间;
中间件用户服务器占用内存0.8G ;
每个并发连接占用5 M;
考虑服务器内存保留15%的冗余;
则服务器的内存估算为:
Mem =(400M + 0.8GB??+ 100*5M) /(1-15%)??= 2 GB
1.2.3. 存储容量估算
主要系统中间件应用服务器和操作系统本身至少5G以上。
其中操作系统约占2G,应用服务器约占3G。
1.1.2.4. 服务器安装软件
该服务器中将需要安装的软件如下:
操作系统为:Windows 2000 Server
中间件应用服务器:系统中间件应用服务器
1.1.2.5. 建议配置
根据以上的性能指标建议服务器标准配置如下:
应用名称 功能描述 数量 说明
应用服务器 CPU: TPCC值应大于18,285 TPM
内存:2G及以上(建议3G以上)
硬盘:5GB以上
以太网卡: [...]


开源Web搜索引擎系统

1.Nutch
Nutch是Lucene的作者Doug Cutting发起的另一个开源项目,它是构建于Lucene基础上的完整的Web搜索引擎系统,虽然诞生时间不长,但却以其优良血统及简洁方便的使用方式而广收欢迎。我们可以使用Nutch搭建类似Google的完整的搜索引擎系统,进行局域网、互联网的搜索。
2.YaCy
YaCy是一款基于P2P(peer-to-peer)的分布式开源Web搜索引擎系统,采用Java语言进行编写,其核心是分布在数百台计算机上的被称为YaCy-peer的计算机程序,基于P2P网络构成了YaCy网络,整个网络是一个分散的架构,在其中所有的YaCy-peers都处于对等的地位,没有统一的中心服务器,每个YaCy-peer都能独立的进行互联网的爬行抓取、分析及创建索引库,通过P2P网络与其他YaCy-peers进行共享,并且每个YaCy-peer又都是一个独立的代理服务器,能够对本机用户使用过的网页进行索引,并且采取多机制来保护用户的隐私,同时用户也通过本机运行的Web服务器进行查询及返回查询结果。
YaCy搜索引擎主要包括五个部分,除普通搜索引擎所具有的爬行器、索引器、反排序的索引库外,它还包括了一个非常丰富的搜索与管理界面以及用于数据共享的P2P网络。


开源搜索引擎工具包

1.Lucene
Lucene是目前最为流行的开放源代码全文搜索引擎工具包,隶属于Apache基金会,由资深全文索引/检索专家Doug Cutting所发起,并以其妻子的中间名作为项目的名称。Lucene不是一个具有完整特征的搜索应用程序,而是一个专注于文本索引和搜索的工具包,能够为应用程序添加索引与搜索能力。基于Lucene在索引及搜索方面的优秀表现,虽然由Java编写的Lucene具有天生的跨平台性,但仍被改编为许多其他语言的版本:Perl、Python、C++、.Net等。
同其他开源项目一样,Lucene具有非常好的架构,能够方便地在其基础上进行研究与开发,添加新功能或者开发新系统。Lucene本身只支持文本文件及少量语种的索引,并且不具备爬虫功能,而这正是Lucene的魅力所在,通过Lucene提供的丰富接口,我们可以根据自身的需要在其上添加具体语言的分词器,针对具体文档的文本解析器等,而这些具体的功能实现都可以借助于一些已有的相关开源软件项目、甚至是商业软件来完成,这也保证了Lucene在索引及搜索方面的专注性。目前,通过在Lucene的基础上加入爬行器、文本解析器等也形成了一些新的开源项目,如LIUS、Nutch等。并且Lucene的索引数据结构已经成了一种事实上的标准,为许多搜索引擎所采用。
2.LIUS
LIUS即Lucene Index Update and Search的缩写,它是以Lucene为基础发展起来的一种文本索引框架,和Lucene一样,同样可以看作搜索引擎开发工具包。它在Lucene的基础上作了一些相应的研究及添加了一些新的功能。LIUS借助于许多开源软件,可以直接对各种不同格式/类型的文档进行文本解析与索引,这些文档格式包括MS Word、MS Excel、MS PowerPoing、RTF、PDF、XML、HTML、TXT、Open Office及JavaBeans等,对Java Beans的支持对于进行数据库索引非常有用,在用户进行对象关系映射(如:Hibernate、JDO、TopLink、Torque等)的数据库连接编程时会变得更加精确。LIUS还在Lucene的基础上增加了索引更新功能,使针对索引的维护功能进一步完善。并且支持混和索引,可以把同一目录下与某一条件相关的所有内容整合到一起,这种功能对于需要对多种不同格式的文档同时进行索引时非常有用。
3.Egothor
Egothor是一款开源的高性能全文搜索引擎,适用于基于全文搜索功能的搜索应用,它具有与Luccene类似的核心算法,这个项目已经存在了很多年,并且拥有一些积极的开发人员及用户团体。项目发起者Leo Galambos是捷克布拉格查理大学数学与物理学院的一名高级助理教授,他在博士研究生期间发起了此项目。
更多的时候,我们把Egothor看作一个用于全文搜索引擎的Java库,能够为具体的应用程序添加全文搜索功能。它提供了扩展的Boolean模块,使得它能被作为Boolean模块或者Vector模块使用,并且Egothor具有一些其他搜索引擎所不具有的特有功能:它采用新的动态算法以有效提高索引更新的速度,并且支持平行的查询方式,可有效提高查询效率。在Egothor的发行版中,加入了爬行器、文本解析器等许多增强易用性的应用程序,融入了Golomb、Elias-Gamma等多种高效的压缩方法,支持多种常用文档格式的文本解析,如HTML、PDF、PS、微软Office文档、XLS等,提供了GUI的索引界面及基于Applet或者Web的查询方式。另外,Egothor还能被方便地配置成独立的搜索引擎、元数据搜索器、点对点的HUB等多种且体的应用系统。
4.Xapian
Xapian是基于GPL发布的搜索引擎开发库,它采用C++语言编写,通过其提供绑定程序包可以使Perl、Python、PHP、Java、Tck、C#、Ruby等语言方便地使用它。
Xapian还是一个具有高适应性的工具集,使开发人员能够方便地为他们的应用程序添加高级索引及搜索功能。它支持信息检索的概率模型及丰富的布尔查询操作。Xapian的发布包通常由两部分组成:xapian-core及xapian-bindings,前者是核心主程序,后者是与其他语言进行绑定的程序包。
Xapian为程序开发者提供了丰富的API及文档进行程序的编制,而且还提供了许多编程实例及一个基于Xapian的应用程序Omega,Omega由索引器及基于CGI的前端搜索组成,能够为HTML、PHP、PDF、PostScript、OpenOffice/StarOffice、RTF等多种格式的文档编制索引,通过使用Perl DBI模块甚至能为MySQL、PostgreSQL、SQLite、Sybase、MS SQL、LDAP、ODBC等关系数据库编制索引,并能以CSV或XML格式从前端导出搜索结果,程序开发者可以在此基础上进行扩展。
5.Compass
Compass是在Lucene上实现的开源搜索引擎架构,相对比于Lucene而言,提供更加简洁的搜索引擎API。增加了索引事务处理的支持,使其能够更方便地与数据库等事务处理应用进行整合。它更新时无需删除原文档,更加简单更加高效。资源与搜索引擎之间采用映射机制,此种机制使得那些已经使用了Lucene或者不支持对象及XML的应用程序迁移到Compass上进行开发变得非常容易。
Compass还能与Hibernate、Spring等架构进行集成,因此如果想在Hibernate、Spring项目中加入搜索引擎功能,Compass是个极好的选择。


几个常见的Web服务器安全漏洞

◆物理路径泄露
物理路径泄露一般是由于Web服务器处理用户请求出错导致的,如通过提交一个超长的请求,或者是某个精心构造的特殊请求,或是请求一个Web服务器上不存在的文件。这些请求都有一个共同特点,那就是被请求的文件肯定属于CGI脚本,而不是静态HTML页面。
还有一种情况,就是Web服务器的某些显示环境变量的程序错误的输出了Web服务器的物理路径,这应该算是设计上的问题。
◆目录遍历
目录遍历对于Web服务器来说并不多见,通过对任意目录附加“../”,或者是在有特殊意义的目录附加“../”,或者是附加“../”的一些变形,如“..\”或“..//”甚至其编码,都可能导致目录遍历。前一种情况并不多见,但是后面的几种情况就常见得多,以前非常流行的IIS二次解码漏洞和Unicode解码漏洞都可以看作是变形后的编码。
◆执行任意命令
执行任意命令即执行任意操作系统命令,主要包括两种情况。一是通过遍历目录,如前面提到的二次解码和UNICODE解码漏洞,来执行系统命令。另外一种就是Web服务器把用户提交的请求作为SSI指令解析,因此导致执行任意命令。
◆缓冲区溢出
缓冲区溢出漏洞想必大家都很熟悉,无非是Web服务器没有对用户提交的超长请求没有进行合适的处理,这种请求可能包括超长URL,超长HTTP Header域,或者是其它超长的数据。这种漏洞可能导致执行任意命令或者是拒绝服务,这一般取决于构造的数据。
◆拒绝服务
拒绝服务产生的原因多种多样,主要包括超长URL,特殊目录,超长HTTP Header域,畸形HTTP Header域或者是DOS设备文件等。由于Web服务器在处理这些特殊请求时不知所措或者是处理方式不当,因此出错终止或挂起。
◆SQL注入
SQL注入的漏洞在编程过程造成的。后台数据库允许动态SQL语句的执行。前台应用程序没有对用户输入的数据或者页面提交的信息(如POST, GET)进行必要的安全检查。数据库自身的特性造成的,与web程序的编程语言的无关。几乎所有的关系数据库系统和相应的SQL语言都面临SQL注入的潜在威胁 。
◆条件竞争
这里的条件竞争主要针对一些管理服务器而言,这类服务器一般是以System或Root身份运行的。当它们需要使用一些临时文件,而在对这些文件进行写操作之前,却没有对文件的属性进行检查,一般可能导致重要系统文件被重写,甚至获得系统控制权。
◆CGI漏洞
通过CGI脚本存在的安全漏洞,比如暴露敏感信息、缺省提供的某些正常服务未关闭、利用某些服务漏洞执行命令、应用程序存在远程溢出、非通用CGI程序的编程漏洞。
Web服务器存在的主要漏洞更多的地方还是有着本质的不同。不过无论是什么漏洞,都体现着安全是一个整体的真理,考虑Web服务器的安全性,必须要考虑到与之相配合的操作系统。


网站如何盈利,分析盈利类别?

盈利模式一:在线广告
最主要最常见的网络在线盈利模式,国内做的较好的是新浪(www.sina.com.cn)、搜狐(www.sohu.com)、网易(www.163.com)等门户网站(包括行业门户)。大多个人网站的盈利模式也是采用这种方式,靠挂别人的广告生存。
新兴的在线短视频网站,通过影音载入前后的等待时间播放广告主的在线广告。典型例子:
国外的youtube(www.youtube.com)
国内的56(www.56.com)、土豆(www.toodou.com)、六间房(www.6rooms.com)等
盈利模式二:彩铃彩信下载、短信发送、电子杂志订阅等电信增值形式
最赚钱的网络盈利模式之一,几乎每个进入全球排名前10万位的商业性网站和个人网站都在通过sp来获取经济回报,目前由于sp受到中国移动等运营商的限制,盈利率有些下降,以此类引力模式为主的上市公司市值较以前有缩水。典型例子:
空中网(www.kong.net)
3G门户(www.3g.net.cn)
盈利模式三:通过网站销售产品
A.通过网站销售别人的产品(C2C和B2C模式)
典型例子:  
淘宝(www.taobao.com)、易趣(www.ebay.com.cn) C2C在线竞拍,从成功交易中抽取佣金。
卓越(www.joyo.com)、当当(www.dangdang.com )、鲜花网 B2C通常的B2C网上零售大概有两种操作方法,一种是您自己经销的产品,通过互联网销售;另一种则是建立一个网上零售的平台,让更多的商家通过此平台销售他们的产品。
豆瓣网(www.douban.com)营造社区,推荐销售抽取佣金。
B.通过网站销售自己的产品(含B2C模式)
大多数外贸网站和国内中小企业网站,多不胜举
盈利模式四:注册会员收费,提供与免费会员差异化的服务
典型例子:
阿里巴巴(www.cn.alibaba.com ) 中国B2B网站典范。
中国化工网(www.chemnet.com.cn) 中国化工行业门户
另外还有一些人才网站、电子图书、交友网站、在线电影等许多的关键信息也都是仅仅面向收费用户的……
盈利模式五:网络游戏运营,虚拟装备和道具买卖
典型例子:
网易游戏( www.163.com )
盛大游戏(www.poptang.com www.shanda.com.cn)
九城游戏(www.the9.com www.ninetowns.com)
及其游戏地方代理运营商。
盈利模式六:搜索竞排、产品招商、分类网址和信息整合,付费推荐和抽成盈利
典型例子:
百度(www.baidu.com)
中国商机在线 (www.28.com)
Hao123(www.hao123.com)
请客800(www.qingke800.com)
威克平台K68 (www.k68.cn)
盈利模式七:广告中介
广告联盟网站通过给为广告主和站长服务,差价销售广告,获得利润。
典型例子:
弈天广告联盟(www.unionsky.cn )
Iplus广告联盟(www.iplus.com.cn)
好耶广告联盟(www.allyes.com )
窄告网(www.narrowad.com)
盈利模式八:企业信息化服务
A .帮助企业建设维护推广网站
中企动力(www.ce.net.cn)
铭万(www.mainone.com )B2B+建站
书生(www.booksir.com ) 一站式服务,从代理销售网络实名起家。
B.代理销售大公司的网络产品
几乎每个网络公司都在做,不再举例。
C.网络基础服务提供
万网(www.net.cn)
新网(www.xinnet.com )
很多规模较小的公司也在做域名注册,服务器托管的生意,收入比较稳定。
D.网络营销策划和搜索引擎优化的专业顾问公司
通王科技 (www.tongwang.com )
新竞争力 (www.jingzhengli.cn)
盈利模式九:web2.0网站被巨头收购
web2.0类的网站一般都是用户制造内容,有了社区活跃度,自然会吸引VC的眼光,最终的归属应该是被Google、Yahoo、微软等巨头收购了。
盈利模式十:骗人的把戏
以上九点基本都是正规的网站赚钱门道,但这第十条就是非法的了。什么solo一族,在家办公,轻松点击就可以赚钱等等,靠吸收下线的方式骗钱也算是当前网赚的一种方式吧。当然,所谓能赚钱也只能是傻子骗傻子的钱而已了。