周海汉:Alexa 深入研究

Posted by abloz on May 16, 2007

作者:周海汉

日期:2007.5.16

Email:ablozhou@gmail.com

blog1:http://blog.csdn.net/ablo_zhou

blog2:http://ablozhou.spaces.live.com

本文是根据自己为公司做的一个研究的PPT的 基础上整理。这篇研究如果用于做企业培训,一堂课价值1000美元。这里免费公开,以减少后来 者的摸索。

Alexa作为世界网站排名的权威,是网站价值和网站广告价值评估的重要依据。做网站如果不了解Alexa,那很大一部分是在瞎做。尽管Alexa排 名并不是完全准确,受到各种质疑,但至今为止,它的地位还是不可动摇。它的网页数据库,超过Google,是世界第一大数据库。由它支撑的著名的wayback服务器,收集了世界大部分有 影响网站的历史版本。

http://www.alexa.com

Alexa历史:

n       1996年4月成立于美国

n       分类导航和特定网站统计

n       1997年9月,发布alexa toolbar 1.0

n       1998与Netscape集成,1百万下载

n       1999 和IE集成,成为亚马逊网站的全资子公司

n       2001年, wayback machine 收集网页100 T

n       2002年,和Google合作提升搜索功能, 收集 网页 200T

n       2004年,采集世界45亿个页面

n       2005年9月,创建web搜索平台

Alexa 数据

n       世界独立网站总数 1120万 个

n       网页数45亿页

n       世界最大网页数据库

Alexa 的功能

n       网站排名(Traffic Rank)

n       Reach统计

n       PV数统计

n       反向链接(link in)

n       相关网站

n       搜索(不支持中文)

n       注册收录网站

n       工具条记录访问

n

网站排名(Traffic Rank)

世界网站流量排名(2007-4-27)

n       Rank Change Web SiteInfo

n       1(none)yahoo.com

n       2(none)msn.com

n       3(none)google.com

n       4  ^1youtube.com

n       5  ^1myspace.com

n       6  ^1live.com

n       7  ! 3baidu.com

n       8(none)orkut.com

n       9(none)qq.com

排名价格:

n       排名只排到十万

n       购买Top 1万,价钱1000$

n       购买Top 2万5千排名,价钱2100$

n       购买Top 5万,价钱4000$

n       购买Top 10万排名的价格6500$

网站排名二次开发

n       Web service 方式

n       100 次URL请求价钱 $.25

n       http://aws.amazon.com/alexatopsites

流量排名统计原则

n       域名下的单独页面算在该网站流量

n       二级域名算在该网站流量

n       个人网站和blog 的 网站不算在网站流量

Reach 用户数统计

n       Sina.com.cn 全球Internet用户访问百分比

n       Yesterday 1 wk.Avg. 3 mos. Avg. 3 mos. Change

n       3.475% 3.525% 3.387%  down 30%

Page View统计:

反向链接:

n       Sites link in

n       Link数可以作为评判网站受欢迎程度的依据

n       链接网站有Rank值

n       Related Links

n       通过该列表可以查看受众还对哪些网站感兴趣

Alexa如何统计

n       每百万工具条用户访问比例

n       每百万PV中所占比例

n       每独立IP的pageView数

n       排名算法

n       Alexa爬虫做什么

每百万工具条访问比例(sina)

每百万PV中所占比例(sina)

每独立IP的pageView数(sina)

n       **Yesterday  1 wk. Avg.  3 mos. Avg. **10.1            9.9                   9.9

Alexa爬虫做什么

n       搜集网站和网页, 放到wayback machine库中

n       不统计Reach和PV

Reach     (user数)

黑色为百度,绿色为QQ,蓝 色为sina,军绿为163, 深红为sohu

Traffic Rank 流量:

黑色为百度,绿色为QQ,蓝 色为sina,军绿为163, 深红为sohu

Daily Pageviews

黑色为百度,绿色为QQ,蓝 色为sina,军绿为163, 深红为sohu

大门户网站用户行为分析

黑色为163,绿色为sohu,蓝色为sina,军绿为百度,深红为QQ

以周为单位,可以看出baidu,sina,qq等的受众的不同。2007年4月21日,22日是周末,百度,QQ访问 量明显上升。而sina,sohu则明显下降。163比较平稳。这有可能是因为百度的贴吧等受到年轻学生的欢迎,他们一般周末才能上网。QQ也是一样,学生和年轻人为主体的用户群只有周末才能集中上网。而sina,sohu则一般是上班族,在上班时 间上网看新闻。而周末一般都休息。163由于游戏,新闻等内容,所以应该受众群两者兼而有之。

Alexa 工具条

n       Alexa工具条是访问统计的依据

n       Alexa工具条访问的网站会被alexa自 动收录

n       Alexa工具条跟踪用户行为

n       Alexa工具条会被反病毒软件禁止

n       Alexa工具条没有中文版

Alexa 工具条讹传

n       Alexa工具条只能装IE?

IE,Netscape,firefox,mozilla都可以

n       Opera 不可以

n       Alexa工具条只可以安装于windows?

n       还支持Linux,Mac

Alexa 工具条被扫毒软件拦截

Alexa 工具条被扫毒软件拦截,所以很多时候都不能正常工作。下面是norton 反病毒的抓图。

工具条内容

n       搜索

n       网站信息

n       排名

n       链接网站

n       Email页面

n       查看页面历史

n       弹出窗口拦截

n       Amazon

Alexa 局限性

Alexa 统计的局限性:

n       采样方法的问题

n       统计采样数据的问题

n       新媒体形式不能统计

n       不同网站类型可比性差

Alexa 采样方法的问题

n       每百万装有工具条者访问比

n       装工具条的人具有某些相同特质

n       (文化水平,兴趣,职业,语言,浏览器,操作系统)

n       https安全网站不统计

n       流量小网站不准确,排名十万以后的网站不能真实反映流量

统计采样数据的问题

只以PV和Reach为基准,对于访问者所耗时间,采用RSS等client和视频等新技术网站不公平,不能准确反映一个网站的价值。

n       PV

n       Reach(IP,User)

n       (Time?)

n       (Clients?)

n       (new technology?)

新媒体形式不能统计

n       视频网站

n       P2P网站

n       电子杂志

n       网络游戏

n       相册,图片

n       IM

n       长跟贴的论坛

不同网站类型可比性差

这就像拿综合性大学和某些偏文或偏理的大学来一起排名,完全比较其所 拥有的资源,并不一定能得出很好的结果。按照教育部前些年的思路,为了建造“世界性的大学”,就要拼命合并。但合并的结果,并不让我们的学术水平得到一个 质的提高。综合门户肯定浏览量大,什么都有。但某些频道并不具有某些专业网站和地方网站一样的价值。

n       综合门户和垂直门户

n       门户和专业网站

相关网站

CIIS–中国互联网指数系统

中国站长网

CIIS

由方兴东搞的一个评价系统,据说和国家统计局合作的。

n       China Internet Index System,缩写CIIS

n       博客网方兴东

n       互联网实验室

n       国家统计局

n       2006年10月上线

n       从原CISI改编, 2004年

CIIS 的 数据

CIIS没有自己的数据采集系统,其排名主要采用Alexa的数据,所以不要奇怪和Alexa一模一样。但它对alexa的 数据进行了分类分行业整理,并排名,中国人看起来比较习惯。

n       http://ciis.chinalabs.com

n       收录15000多家中文网站

n       4个一级分类

n       43个二级分类

n       数据来源: alexa ,CNNIC等

n       综合排行

n       专业排行

n       文学、门户、汽车企业、电子商务、新闻资讯、IT资讯、财经 、健康

中国站长网

该网站整理了Alexa的 数据,中国人看起来比alexa原始数据还好一些。例如,它给出IP和PV绝对值的估算,就很方便中国人使用。而Alexa并不给出这一直接绝对数据。而是只给出百分比。Alexa的肯定更科学,而站长网 却更直观。它的翻译有些怪异,例如网站访问比例,就是alexa的reach数,而页面访问比例,就是alexa的PV数,感觉怪怪的。

n       整理alexa数据

n       http://alexa.chinaz.com

n       IP和PV绝对值估算

n       (约3亿总活跃IP和约200亿PV量)

n       网站访问比例:reach

n       页面访问比例:PV

n       人均页面浏览量