一场永不休止的战争

| | 评论 (0) | 引用通告 (0)

Yahoo的邮箱不限容量了。网易也不限容量了。互联网在为争取成为通信和下一代人民生活基础的路上又走了一步。在三年前,google、163、yahoo、sina都在升级自己的邮箱的空间。sohu在一边乐呵呵的保持着自己的风格。到头来,没有一个真正的赢家。为什么?因为还是没有人真正的从邮箱中取得比成本高的利益。但是为什么所有人都还在升级自己的邮箱空间呢?

从社会的角度来讲,这是一次互联网与单独个体的资源争夺战争。从历史的角度来看,这是一次信息化时代与电子化时代的升级战争。从各个服务商来讲,这是一次争夺用户基础信息的战争。为什么这么讲?

* 互联网承载着信息,但是现在它更多的是信息的传递者
* 而互联网天生注定不只是电信交换的承载者,它还要背负起信息社会的基础,也就是越来越多的信息。google和yahoo、百度现在只保存着公共信息,更多的个人信息现在还存储在每个用户的硬盘中
* 互联网一定会越来越普及,终究有一天会和手机一样的随处可及,哪么个人随处可及的信息就会比什么都重要了
* 人们已经在把自己的言行通过bbs、评论这样的方法存在了互联网上,更多的信息随着用户的有意无意也会被慢慢的吸入互联网

回头来看,电子邮件是互联网第一个人信息存储体。这个存储体第一次替代了传统邮局中的纸信存放在家的习惯,用户已经把信存在邮局(邮件服务商)里了。而web 2.0的产品们更是气势凶凶的走过来,它们正是要用渗透法将我们的个人信息吸入互联网。为了达到这样的目标,竞争者们不断的在吸引用户使用他们的产品,这就演变成为了一次空间升级的战争。可是为什么不提供更有意思的服务呢?为什么不提供更个性化的服务呢?为什么不提供更稳定的服务呢?好像他们除了空间,没有其它的武器了。

其实不然,要知道在最基础,这是一次科技的竞争,一次技术领先力的竞争,任何无法在技术上取得优势的选手终将会被淘汰出局...

我通常将web 2.0称为一次信息时代的自我革命。从根下来讲,这次科技革命要面对的是几个挑战:

* 用户信息的存储-低成本且可分布式、高可用的存储
* 用户硬盘的访问-快速访问的路径与高速的网络
* 好用的客户端软件-Web 2.0化的应用或是开放、良好而丰富的客户端接入

这么看起来一切的一切都是资源和成本的竞争,一时的市场活动拉来的用户必将为过度的科技水份而逃亡。看看这个时代正在鼓吹的:

* 存储:EMC、Netapp、IBM还在银行等企业客户身上牟取暴利。在高I/O的情况下,1TB的存储竟然高达近十万元。现在这些号称数亿用户的服务商哪个不是百T极别的存储,谁败得起?
* 网络:严重的互联互通问题,哪个机房能提供用户的等速访问。而且机房的带宽费用高达十万元每月,谁买的起?
* 接口:互相封IP的行为、堂而皇之的搬家和手工搬家,已经是公开的抢用户,如何能真正的保证接口的公平和可用性呢?

中国的Web 2.0好像死了一样,用户不再能主宰自己的命运,国内的服务商在成本上、运营上都没有办法为用户承诺他们的服务能力。却实大家有着一系列的不能承受之重。但是要能面对现实,去做一些应该完成的使命。要记得我们在进行一次革命,这是一次战斗。

存储
======

这是一个核心,互联网所需要的存储与现有的企业存储完全不同。原因在于互联网极差的机房环境、用户完全不同的使用模式以及对于存储在可用性达成的状况下极度苛求的成本因素。所有无法面对这样的成本问题的竞争者都将会出局成为一个旁观者。我们可以看看现在的方式。

单打独斗式
------

用服务器或是盘阵加上一大把硬盘,这足免便宜了罢。在用户登录时,确认用户所在的存储点,转向对应的存储点对用户提供服务,这样的方法很早就出现了,hotmail、163、sina都在使用这样的模式。这个模式不但解决了存储的成本问题,更重要的是它解决了存储的分布问题。可以很简单的将用户分布到很多的机房去。这样的方法有很多的好处:

* 程序开发简单,不用做出太多的改动
* 系统管理简单,不用将一群应用粘在一起部署
* 分布简单,保证sso的可用性,可以做更广泛的部署
* 迁移简单,如果要做机房的迁移,搬动会更简单

但是也有不少的问题:

* 对于数据的可用性无法保证,要知道用户的数据只有一份,只以服务器和存储本身的可能性做为数据可用性的基础保证
* 服务器的cpu和存储的空间需要不断的调整,总会有一个不容易充分利利用
* 存储的管理基于很多的单点,在设备出现问题时,无法快速进行数据恢复

系统整合式
------

对于一些有技术能力的公司,开始了自己的分布式文件系统之路,他们希望通过一个大的集群文件系统来解决这样的问题。这样的方法最近也有很多,Google的GoogleFS、Sun的NFSp等都在尝试改变存储的格局。在这个模式中,它解决了在低成本下的可用性问题,同时在访问的统一视图、高速分布式读写上也有很不错的进展:

* 系统有很强的可扩展性,在集群中架存储节点就可以进行扩容
* 系统拥有统一的数据视图,访问可以有统计的接入
* 存储的管理更具全局性,数据的冗余在线可以调整
* 可以容纳更为庞大的数据量

当然大家也要面对一不同的问题:

* 这样的服务通常不能跨IDC,它需要高带的互联线路
* 由于它是一个庞大的数据存储,权限、接口通常需要客户端程序的支持(当然也有支持一个本地的mount point的)
* 由于它是一个相对复杂的数据系统,所以很容易产生藏数据

网络
==========

这是一个必需面对的挑战。因为信息化时代的基础在于网络,用户是通过这个载体使用服务和数据的。互联网的网络经历了一系列的变迁,这里尽可以数出服务者们使用技术来面对互联网如此让人难以面对的环境。一切的原因都基于互联网设计的一个出发:数据的传输是不可靠的。

集中放射式
---------

却实有不少公司有钱,并决心用自己的线路解决互联网的问题。因为他们坚信,他们这样做是一时的,互联网必然会越来越好,另一方面,他们也坚信自己的收益完全能面对一个高昂的线路价格。他们在为电信基础运营商完成互联网一些关键路径的搭建。我们可以看到有拉越洋光缆的、起BGP的,它们因为不满意电信运营商的服务,而为了自己内容服务的价值用成本完成了ISP的工作。这样好处多多:

* 系统简单,写程序中面对分步式计算已经相对成熟了,但是分布式机房,特别是链接不稳定的情况需要更为复杂的开发
* 更容易对系统进行管理,更为集中的系统当然比分散的系统好管理的多
* 在接入的线路上可以更容易的做出一些策略来改善用户访问的速度

但是难念的经照样有:

* 成本很高
* 线路本身的可用性很考验服务
* 由于做了不少“替代”运营商的事,这样的服务者很难让运营商喜欢

星型放射
----------

这是更多人的选择,在低成本的基础上,这样的服务能快速部署并让用户提升体验。比较常见的有CDN和SDN,CDN被常用于静态服务的网络处理,而SDN通常用于动态或存储型的应用网络处理。对于大多数使用这种方式的服务商来讲:

* 使用一个小的GSLB系统和一些反向proxy和cache系统,可以快速的完成分布的部署,让应用贴近用户
* 对于用户反馈的访问速度问题,很容易在多个分布点间进行调整
* CDN的部署通常成本很低
* 大多数应用不用重写

不过很多人也遇到了不少问题:

* 现在的CDN对于静态内容处理很好,动态内容处理不尽人意
* 如果想要用好动态内容的CDN,哪么需要更改代码本峰
* 对于CDN和SDN的单点出现故障所需要的排查和恢复时间较久
* 如果到节点的带宽过差,也会影响数据的更新

接口
==========

接口的问题是比较好解决的,这是一个大环境的问题。我不在这里多阐述了。我想一些小的公司和局部的利益必将在互联网的大浪中被扑灭,并销声匿迹的。

总结
==========

下一代互联网或是信息化浪潮的下一个技术核心点将是存储和网络以及开放的接口。更重要的是互联网将吸入我们越来越多的信息,公共的、个人的。哪么一个可靠的数据承载体和像本地硬盘样的存取速度将是决战的关键,这是一场永远不会休止的技术战争,挑战一个时代的战争。

引用通告 (0)

下面所列出的是引用这篇文章: 一场永不休止的战争 的Blog链接.

这篇文章的引用通告URL: http://mt.opensource.org.cn/cgi-bin/mt/mt-tb.cgi/15

发表评论

关于这篇文章

本页包含由 HD 发表于 October 5, 2007 10:45 AM 的单篇文章.

Django开发-安装django 是本Blog内的上一篇文章.

在安装python egg文件时缺少zlib 是本Blog内的下一篇文章.

您可以在 主页 上查找最近发表的内容,也可以查看列出在 存档页 上的所有内容.

Powered by Movable Type 4.2-en