对互联网统计中幂律分布的分析

2012-09-06 11:37:42 eNet&Ciweek/enews

推荐语

在中关村3W咖啡与王煜全、KESO等聊《爆发》,其中一个主题谈的就是幂律。我总的感觉,在巴拉巴西建立的scale尺度(degree-rank function)之外,还需要一个以Scope为尺度的计量标准,在因大而美之外,把握因小而美的世界。这样的幂律分布,才会让世界更美好。

在中关村3W咖啡与王煜全、KESO等聊《爆发》,其中一个主题谈的就是幂律。我总的感觉,在巴拉巴西建立的scale尺度(degree-rank function)之外,还需要一个以Scope为尺度的计量标准,在因大而美之外,把握因小而美的世界。这样的幂律分布,才会让世界更美好。

幂律分布(power law distribution)是一种常见的统计现象。具有幂律分布的数据,表现为一条斜率为幂指数的负数的线。在这里,幂的含义是指乘方,例如x的n次方,其中n就为幂的指数。具体到幂律分布,出现连接数为k的概率 p(k),反比于k的n次方。其中,n称为幂数。

对互联网来说,幂律分布具有特殊的意义。因为互联网中一些核心的现象,都与它有关。幂律分布不仅在技术现象中体现出来,而且在经济现象中体现出来。因此理解幂律分布,对于深入把握互联网特征,具有技术与经济、理论和实践双重意义。

幂律分布在互联网技术和经济现象上的表现 1、幂律分布揭示了互联网典型的技术结构特征。

无尺度网络(scale-free networks)理论首先对此进行了深入研究。无尺度网络理论是复杂网络权威巴拉巴西对互联网研究做出的一个重要贡献。幂律分布是无尺度网络最核心的现象。幂律分布告诉人们,网络兼具“大世界”与“小世界”两种属性。后来的六度空间理论,就是在小世界网络理论基础上发展起来的。这和人们在SNS实践中的发现十分吻合。象《六度分隔》作者瓦茨就说,“不是由人群中的个人直接相互选择,面是他们简单地选择加入数个群组”。现在,这种小世界网络思想,已成为SNS、微信等算法的重要基础。

在发现幂律分布之前,人们对互联网有一种典型的误解,认为网络是扁平化的,把扁平化与无结构等同起来。随着实践和理论的发展,人们认识到这是一种错误的看法,网络相当于是介于扁平化(如市场组织)与结构化(如分层组织)之间的一种结构,兼具二者特征,但又不同于二者。

这种不以金字塔方式进行组织的结构,到底是以什么结构来运作的呢?与工业组织结构存在于管理幅度与管理层级的关系中不同,互联网的结构存在于联结与节点的关系之中,其中映射着图论中顶点与边的关系的隐含范式。幂律分布归纳的正是顶点与边的关系。

无尺度网络的典型特征是,在网络中的大部分节点只和很少节点连接,而有极少的节点与非常多的节点连接。在统计上,这种技术现象特征就表现为幂律分布。

幂律分布在互联网结构认识上的意义在于,人们终于找到了机械组织与生态组织的区别所在。互联网是有结构的,只不过这种结构不是工业组织那种机械结构,而是生态结构。生态结构具有自组织、自协调的性质。节点与节点虽然只是随机链接,表面上是无组织的,但放在大世界尺度看,却呈现出幂律分布特征。有人提出,“凡有生命的地方,有进化、有竞争的地方都会出现不同程度的无标度现象”。抓住了背后的规律,人类对可进化的结构才开始入门。人们在哲学上常说的涌现和生成,终于落到了地面上,从空想变为现实。

2、幂律分布揭示了互联网典型的经济结构特征。

令人称奇的是,幂律分布在互联网经济现象中同样呈现出来。著名的长尾理论,就建立在幂律分布的统计发现的基础之上。长尾曲线就是幂律分布的另一种说法。

此前,帕累托在19世纪已经发现,美国财富的分布服从幂律分布,这被称为帕累托分布。随后的数据表明,欧洲各国的财富分布同样服从幂律分布。而且诺贝尔奖获得者西蒙提出的齐普夫(Zipf)法则已相当接近巴拉巴西的发现。钱德勒则从规模(SCALE)与范围(SCOPE)的对比中,首先从商业上捕捉到幂律的实质性的经济含义。

在整个工业化时代,幂律分布与信息革命深层次的联系,并没有被发现。到了互联网时代,情况终于产生转机,以太网的发明人梅特卡夫开始产生了幂律的感觉。他提出网络价值等于节点平方的法则(Metcalfe’s Law)。第一次用乘方来表示网络的经济性。幂的本质就是乘方,这里的平方就是幂的指数,而指数是直线的斜率。安德森《长尾理论》则直接发现了幂律分布的商业模式含义。

长尾理论揭示的幂律分布是,少数大热门产品构成短头,而大量小批量产品构成长尾,互联网将推动经济重心从前者转向后者。安德森实际上把幂律分布解释为托夫勒所说的从单一品种大规模生产转向小批量多品种的生产方式转变。这比巴拉巴西的发现要深刻了许多。

幂律分布的技术经济本质及观测尺度 1、幂律分布还可以从更深层次理解,首先要看它把握的对象到底是什么。

无尺度这个词比较特别。它的原文是scale free。Scale固然有度和尺度的意思,但应该译为度的是degrees,比如六度空间中的六度(Six Degrees)。我个人认为Scale还是应译为它的本义“规模”。scale free实际是“规模无限”的意思。

在幂律分布中,立轴应该是scale,即节点的连接数,表示连接规模。横轴应该是节点数。所谓幂律分布在这里是指有少数“爆发”性的节点,获得很大规模的连接;而大多数节点,只有很小规模的连接。所谓scale free,指少数热门节点规模大得超过了——相对于正态分布和泊松分布而言的——限制。

有人不是这么理解的,而认为是指幂律分布不断延伸,没有尽头,所以叫无尺度。“不断延伸,没有尽头”,在安德森对幂律分布的解释中,是对曲线的长尾部分的描述。与这里节点对应的,是品种数,是异质性程度的刻度而非规模刻度,换成钱德勒的语言,应是对SCOPE(范围)而非SCALE(规模)的计量。所以无尺度如果要指向横轴而非竖轴,应该叫Scope Free,而不应叫scale free。

2、这就涉及对幂律分布更深层次理解的问题,即尺度本身的问题。

无尺度网络(实际是规模无限网络)虽然测出了幂律分布,也发现了小世界网络向大世界网络自然进化的模式,其中对路由在互联网中的特殊作用(短连接)有深刻认识,并对P2P网络发展有直接指导作用,但巴拉巴西同安德森不同,他思维还比较传统,看重的主要还是幂律分布中的短头,而不是长尾。因此观察节点的尺度,还主要是scale ,而非Scope。事实上,幂律分布本身是客观的,它可以显示出对它的主观解释之外的内容。巴拉巴西所描述的幂律分布本身已显示,其长尾部分面积(相当于节点数乘以规模数)的总和,并不亚于短头部分面积的总和,这个面积实际上可视为利润的积分,表现的是幂律分布的流量价值。

以技术为例,WEB的分布式技术特点一旦发挥,将来可能导致P2P、WEB APP等小微网络的兴起,它们未必非依靠爆发形成的权力管控中心而活。再以大数据为例,巴拉巴西认为可以通过大数据,把握用户93%的行为,特别是爆发性的行为。这看起来把用户的短头需求把握住了,但是如果通过技术和机器就可以自动做到这一切,在十年以后大数据成熟阶段,会造成93%的部分服务的价格竞争,导致利润下降;而剩下的7%——可以归于用户自由意志支配的部分——会具有极高的附加值和升值空间。我把这归结为宿命论与自由意志之间的博弈。

这让我们把注意力又投回到安德森方法的优点上。安德森利用幂律分布关注的焦点和得出的结论,与巴拉巴西几乎是反的。如果换算成巴拉巴西的语言,安德森长尾理论相当于认为,所谓7%,只是scale轴上的刻度,是规模经济的尺度;但如果把这个7%对应的Scope轴上的节点数计量进来,这里还有另外一个93%(只是比喻)沿横轴展开的空间,是scale非常不Free,但Scope非常Free的空间。这一方向,随着时间的进展,将具有越来越重大的意义。

您对本文或本站有任何意见,请在下方提交,谢谢!

投稿信箱:tougao@ciweek.com