Life Journal

随笔,及其他

我是 Xiao Xiao,在日本的产品经理,偶尔也写代码,iOS/Mac/Web,偶尔也做设计,爱用 Sketch,偶尔写文字,存在这里。


微博客:同质化的竞争下路在何方

这是亚克西的时代,也是草泥马的时代。

Web2.0时代,有人说是SNS社会化的时代,有人说是micro Blog微博客的时代,总而言之,是信息自由的时代。

市场自由化的结果,就是不可避免的大量同质化商品的扎堆出现。而信息自由化的结果,则是大量无差别的信息平台一个模仿着一个接替出现。

是的。我指的是微博客,micro Blog,以twitter为原型产生的一大批。

但是,这些功能几乎毫无二致的微博,有什么能力留住他们的用户呢?

在Web 2.0的时代,一款产品要能够胜出,必须在某个概念领域领先于这个时代。

基于这个想法,晓晓对目前的微博设计,有一个新的思路。

现有的微博是个不完善的信息平台

在说这个话题之前,让我们回想下19世纪,在当时的英国伦敦,海德公园里,有一个著名的角落,在今天被叫做“演讲者之角”。

当时每逢周日下午,便会有演讲者站在木箱上发表演讲,高谈阔论,慷慨陈词。后来那里甚至成了英国工人集会与游行运动的中心地。究其根源,信息自由当是主因。每个人都可以肆无忌惮发表自己的观点,几乎不受任何限制,并且总能找到听众甚至志趣相投的人。

这不与今天的微博客很相似么?

虽然,微博的用户按照使用目的,可以归为:

  1. 个人用户,主要在微博上交流。
  2. 企业用户,营销,收集反馈。

实际上,无论哪一个,最终都可以被归结于下面这幅图。

是的。本质上,都只是个体与个体之间的信息传递。

这看起来似乎毫无问题,但是如果再加上时间维度呢?

从图中可以看出,微博中的有效的信息都是在一个很短的时间单位内的,也就是时效性短。稍稍经过一段时间后,他们就会沉入无穷无尽的信息海中,再无法被使用。

再看前文,到今天,谁还能找到海德公园当年那些演说者的声音呢?

由此涉及到我要说的第二个话题,

怎样是一个成熟的信息平台

任何一个系统中,信息必然有进有出,使得整体保持一个流动的状态。如图:

或许你会说,顶层的用户不就是那些需要从中获取分析数据的企业么。晓晓不这么认为。在twitter推出至今,确实有人提出这样的设想——twitter中隐藏着巨大的信息,因此twitter完全可以以此为本,向第三方厂商出售有这些信息得出的分析数据。然而时至今日,这最终没能成为twitter的生财之道。

真正的需求应当是来自于普通用户。

如果你常上twitter,那么你一定对这样的句式不会感到陌生——“万能的推神,请告诉我……?”

是的,微博的重度用户,和在Google中搜索相比,往往更愿意在微博中询求问题的答案。

试着思考下,每天无数人在twitter上提出问题,这些问题的重复率会有多少?twitter的日访问数有超过几百万,即使仅有万分之一的话题(问题)是重复的,那么常年累积下来,也会是5位数以上的数据量。更何况实际数字远大于此。

让内容搜索代替在微博中提问的可能性

那么有没有可能,通过微博客的搜索能力,来满足上文这样的需求呢?

你是否有过这样的经验,当你在twitter中以“怎么翻墙”和“翻墙”为关键字来搜索,却得到下面的结果
2010-04-04<em>182554.png 2010-04-04</em>182646.png

或者当你用Google搜索site:twitter.com 翻墙方法 的时候,得到下面这样的结果
2010-04-04_182958.png

囧么?杯具么?无奈么?你仅仅搜索到了和你的问题完全相同的tweet。只有问题,没有答案。

是的。传统的关键字匹配搜索的方法根本无法满足微博客的搜索需求。

而根本原因在于,与传统网页“自问自答”型的内容模式相比,微博的信息结构是完全离散的。

微博客的信息结构

设想下面几个场景。

场景一:A发了一条tweet说,“荷包蛋怎么做?”而B看见了并回复了答案“应该先放油…”,而C也看见了A的tweet,而C并不清楚做法,于是进行了非官方转发(RT),紧接着D、E都看见了C的转发,于是都回复了答案“…”。

其信息流图为:

场景二:大体同上,区别于,C进行了twitter官方转发(Retweet)。

此时的信息流图则简化为:

场景三:A发了一条tweet说,“青椒炒肉,肉预先放生粉会很好吃。”,而B看见了,RT表示赞同,并评价“胡椒也别有风味”,C则回复A说,“学习了。”,D则回复问“你还没睡?”。

而这里的信息流图则是:

从这几幅图可以看出,在微博中,一条有效信息往往是由一条初始信息,接着数条内容相关的回复信息构成的树结构。

而且,真正的有效信息可能位于整个树的任何一个枝干或者叶子。

甚至,有时需要对消息内容的相关性进行判断才能确定树的叶子——如场景三中D的回复就不应该属于同一树结构中。

此外我们还能看到,相对与场景一,场景二的树结构长度得到了大大的缩减——仅仅为1单位,而场景一的树长度可能会很可观。造成这么大区别的原因就是转发的方式。twitter官方的retweet功能成功地把信息结构简化到了长度为1的树。这将给下一步的信息索引带来效率上明显的好处。

微博客的搜索技术

要对任何一种信息进行搜索。首先必须构造出一个适合该信息的数据结构,这点我们在上面已经做到了。

其次,我们需要判断如何把信息装入这个数据结构中。在这个问题上,我们要做的就是,如何判断每棵树的叶子——避免将情景三中D的tweet那样的无关信息放入进来。

当上面两个步骤完成了,最后再是,如何对该类信息进行索引和搜索。怎样避免出现之前例子中那样——虽然完全的关键词匹配,但完全没有查到所需答案的情况。

是的。答案是语义搜索

语义搜索?!

近年来,在语义搜索领域走得最远的是IBM的UIMA(Unstructured Information Management Architecture,无结构的信息管理构架)。

这个技术简单的说,就是针对每一类要搜索的信息,都提前生成好一个话题关键字列表,等到搜索的时候,进行更为复杂可控的内容相近度判断。

这方面一个典型的模型是维基百科。由其内容性质和撰写方法决定了wikipedia是天然的绝佳语义模型。可惜对于其他项目而言,它也仅仅能在话题关键字列表的生成过程中起到一些作用。

另一个语义搜索的范例是在搜索引擎方面,Yebol就是一个很好的例子。可惜在页面优先级的算法方面,它显然要比Google差太多。

2010-04-04_221211.png

当然,单纯的语义搜索模型显然还无法对微博进行搜索,更多的模型特适性的修改是必须提前做的工作。

可视化搜索结果

显然,在微博客的搜索领域,如何将搜索结果有效的传达给用户,是一个必将遭遇的难题。

一种可能的方式是将答案经过筛选,以类似于Windows资源管理器边栏那样的树结构来显示结果。但是用户对此的接受程度尚需要进一步的测试。过于复杂和层次化的显示效果很可能引起抵触心理。

在更好的方式提出来之前,或许仍然保持微博客自身的一维方式将结果罗列出来,或许是最符合用户心里模型的选择。

晓晓对此方面的了解不深,还希望能够有专精的人士给出深入的分析。

最后 微博客路在何方

正如本文开头提到的,微博产品过度同质化的今天,挖掘用户需求,在新的功能层次上走在时代前面,是唯一可行的出路。

而晓晓认为,充分利用微博平台大量累积的“死数据”,来满足用户的“提问”类需求,达到百度百科等问答类站点无法实现的灵活度和准确度,最终实现语义网络,或许将是一条成功的路线。

当然,技术难度是很高的。