微博客:同质化的竞争下路在何方
这是亚克西的时代,也是草泥马的时代。
Web2.0时代,有人说是SNS社会化的时代,有人说是micro Blog微博客的时代,总而言之,是信息自由的时代。
市场自由化的结果,就是不可避免的大量同质化商品的扎堆出现。而信息自由化的结果,则是大量无差别的信息平台一个模仿着一个接替出现。
是的。我指的是微博客,micro Blog,以twitter为原型产生的一大批。
但是,这些功能几乎毫无二致的微博,有什么能力留住他们的用户呢?
在Web 2.0的时代,一款产品要能够胜出,必须在某个概念领域领先于这个时代。
基于这个想法,晓晓对目前的微博设计,有一个新的思路。
现有的微博是个不完善的信息平台
在说这个话题之前,让我们回想下19世纪,在当时的英国伦敦,海德公园里,有一个著名的角落,在今天被叫做“演讲者之角”。
当时每逢周日下午,便会有演讲者站在木箱上发表演讲,高谈阔论,慷慨陈词。后来那里甚至成了英国工人集会与游行运动的中心地。究其根源,信息自由当是主因。每个人都可以肆无忌惮发表自己的观点,几乎不受任何限制,并且总能找到听众甚至志趣相投的人。
这不与今天的微博客很相似么?
虽然,微博的用户按照使用目的,可以归为:
- 个人用户,主要在微博上交流。
- 企业用户,营销,收集反馈。
实际上,无论哪一个,最终都可以被归结于下面这幅图。

是的。本质上,都只是个体与个体之间的信息传递。
这看起来似乎毫无问题,但是如果再加上时间维度呢?

从图中可以看出,微博中的有效的信息都是在一个很短的时间单位内的,也就是时效性短。稍稍经过一段时间后,他们就会沉入无穷无尽的信息海中,再无法被使用。
再看前文,到今天,谁还能找到海德公园当年那些演说者的声音呢?
由此涉及到我要说的第二个话题,
怎样是一个成熟的信息平台
任何一个系统中,信息必然有进有出,使得整体保持一个流动的状态。如图:

或许你会说,顶层的用户不就是那些需要从中获取分析数据的企业么。晓晓不这么认为。在twitter推出至今,确实有人提出这样的设想——twitter中隐藏着巨大的信息,因此twitter完全可以以此为本,向第三方厂商出售有这些信息得出的分析数据。然而时至今日,这最终没能成为twitter的生财之道。
真正的需求应当是来自于普通用户。
如果你常上twitter,那么你一定对这样的句式不会感到陌生——“万能的推神,请告诉我……?”
是的,微博的重度用户,和在Google中搜索相比,往往更愿意在微博中询求问题的答案。
试着思考下,每天无数人在twitter上提出问题,这些问题的重复率会有多少?twitter的日访问数有超过几百万,即使仅有万分之一的话题(问题)是重复的,那么常年累积下来,也会是5位数以上的数据量。更何况实际数字远大于此。
让内容搜索代替在微博中提问的可能性
那么有没有可能,通过微博客的搜索能力,来满足上文这样的需求呢?
你是否有过这样的经验,当你在twitter中以“怎么翻墙”和“翻墙”为关键字来搜索,却得到下面的结果


或者当你用Google搜索site:twitter.com 翻墙方法 的时候,得到下面这样的结果

囧么?杯具么?无奈么?你仅仅搜索到了和你的问题完全相同的tweet。只有问题,没有答案。
是的。传统的关键字匹配搜索的方法根本无法满足微博客的搜索需求。
而根本原因在于,与传统网页“自问自答”型的内容模式相比,微博的信息结构是完全离散的。
微博客的信息结构
设想下面几个场景。
场景一:A发了一条tweet说,“荷包蛋怎么做?”而B看见了并回复了答案“应该先放油...”,而C也看见了A的tweet,而C并不清楚做法,于是进行了非官方转发(RT),紧接着D、E都看见了C的转发,于是都回复了答案“...”。
其信息流图为:
场景二:大体同上,区别于,C进行了twitter官方转发(Retweet)。
此时的信息流图则简化为:
场景三:A发了一条tweet说,“青椒炒肉,肉预先放生粉会很好吃。”,而B看见了,RT表示赞同,并评价“胡椒也别有风味”,C则回复A说,“学习了。”,D则回复问“你还没睡?”。
而这里的信息流图则是:
从这几幅图可以看出,在微博中,一条有效信息往往是由一条初始信息,接着数条内容相关的回复信息构成的树结构。
而且,真正的有效信息可能位于整个树的任何一个枝干或者叶子。
甚至,有时需要对消息内容的相关性进行判断才能确定树的叶子——如场景三中D的回复就不应该属于同一树结构中。
此外我们还能看到,相对与场景一,场景二的树结构长度得到了大大的缩减——仅仅为1单位,而场景一的树长度可能会很可观。造成这么大区别的原因就是转发的方式。twitter官方的retweet功能成功地把信息结构简化到了长度为1的树。这将给下一步的信息索引带来效率上明显的好处。
微博客的搜索技术
要对任何一种信息进行搜索。首先必须构造出一个适合该信息的数据结构,这点我们在上面已经做到了。
其次,我们需要判断如何把信息装入这个数据结构中。在这个问题上,我们要做的就是,如何判断每棵树的叶子——避免将情景三中D的tweet那样的无关信息放入进来。
当上面两个步骤完成了,最后再是,如何对该类信息进行索引和搜索。怎样避免出现之前例子中那样——虽然完全的关键词匹配,但完全没有查到所需答案的情况。
是的。答案是语义搜索。
语义搜索?!
近年来,在语义搜索领域走得最远的是IBM的UIMA(Unstructured Information Management Architecture,无结构的信息管理构架)。
这个技术简单的说,就是针对每一类要搜索的信息,都提前生成好一个话题关键字列表,等到搜索的时候,进行更为复杂可控的内容相近度判断。
这方面一个典型的模型是维基百科。由其内容性质和撰写方法决定了wikipedia是天然的绝佳语义模型。可惜对于其他项目而言,它也仅仅能在话题关键字列表的生成过程中起到一些作用。
另一个语义搜索的范例是在搜索引擎方面,Yebol就是一个很好的例子。可惜在页面优先级的算法方面,它显然要比Google差太多。
当然,单纯的语义搜索模型显然还无法对微博进行搜索,更多的模型特适性的修改是必须提前做的工作。
可视化搜索结果
显然,在微博客的搜索领域,如何将搜索结果有效的传达给用户,是一个必将遭遇的难题。
一种可能的方式是将答案经过筛选,以类似于Windows资源管理器边栏那样的树结构来显示结果。但是用户对此的接受程度尚需要进一步的测试。过于复杂和层次化的显示效果很可能引起抵触心理。
在更好的方式提出来之前,或许仍然保持微博客自身的一维方式将结果罗列出来,或许是最符合用户心里模型的选择。
晓晓对此方面的了解不深,还希望能够有专精的人士给出深入的分析。
最后 微博客路在何方
正如本文开头提到的,微博产品过度同质化的今天,挖掘用户需求,在新的功能层次上走在时代前面,是唯一可行的出路。
而晓晓认为,充分利用微博平台大量累积的“死数据”,来满足用户的“提问”类需求,达到百度百科等问答类站点无法实现的灵活度和准确度,最终实现语义网络,或许将是一条成功的路线。
当然,技术难度是很高的。

可可
嗯,语义搜索很牛,我觉的自动分类汇总生成话题聚合也是一个方向
lovee
微博客应该是micro blog而不是mini blog=w=
晓晓
改正啦。
tongxiaobai
你说的是一种类似百度知道式的微博客形式,这种方式微博客不以人为信息源,而应该以话题、兴趣或关键字为订阅源,在信息结构上要要有类似回复和判定最佳答案的功能...
晓晓
实际上现有的twitter的API中,每条tweet都有response_to_id的参数,所以回复结构是已经自然存在的。微博现在并不缺以话题为中心的信息内容,hashtag就是为之而产生的。只不过hashtag最终能做的十分有限,在搜索时也难以被利用。
tongxiaobai
如果做一个问答式的第三方twitter应用,不知道有没有人气,我觉得问的需求是有的,就是答的动力不足。如果用的人多了,我相信比twitter本身跟有价值
晓晓
你的想法已经歪了。问题驱动式的设计是不可能有答案的。以现有的已经存在的数据来提供附加服务来提升产品价值和用户黏度是可能的,但想将微博客强行改造成百度知道,那就弄巧成拙了。
dning1
这个可以在 socialme看到。
Showfom
晓晓你也会写这种文章 囧死我了啦
黑传说
别去理会搜索,会有更好思路。
夏影残雪
不错,确实需要重新思考一下微博的方向了~
托尔·银月
继续坚持嘀咕~~嗯~
朱芳文
看这样的文章,会很有启发。
晓晓很棒,继续努力!
F0ur
欢迎来体验一下人间
http://renjian.com
ppip
“总而言之,是信息自由的时代。”
大前提其实有问题,哈。
晓晓
呵呵,咱就不能YY下么……
xianghang
百度知道的团队不知道有多少的人回答问题,而且用户还有自己的积分,可以真正换钱的。
微博不可能做到这种运营方式
要解决信息的需求问题,一般答案都在“回复”中,就是新浪的评论,搜索起来还是比较清楚的。
第二,用户找到答案后,更多的操作是与回答他的人进行交互。这就可以帮助去对答案进行排序了。
第三,也可以附以打分的功能来过滤无效信息。
另外,网易的邮箱知道或许也可以给大家一些启发,用户提问后,直接返回给他相关的问题。使用久了,问题之间的关联性会越来越明显(搜问题A后点击问题B,A/B相关),可以提升返回结果相关性
hanmiao
晓晓既然出售SSH帐号和Dreamhost主机合租服务,为什么不在首页将自己的联系方式(电子邮件地址)写出来呢,还需要大家手动去点击下关于才能看到,太不方便了。如果是为了防止垃圾邮件,可以考虑使用#或“(at)”代替@等,希望能够改改首页的说明文字,谢谢!
晓晓
不好意思。这么设计是基于特殊的考虑哈。
hanmiao
忘了说了,晓晓的图片都是上传到Flickr上面的,想看一些图片还真是不容易,感觉比较慢。
晓晓
嘛,VPN用户表示没有压力的说……
hanmiao
呵呵,这样啊,的确,用了VPN就没有这个问题,不过Flickr图片加载速度真的是比较慢,希望速度能够加快点。给晓晓推荐个网站http://tu.6.cn,这里可以上传无数张图片,支持外链,而且不需要注册,国内的网站,访问速度也很快。
晓晓
啊啦,对.cn的站点没有信任可言。把自己几个G的照片都托管给一个不知道哪天就会关门的站点可不是一个好主意呃。