我在豆瓣九点上把自己的一篇文章推荐了下,下面出现了”推荐这篇文章的人还推荐了。。。”这么个列表,咋一看没什么问题,但仔细一想,有问题:这篇文章是我自己的,且只有我一个人推荐过,也就是说下面出现的文章是我推荐过的,但我没有,怎么可以说”推荐这篇文章的人还推荐了。。。”

豆瓣忽悠人的推荐

豆瓣九点这里是基于我之前浏览过的一些博客而推荐的,也算是和我这个人关联起来了,问题出在文案提示上,应该是”推荐这篇文章的人还关注。。。”,那么,什么样的推荐系统算是好的推荐系统?这个评判标准有没有一个量化的指标呢?不过,要是真有一个很精确的量化标准,用户也不一定认可,毕竟用户都是从自己的主观意思去感觉网站推荐给他的内容是好还是坏的,也许同样的内容,用户心情好的时候,会觉得推荐的内容很对口,而在心情差的时候就很难说了,我觉得用户感知一个推荐系统的应该可以分成以下一些层次:

1 基于具体内容的推荐,至少我看了一条迈克杰克逊的消息,推荐的内容不能是朝鲜核武器;
2 基于社会化的推荐,至少不能像豆瓣九点这样,让我一看就知道是忽悠人的,最起码要推荐一些和我有共同兴趣爱好者当中的相关内容;
3 个性化的推荐,至少要弄清楚我的过去的喜好,让我有一种吃惊的意外发现(我上次听说有人在淘宝上看了下泳镜防雾剂,结果淘宝推荐了比基尼和连体内衣什么的,这种意外发现也让人大吃一惊)

当然,推荐系统不可能百分比完美,我觉得豆瓣已经做的非常好了,比如我买的很多书,都不是我原先寻找的那本,都是通过豆瓣发现的书。之前我的翻译的一篇文章,推荐系统:电子商务网站的”金牌销售员”,说明了推荐系统对于一个网站特别是电子商务网站的重要性,而一个好的推荐系统会面临很多难题:

  • 第一, 数据缺少问题,特别是一个新的网站,在只了解用户一点点数据(用户行为 兴趣爱好 历史购买),推荐系统很难做好,最近上线的hunch,就通过先问用户一些问题来临时的收集一些数据,从而达到一个准确决策的效果。
  • 第二, 数据是不断变化的,也许用户在过去的喜好,今天早已没有这个喜好了,或者是上次为别人买了某个东西,或者我昨天没了个手机,如果下次你还推荐给我一些手机,我也许很反感,我不可能天天要买手机啊,这种基于过去的用户数据推荐,也许是不合适的。
  • 第三, 用户是反复无常的,推荐的内容好坏更多取决于用户当时的复杂的情绪,即使推荐的内容很精确,从算法的角度说很完美,但是用户当时就是不喜欢,那用户就认为没有推荐的东西是垃圾。

总之,一个好的推荐系统不是一日建成的,更不是靠一个很高明的算法就可以解决的,更重要的要有一个开放的特性,不断的和用户”交谈”,让用户参与到这个”推荐系统”的建设中去,慢慢地,相处久了,默契度自然就高了。

————————————————
您可能对下面的文章感兴趣:
推荐系统:电子商务网站的“金牌销售员”
【一心一译】协同过滤(Collaborative Filtering):社会化网络的生命线

Popularity: 1% [?]

最近上线的bing,微软称其为”决策引擎”,我看了一眼,没有多大的兴趣,也许一个搜索框这中老面孔见太多了,而昨天新上线的hunch,我今天体验了一把,这个主要是因为很早之前就在读写网上看过介绍,hunch是flickr的联合创始人的一个新项目,hunch是一个”社会化的决策引擎”,通过社会化的力量帮助人们更好的作出一些决策。下面我就来体验一下:

设计方面
给我的第一印象是很朴素淡雅,咋一看还觉得是素版flickr,网站导航和flickr是一个模子出来的,还有其他的一些页面(如TOUR),几乎是照着flickr来的,创始人是同一个,多少都有一点flickr的痕迹。

流程体验
对于这种社会化的推荐系统,在最初没有多少用户信息的情况下,只能通过事先告诉网站一些信息,在一些音乐推荐网站经常用到这种,会让用户回答一些问题,这样网站就多少收集到用户的一些信息。Hunch也是这样;

1. 用户信息收集
第一步,hunch会问你一些问题,大概是20个的样子,而每个问题都可以跳过,回答问题也只是选择其中一下,操作起来非常简单,而其中的问题也设计的非常有趣,比如你喜欢碰碰车吗?你相信外星人绑架地球人的传闻吗?而没回答一个问题,他都会给你一个统计结果,显示有多少人和你选择了相同的答案。

当你完成这些回答之后,hunch会让你注册,因为只有注册用户才能越用越灵光,给你推荐的东西才越来越精准,就像豆瓣一样,用的多了,他也就知道你喜欢什么样的书了。

2. 给你决策参考
当然,你也可以直接选一个你喜欢的话题,我选了一个”do i need a smart phone?(我需要一部智能手机吗?)”,这个时候,hunch不会立刻给你一个答案,hunch还是要你回答一些问题,而这些问题都是针对这个话题来的,就像问你的朋友,我是不是要买一部智能手机?你的朋友不会立马告诉你买还是不买,他一定会先问你一些问题,比如,你是不是经常会用查看你的电子邮件?你是不是要用来来上网浏览网页?而hunch也是一样的,hunch也有这些问题等这你回答,一般有10个左右的问题会询问你,最后会给你答案,当然,中间可以跳过其中的一些问题,或者也可以直接让hunch给你一个答案。

这些问题回答好之后,hunch会给你一个基于你回答的问题来给你一个答案,而对于这样它给你的结果,你可以选择同意还是不同意,这其实也是在收集用户的信息,而针对这个答案,用户可以在下面写下赞成或者反对的理由,而对于理由,其他用户有可以评价,他的理由是否是有帮助,hunch无处不在收集用户的信息。

3. 对决策参考的评价和修正
Hunch不不仅给你一个答案,还会给你为什么要给你这样的答案,给你充足的数据说明,他会将你要先回答的题目全部列出来,当然,因为给的结果不是唯一的,hunch会按照用户对于结果的认可度给你排一个顺序,告诉这个答案在全部用户中是受欢迎程度排在第几,如果你是注册用户,hunch还会根据和你类似的人(之前回答问题就是收集有多少人和你相似)对这个答案是怎么看待的。

hunch的这些结果不是一成不变的,用户可以通过修正这些需要回答的问题,使得问题的针对性更强,为了防止乱修改,hunch规定要有创建一个话题和完整的参加三个话题,才能使用使用这个功能。

关于盈利模式
因为hunch上面得门类很齐全,而人们在衣食住行方面做决定都和消费多少沾一点边,目前我看到有少数的答案会指向Amazon购物,这就像豆瓣对于书本的比价,给这些商城带去多少用户,从这些商家这里分成。

而创始人在其博客上也说到这一点,hunch目前不考虑太多的盈利方式,现在的唯一要做的事情是把产品做好,绝对不会推销给用户不喜欢的东西。

总结
1
.社会化网站要设计简单,每步流程操作都要用一种交谈的语气。hunch的一个关键环节是收集用户信息,而这就要hunch必须要像一个人那样问用户一些问题,如果这些这设计的很生硬(流程,文案),用户就会很反感,不愿回答问题,hunch这方面做的比较好。

2.任何时候都不要强制用户做什么。Hunch在为用户提供决策参考前都会先问用户一些问题,当然,这些问题并不是要强制完成的,可以跳过,或者一个都不回答,直接让hunch给出答案,虽然这样做,也许用户得到的参考会不够精确,但是在收集信息和用户感受面前,hunch选择了后者,hunch知道罗马不是一日建成的。

3.把用户参与的成本最低化。hunch这种网站最主要的尽可能多的收集到用户的信息,用户在hunch上的一举一动都hunch来说都是很宝贵的,即使是满意,不满意这样一个鼠标都能做的事情,hunch把这些提示做的很明显,用户参与起来也很方便。

4.巧用激励机制鼓励用户参与贡献。Hunch有一套很完整的积分等级系统,达到一定等级就有对应的勋章。

5. 巧用社会化媒体。Hunch本身是一个社会化网站,而hunch在twitter上和facebook上都有自己的根据地。

6. 最后一点是twitter的follow可能是以后每个网站的必备的一个基本功能,hunch上貌似只有follow的功能,没有成为好友这个功能。

——————
您可能对下面的文章感兴趣:
推荐系统:电子商务网站的“金牌销售员”
【一心一译】协同过滤(Collaborative Filtering):社会化网络的生命线

Popularity: 1% [?]

译文 by puting  | 原文 by Bruce D’Ambrosio

一个网站(无论是网址,域名,品牌等) 是网站所有者 、访客、和更广泛的网络社团为一个共同的目的而聚集在一起的地方。起先,网站都是一个采取封建集权统治的“场所” :网站所有者拥有全部权力;他们依靠榨取农奴(访客)来获取价值,不允许农奴(访客)参与到网站管理,内容建设和内容展示中去。现在这一模式已基本崩溃。

亚马逊早期就发现了由社区定义的内容的价值(这实际上仍然是其真正的,——基本上未得到承认—的贡献,而不是“推荐系统”)。A / B测试表现和优化服务使得访客和社区参与到内容表现形式中来,尽管这作用是间接地。iGoogle 、Facebook等进一步允许用户来定义个人和公众在各个方面的内容和表现形式。

更重要的是,现在只有少数网站单从内部获得网站资源建造起来。托管数据,推荐系统,新闻,店面位置,股票代号,朋友追随者等正在迅速地通过积极参与到“网络结构”层的网络社区中来解构全局概念上的“场所” ,

从这个角度来看,大多数的推荐服务仍然停留在封建的世界观层面上:黑匣子推荐(不管是“你”是访客或网站所有者)比你更好地了解自己,并用它自己无穷的智慧和权力决定推荐给你什么样的内容。网站所有者可能在表现形式和内容方面有些投入,虽然如此,这还只是一个非常有限的方式。
尽管这种情形在某些情况下是有益的,因为它总能被动地提供给网站所有者和访客一些推荐,但这却严重限制了推荐技术的潜能。

个性,实时的对话

尽管推荐有着更广阔的看法,它的商业价值是,它能促使网站所有者和访客进行一对一的实时对话。因此,一个推荐系统必须能够容纳积极参与其中的网站所有者和访客两方。推荐系统扮演着一个公司中销售员、代理商的角色,他们可以和顾客进行一对一地接触。这正与网站设计者相反,网站设计者更象是实体商店中的展示设计师,他们的目标是可能会经过展示的那些顾客,而不是单个顾客。狭义上的推荐系统在概念上比个性化工具还要小,类似于实体商店中的迎宾:当您刚到达商店的时候,他们可能会亲自来迎接您,而在您逛商店的时候,他们通常不会一直跟着你或与您实时交流。

OK,但是为什么需要对话?回想下在一个实体商店中店员和顾客之间典型的交互情景:顾客走进商店开始四处张望,这个时候,店员会问:“请问您需要什么?”“谢谢,我先看看”,顾客回答。由这一点可以知道,店员大概已经注意到了顾客,并对其意图、承受能力以及可能会买什么样的东西做了些推测。

像这些销售代理,店主在消费者,销售策略(如交叉销售,向上销售)方面都掌握着丰富的知识,对自己的业务也有短期和长期目标。可是不管他们收集多少像这样的数据,都不能自动地成为一个推荐引擎 。因此,推荐系统更好的任务是在某一刻充分利用店主的智慧。当然,一个信息不足的推荐系统只是一个比较不理想的情况但可能仍然是有用的。

网上交易的好处之一是成本低。大多数网站不能提供实时的真人在线客户服务,顾客要想详细了解情况只能查看一些网站按照一定形式提供的经营政策或战略,而不能通过真正的实时交流。 (尽管如此,在某些情况下和现场的销售代理商进行交流,很可能是一个适当的推荐触发方式。 )


情形/响应

 

思考这个问题的方法之一就像“情形/响应”这样 。这种情形描述可能包括访问者的位置、访问过的网页、产品目录、日期(是否节假日)、网站内部项目信息(来自供应商目录或内部获取的销售数据) 、访问者社区信息(如销售排名,评论排名) ,甚至是一些外部信息(如谷歌搜索排名,亚马逊排名) 。对于此种情形的响应应该是一个规范的推荐行为,以及由此产生的推荐内容(如推荐一双少于50美元的耐克鞋子) ,风格和形态(如使用生动的GIF来显示所有可用的颜色) 。也许,正如上文所述,形态甚至扩大到把现场销售代理带进实时的交谈中。

虽然网站所有者参与推荐系统内容和表现形式的这些有限的工作已经完成,但这种情形对于访客还是来说还是不满意的。有各种各样的情形可供访问者进行互动,但在大部分推荐系统中却几乎没有什么互动。一个简单的“不,那不是我要的” (如竖起了大拇指或大拇指向下的推荐图标),这要让顾客注意到并赞赏可能会有一段很长的路要走。我可以对一位商店售货员说, “我正在找一双价格在50美元的耐克鞋子”——为什么我不能把这样的事情告诉普通推荐系统呢?请注意,这里开始和网站所有者的需要重叠。它们的主要区别是,访客总是在某个时刻才提出,因此(通常)没有必要详述背景环境。

上述描述的目的是我们向网站所有者和访客的一系列可能的功能,模式和时间尺度打开了一扇大门。一旦打开了这个门,我们没有理由不向用户社区和“网络结构”层的网络社区打开。下面有三个主要观点:

1 网站不再是一个封建集权的地方,所有涉众现在都需要发出声音。
2 推荐引擎是一个懂得内容并在某一刻理解访客意图的所在。
3 因此,推荐是网站和访客在某个关键时刻合乎逻辑的实话对话。

鉴于我们对于网站最初的定义,我们也可能会询问参与者其他利益相关者之间的作用和机会。例如,网站设计者和访问者或网络社区之间的互动会不会被看作是一个持续的对话,而不是一个网站设计时候的偶然,单向的信息流动呢?答案是肯定的,但这是另外需要讨论的话题。

结论

推荐系统需要开放,让网站所有者、访客、以及社区更加积极地参与到内容和表现形式这两个方面来。这也是对推荐意味着促进处于某个时刻网站和访客之间对话的这种推断的最好实践。

Popularity: 2% [?]

原文作者 | Muhammad Saleem   译者 | puting

协同过滤(维基百科的定义)是通过将过滤操作在一大群人中扩散,用于过滤大量信息的一种机制。与主流媒体都有一个或少数几个编辑设定一些指导原则不同的是,协同过滤的社会化网络可以有无穷多的编辑,并随着参与者人数的增多而变地更好。

协同过滤基于以下的两个基本原则之上。

1. 群体智慧多数原则表明,随着社区的成长,不仅一个大的(不同的、独立的等)社区能做出比少数编辑更好的决策,而社区的进一步壮大,其作出的决定也会也来越好。因此,比起现有的哪些武断专横的媒体,如果我们能建立一些协作过滤的报纸、电视台、广播电台等,这会更好(对这个社会来说)。事实上,正如我们将看到的一些服务,如Digg YouTubeLast.fm,正试图来做这样的事情——协同过滤( CF )媒体。

 2.协同过滤的第二个原则表明,在任何一个大型的社区中,只要拥有单个参与者以及他们之间是如何合作、如何彼此关联的足够数据,基于他们过去的爱好,我们就可以推测出,这些用户今后将会喜欢什么,也就是创造了一个协作过滤推荐引擎。当然,这依赖于一个事实,即人们的利益、偏好、以及意识形态不会随着时间的改变而发生巨大的变化。

 协同过滤系统的这两个方面会产生两个非常不同的重要效果。

通过社区的判定,协同过滤的第一个效果是让你发现一些新的、有趣的、富有娱乐性的、以及有新闻价值的信息,Digg头版就是一个这样的很好例子。并非所有的内容都将直接和你的兴趣相关联,事实上有些内容则完全和您不相干。然而,随着社区的发展,会变地越来越多样化和富有个性,基于大众兴趣而推荐到头版的新闻能满足社区成员中的普遍兴趣。如果对这些基于普遍兴趣的新闻不满意呢?这就是第二个方面的效果。

协同过滤系统的第二个效果是收集的信息是基于哪种内容、你喜欢还是不喜欢的评注,并根据您提交并参加投票的习惯,这些正是用户数据概况。这可以帮助网站向用户推荐一些由你基本认同的用户(或来源)提交的内容,以及找到一些您通常经常参与投票和评论的有趣主题。这意味着,通过收集你是如何与该网站以及与其他用户交往的足够信息,协同过滤( CF )系统可以为你推荐内容。该系统发现内容并将其提供给您,而不需要你去搜寻这些。此外,随着您越来越多地使用推荐系统以及“顶和踩”的机制,这个协同过滤系统给你推荐的内容也会变地越来越精确。

一个很重要的事实,许多社会化网站并没有意识到这点,即协同过滤( CF )系统并不能根据您的喜好自动匹配内容,它有天然的缺陷。原因很简单:除非你能获得完全的多样性和独立的看法,对于某一特定的平台,一种观点总是支配着另外一种。在一个社会化网站上面,如果占主导地位的观点是左倾的,那么右翼观点几乎每次都会被淹没,因为他们没有能力将最合适的内容传递给最关注的人群。
 
一个很好的例子,德州议员保罗的支持者们很容易能够操纵社会新闻网站。现在,如果你能符合右翼分子的右翼观点,也能符合持左翼观点的左翼分子,并让对这两种观点有兴趣的人进行健康的超越党派政治的辩论,那么你就接近了的理想的系统。一个具有以偏好为基础的推荐功能的过滤系统,本质上来说,是社会化网络的未来。

谁在运用这样的系统?

协同过滤( CF )系统毫无疑问是社会化网络的生命线。尽管不同的平台使用的程度不同,该系统依然是核心,如果没有它,就像没有积极的交通治安,社会化网络显得像在拉合尔市中心的交通高峰那样。

社会化新闻网站
社会化新闻网站如digg和propeller,仅仅在首页范围内使用了协同过滤。一旦内容被推荐至首页,协同过滤系统的工作就算完成了。协同过滤系统能让你摆脱垃圾邮件和一些无创造性的思想,但它是不是最好的,因为它依赖于平均水平,而不是直接依赖于每一个参与者。虽然这些网站尝试和发展自己的推荐引擎,RedditStumbleUpon公司通过推荐引擎已经超过了他们。这两个网站也有类似的概念,一个社区头版(基于社区中普遍成员的普遍兴趣),他们根据您的历史好恶为你提供最优质和最相关的内容,以提高你的体验和激励你更多的参与。此外,正常化的Reddit头版表明一个头版符合所有办法符合和冲淡了单个用户的体验,而标准化确保每个用户能控制内容是如何分发给他们的。

最后,即使有一些网站很少或根本没有过滤(Slashdot, Fark,等) ,那些使用协同过滤系统的推荐引擎网站将继续减弱从即将提交队列积极筛选的重要性,用于提高在个人水平层次上的用户体验。

视频流和视频分享网站
在线视频网站托管和视频分享网站之间没有多大差别。像视频分享网站YouTube有多种过滤机制,往往履行相同的职能,而不依赖于可见的投票本身,例如,是由下面几点决定的:
1.目前观看视频的人数
2.对一个视频的评论数
3.一个视频的用户评价数和收藏数

以印象为基础的系统(如Spotplex)有一个问题是,你看到或评论的东西并不意味着它就是好的。事实上,有几十个YouTube视频,我按一下,不喜欢他们,然后关闭该窗口(我看到其他人用蹩脚的英语写的的那些负面评论,非常怀疑这些对于别人会有帮助) 。其他一些网站,breakFunny or Die使用类似StumbleUpon一样的支持和不支持的投票机制,以确定是否被推荐至头版。同样,虽然有查看相似和相关相关视频,查看来自一些相关用户的视频这样的选项,但还是没有推荐系统使用您的评价和favoriting习惯(和标签您喜欢)。

博客和微博客
在大多数情况下,博客运用一种综合了最多人浏览、最多人链接、最多评论以及最高评价等各种因素,来做为向你展示你可能喜欢的内容机制。这虽是一个比通过让人们反复试验和发生错误更好的方法,但这并不能确保每个访客都能对他们看到的内容感到满意。例如,在你的博客上,有两篇完全不同主题的博文可能是最受欢迎的,但我可能只会喜欢其中的一篇。与此同时,还必须弄清楚,什么时候开始监控每个独立的用户才是经济且及时有效的?

StumbleUpon是解决了这个问题的’大家伙’ ,让你StumbleThru一个可能有你最喜欢的内容的网站,然而,这一特色,并非适用于所有的网站。

遗憾的是,绝大数微博客网站,还没有任何过滤系统。在twitter及其同类网站中,信噪比的争论异常的激烈。 不过,FriendFeed 发布了一个最基本的推荐功能,简单地展示了一些“最受欢迎”和“最多评论”的链接。

图片存储和分享网站
当我考虑协同过滤系统的时候,图片分享网站如Flickr和photobucket根本不在我的视线范围内,其中一个原因是我知道大部分使用这些网站的用户主要是为了存储和找一些cc版权的图片嵌入到他们的网站中,不过,我很惊喜地发现flickr已能帮助人们
探索和发现一些好的图片。
 
这项对于大多数人可能是熟悉的功能是有趣的,也相当的强劲。它会考虑到如一张图片的推介流量来自哪里,谁在什么时候评论了它,谁收藏了它,又有多少人喜欢它以及其他更微妙的东西。除此之外,该网站还拥有其他一些不寻常的功能,如基于世界地图上地理标记、流行的标签、相关主题、以品质为基础的群体、相机型号和最近上传的探索。

音乐流和音乐发现网站
将推荐和发现系统结合协同过滤实施最好的例子,我所看到的都是关于音乐流和音乐发现网站。例如,在Last.fm上的实施,我认为接近完美。首先,不管你是使用他们的在线流媒体widget还是他们的客户端,Last.fm会跟踪每首你听的歌曲并收集这些数据。他们每周也会跟踪那些在你的试听列表出现和消失的艺术家们的数据,并使用这些数据为你做个性化的推荐,自动创建一个播放Last.fm向你推荐歌曲的电台。

虽然这本身就足够多的,但并不是到此为止。他们的另一个电台为您播放你通常喜欢听的歌曲,还会给你推荐整个Last.fm社区流行的歌曲,以及一些您的朋友们在听和推荐的歌曲。这是一个非常强大的聚合、过滤并推荐的系统。以下是这个推荐引擎是怎么工作的:

正如你所看到的,他们分析我听的最多的音乐家,然后推荐一些和我经常听的风格和声音都比较相似的音乐家给我。其次是根据我在网站上的好友和一些我加入的音乐群组来给我推荐一些歌曲。

那么,协同过滤和推荐会消失?
只有少数一些主流网站运用了这种协同过滤( CF )和个性化的推荐——Netflix和亚马逊是最容易想到的两家。正如你从上述中所看到的,如果没有一个推荐引擎(如看到的Flickr )这当然也有可能是一个良好的协同过滤系统。不过,如果你按照迄今最强健的推荐系统Last.fm那样增加一些推荐功能,对您的用户(因为那样用户体验会更好)和您的网站(因为用户将更多地参与和喜欢您的产品)来说,都是最好的。
—————————————————-全文结束———————————————————

延伸阅读:

[PDF] Collaborative Filtering for Orkut Communities: Discovery of User

[PDF] Socially Collaborative Filtering: Give Users Relevant Content——————————————————————————————————-这篇文章断断续续地翻译,花了周末两天时间,但是感觉还有很多的语句翻译的不是很好很专业,难免有误导,所以,建议看原文。

 

Popularity: 5% [?]


© 2007 SocialBeta | iKon Wordpress Theme,
AWSOM Powered