IMDB是目前全球互联网中最大的一个电影资料库,里面包括了几乎所有的电影,以及1982
年以后的电视剧集。IMDB的资料中包括了影片的众多信息,演员,片长,内容介绍,分级
,评论等,就个人买碟而言,很大程度上也是参考IMDB的得分。
而IMDB的得分又是如何来的呢?它的可靠性又有多少呢?让我们通过《魔戒1:护戒使者》
来做具体分析吧,先看上图:
这张图就是魔戒1的所有评分者的分数的一个条状统计图。
从中我们可以看到各个分数段的大致比例,比如这儿就可以发现,超过一半的人是打满分
的。
根据IMDB网站上公布的TOP250评分标准:
imdb top 250用的是贝叶斯统计的算法得出的加权分(Weighted Rank-WR),公式如下:
weighted rank (WR) = (v ÷ (v+m)) × R + (m ÷ (v+m)) × C
其中:
R = average for the movie (mean) = (Rating)
(是用普通的方法计算出的平均分)
v = number of votes for the movie = (votes)
(投票人数,需要注意的是,只有经常投票者才会被计算在内,这个下面详细解释)
m = minimum votes required to be listed in the top 250 (currently 1250)
(进入imdb top 250需要的最小票数,只有三两个人投票的电影就算得满分也没用的)
C = the mean vote across the whole report (currently 6.9)
(目前所有电影的平均得分)
另外重点来了,根据这个注释:
note: for this top 250, only votes from regular voters are considered.
只有‘regular voters‘的投票才会被计算在IMDB top 250之内,这就是IMDB防御因为某
种电影的fans拉票而影响 top 250结果,把top 250尽量限制在资深影迷投票范围内的主要
方法。regular voter的标准不详,估计至少是“投票电影超过xxx 部以上”这样的水平,
搞不好还会加上投票的时间分布,为支持自己的心爱电影一天内给N百部电影投票估计也不
行。
因此,细心的人可以注意到,列入IMDB top 250的电影,其主页面上的分数与250列表中的
分数是不同的。
以魔戒1为例,它在自己的页面http://www.imdb.com/title/tt0120737/中的分数是8.8,
而列表中是8.7。一般 250表中的得分都会低于自己页面中的得分,越是娱乐片差距越大。
这大概是因为regular voter对于电影的要求通常较高的关系
天地之初一片混屯,于是组织创始人/现任常务董事科尔·尼达姆(Col Needham)说:“要有检索性”,于是便有了搜索引擎——但可想而知,太古时代的搜索引擎将是多么原始:科尔·尼达姆张贴了一份Unix系统下的命令解释程序〔壳体〕程序,用户可以借此使用命令语言发出搜索请求,并得到有意义的结果。以上提及的四组资源列表及其查询程序便组成了“IMDB前传”——纯文本Unix版,时称“rec.arts.movies电影数据库”(rec.arts.movies movie database)。
数据库的基本目标过去是现在仍是“为互联网上尽可能多的平台用户提供有用且免费的电影时效信息”("provide useful and up to date movie information freely available online across as many platforms as possible.")。在当时,所谓尽可能多的用户平台,其实主要是指Unix系统。后来,在志愿者的努力下,才终于创建了服务于DOS,OS/2甚至Amiga不同版本。
更重要的是,尽管当时该网站仍然植根于rec.arts.movies新闻组,但实际上其操作层面已经遍布互联网各级,可谓无孔不入,为反映这发展,站点的名字随即改为“互联网电影数据库”(Internet Movie Database,即今天的IMDB)。同时,站内迅速繁殖的数据信息开始超出资助者所能提供的设备及带宽能力,也大大超出了志愿者们管理这些信息所能支出的时间和金钱。