在电影行业,“大数据”是一个熟悉又陌生的词。有人将它比作青春期少年口中的“性”——“大家都在谈论它,但没有人知道如何操作;每个人都以为别人在做,于是都声称自己正在做。”
不过,情况正在发生变化。
谷歌公司通过数据收集和建模,已实现了提前一个月预测票房的目标,准确度达94%,这将为电影的宣发策略提供直接指导。
目前国内也有类似的服务了——根据电影首映日的票房,预测最终的票房成绩。电影《后会无期》就购买了这样的服务,提供数据支持的公司名叫ABD爱梦娱乐。
只是,爱梦娱乐对《后会无期》的票房预测与实际结果之间出现了较大偏差,数据模型推算的票房是4.3亿到4.8亿,但截至记者发稿,这部电影的票房已过6亿。
这就像是一则隐喻——对于国内正快速发展的大数据行业来说,希望实现影片投资、制片、宣传的“全生命周期”服务;但对于片方来说,大数据的分析,仅供参考。
从数据,到“大数据”
7月22日,《后会无期》上映前2天,影片宣传方收到了一份“大数据分析报告”:“强烈建议调低受众的观影预期。韩寒的口吻应该适当谦逊,必要的时候可以自黑。”
这份报告来自为《后会无期》提供了数据服务的ABD爱梦娱乐公司。这或许是中国电影行业在大数据应用方面的一个最新个案。在《后会无期》之前,《小时代》、《北京爱情故事》、《人间小团圆》等影片都向业内的大数据分析公司采购过数据服务。
电影行业对于数据的日趋重视是不争的事实。
“以往电影行业不太重视数据,因为电影是艺术品,不是产品。宝洁的一款产品可能从设计、调研、生产到销售,整个流程都需要数据支持,但电影业没有这个意识。” 数托邦创始人杨玥说:“但随着郭敬明、韩寒、肖央这些新锐导演进场,他们是很了解受众的,把电影当做产品去运营的人,而且上来就是2、3亿起跳的票房,让 整个行业开始反思,怎样了解用户、洞察市场。”
在电影圈,乐视被认为是电影行业最“互联网”的公司之一。乐视影业CEO张昭曾提出一个观点——用做市场的角度去做内容。
今年7月的一次分享会上,张昭说,之所以将《老男孩》档期从五一档推迟到暑期档,一个重要的原因是百度指数。“当时老男孩的百度指数不够高,话题热度不够,上不了啊!”随后,《老男孩》团队前往韩国拍摄了4支MV,其中的《小苹果》成为爆红“神曲”,这让大电影一举拿下超过2亿的票房。
此前在《小时代》选角时,张昭也提出,几位主角的微博粉丝数加起来,必须要超过1个亿。
“乐视的数据思维很值得肯定。”数托邦的杨玥表示:“但无论百度指数、粉丝数、票房数,这些都只是数据,并不是真正意义上的大数据。大数据是基于海量数据的抓取和挖掘。”
数托邦曾经做了一款“油价早知道”的产品,可以提前三天预测油价涨跌。数托邦在新浪微博上抓取提到油价的发言,发现其中700个人属于意见领袖,再把他们的 意见提取出来经过加权得到一个结果,预测未来油价会涨还是会跌。“从去年5月到现在,我们预测了30次,准确率100%。”
在他看来,电影行业也可以有类似的应用场景,甚至实现从剧本创作,电影投资、拍摄、营销“全生命周期”的大数据服务。
在大数据行业的设想中,未来必将出现这样一部电影:它的剧本创作,会从数十百个微博用户的网络行为中攫取兴趣点,供编剧创作故事情节;投资方会根据剧本和拟定的主演名单,在社交媒体上分析粉丝群体,进行投资收益分析,决定合理投资额。
紧接着,在电影拍摄后期,所有营销已根据大数据分析的目标群体展开,根据人们的好恶、反响,讨好、卖萌或者耍酷。最后,大数据会帮助投资方预测票房,拉动更多广告植入的介入。
“目前还没有一部电影能够称得上是真正意义上的大数据电影。”杨玥说。
[Ok3w_NextPage]电影行业的“大数据尝试”
尽管真正意义上的“大数据电影”还没有出现,但国内电影行业在“大数据”的应用上已经跃跃欲试。
《后会无期》就是这样的案例。ABD爱梦娱乐的创始人雷鸣说,7月21日《后会无期》大规模点映,随后爱梦娱乐把所有当天在互联网上产生的言论进行分析,并在22号凌晨,提交了一份娱乐预警预案。
在这份预案中,爱梦娱乐将所有可能的负面关键词列出来,针对每一条可能出现的负面评价,给出应对的预案。与此同时,他还强烈建议片方调低用户预期,建议韩寒口吻更加谦逊,适当的时候可以自黑。
北京的另一家大数据公司艾曼科技,曾给《小时代》、《北京爱情故事》、《窃听风云》等电影提供过数据支持服务。
艾漫科技的CTO郭锐介绍说,当他们对新浪微博上提及“小时代”的众多微博用户进行了数据分析后,建议片方加大南方二三线城市的排片量,这些城市包括宁波、福州等等,因为这些地方的网友对小时代的讨论热度更高。
艾漫还发现,女孩子们最喜欢的男演员是柯震东,建议宣传方更多以柯震东为主打进行宣传。
对于《后会无期》和《小时代》的数据服务大多集中在电影后期的宣传营销阶段,而在影视剧创作前期,大数据有时也能起到意想不到的效果。
数托邦曾给克顿传媒的编剧们提供过一次大数据的服务。
克顿传媒希望参考日本作家东野圭吾《白夜行》的风格拍摄一部悬疑剧,于是数托邦从微博上抓取了上千个关注白夜行、悬疑剧等相关作品的用户信息,最终发现,这些用户都有一个共同的关注点——果壳网,尤其是对于果壳网“谋杀现场法医”这个小组最为关注。
让人意外的是,这些用户还非常喜欢一部台湾电视剧《白色巨塔》,这部剧以一所大学附属医院里的政治生态为背景,讲述身陷其中的青年医师们,如何在理想与现实之间挣扎的故事。
此外,这些用户还关注穷游、马蜂窝论坛、Lens杂志。数托邦建议克顿的编剧去这些媒体上找一找灵感,当这部剧拍摄完成,也不妨借助这些媒体进行宣传。
这样的分析,让克顿传媒的编剧很意外,也为故事创作提供了更多可能性。
尴尬的票房预测
预测未来,这是大数据最迷人的地方。如果能精准预测票房,可以帮助电影拉到更多广告植入,也可以帮助宣传方控制宣传成本。
去年,谷歌曾公布电影票房预测模型,可以提前一个月预测电影的票房,准确率高达94%。在谷歌的模型中,票房预测的依据包括:电影预告片的搜索量,同系列电影前几部的票房表现,以及档期的季节性特征等等。
然而,同样的模型,放在中国用却不是很合适。爱奇艺CEO龚宇就曾公开表示,百度和爱奇艺也有类似的数据,但用这些数据来套谷歌的模型,发现准确率很低,说明中国的市场除了这些因素之外,可能还有别的因素。
“获取数据并不难,难的是怎么建立合适的分析维度。”爱梦娱乐的创始人雷鸣说,如今市面上很多数据公司、舆情分析公司,都已经积累的大量的互联网数据,但如何解读,如何分析预测是难点。
雷鸣说,中国的娱乐行业有很多隐秘的规律,外行人并不了解,他的公司希望建立更适合中国市场预测模型。“比如偷票房,这在三四线城市是一件很普遍的事,我们会根据偷票房来专门建模”。雷鸣说。
爱梦娱乐的票房预测产品,是根据电影上映首日的票房,来推这部电影的总票房。他们推算票房主要依据以下几个变量——上映首日的确切票房、上映首日的口碑、未来几天排片率、同档期竞争对手的情况等。
不过,对于《后会无期》票房的预测,爱梦娱乐就出现了较大的偏差。首映第二天,雷鸣给出的总票房预测是4.38亿到4.88亿。但事实上,《后会无期》最终票房超过了6亿。
“我们高估了《白发魔女传》的影响力。”雷鸣说,开始他以为《白发魔女传》上映之后,会大大挤压《后会无期》的排片量,但事实上,一些影院还是将更多排片给了《后会无期》。由于准确度还不够高,爱梦娱乐的票房预测产品尚未商业化,预测数据只是给片方做一个参考。
[Ok3w_NextPage]相对于爱梦娱乐这样的小公司,百度、搜狗这些互联网巨头在票房预测上更有野心,目前这些公司都在开发票房预测产品,但由于种种原因,没有一款票房预测产品实现了商业化运营。
娱乐资本论注意到,百度的预测频道已经上线,内容包括景点预测、高考预测等功能,电影票房预测产品已列入百度预测的产品线,但目前并未上线。
搜狗也没有公开票房预测的网页,但团队负责人曾多次在新浪微博上公布他们的预测数据。
今年1月,搜狗的助理研究员@王晓伟alex在微博上称,搜狗预测小黄人《神偷奶爸2》的票房为1.53亿,随后的结果显示,这与实际结果几乎完全一致,这 引起了一些电影界人士的惊呼。但在预测《熊出没》时,搜狗就出现了较大的失误,预测票房为0.64亿,最终首周票房1.48亿。
哈工大计算机学院甚至推出了一个名为“票房预测”的网站,只要输入电影名称,网站就会给出票房预测和实际票房结果。这一网站对《小时代3》的票房预测为6.0581亿元,比5.16亿元左右的实际票房要高出不少。
大数据“原罪”
快速发展的大数据行业,有时也会遭遇电影人的冷眼。在业内人士看来,电影“大数据”至少还有4方面的问题。
首先,数据是基于过去经验的总结,难以预测新鲜事物。
梦工厂CEO卡森伯格就曾表示:“电影靠创造力,不靠数据分析,詹姆斯·卡梅隆创作《阿凡达》的时候,如果问观众是否想看《阿凡达》,观众根本不知道他在说什么。”
数托邦的杨玥也表示,对于电影票房的预测,《哈利波特》这样的系列电影最容易,如果是一部全新的题材,即便是谷歌,在预测的准确度上也要打一个折扣。
其次,目前的大数据更多基于互联网,并非真正电影购票观众的数据统计。
乐视影业的一位内部人士表示,谈论电影《小时代》的人,与去电影院看《小时代》的人,并不能完全重合。因此,乐视影业还相当重视线下的调研,公司的地面推广人员会在各家影院进行实地调研,并且形成数据传回总部,最终会把线上线下的数据结合起来,作为决策的依据。
《后会无期》的宣传负责人常杰表示,像韩寒这样的导演在互联网上相当活跃,可能随便一条微博都有上万的转发量,粉丝们也热衷于参与网络的讨论。相比之下,张艺 谋至今没有开通微博,一些张艺谋的影迷可能已经人到中年,并没有在互联网上获取信息、参与讨论的习惯。对于他的电影来说,如果用同样的分析方式就会要打一 些折扣。
第三,中国互联网数据的真实性,正在面临越来越多的质疑。
一个明星的微博粉丝中,有多少是买来的,有多少是僵尸粉,几乎没有人知道。爱梦娱乐的雷鸣表示,现如今技术越来越进步,让微博的僵尸粉越来越像真粉,而随着微博活跃度的降低,真粉反倒越来越像僵尸粉。
在中国,几乎所有新媒体的数据,都可以用钱买到。在淘宝上,花120元能卖到1万个新浪微博的优质粉丝,这些粉丝有头像、有微博,如果出价到170元,这些买来的僵尸粉账号还基本都能有100个以上粉丝,显得更加逼真。
在论坛里,只需要花16元就可以“制造”1万次热帖点击,在视频网站上,视频点击1万次的成本也仅为8元。
“数据脏”,这已经成为大数据行业面临的“烦恼”之一。在这个行业里有一个专业词汇,叫“数据清洗”,就是指怎样把看起来很好看的数据还原出真是的样貌。
“大数据公司一般会设定一些标准,把这些粉丝的数据抓出来去跑。” 雷鸣说:“可能一个5000万的明星,真粉只有150万到200万。”
最最讽刺的是,中国电影行业的运转并非全部基于商业逻辑。雷鸣说,大数据希望能帮助电影投资人降低决策风险,以最小的成本获取最多的收益,但事实上,有些人拍电影就是为了“洗钱”,有的导演可能选某个女演员是为了“潜规则”。这种时候,任何大数据分析都已经没了价值。