互联网运营中,存在一种非常隐晦却不可不谈的手段,谓之「虚假运营」。虚假运营指用假数据,给用户或者竞品造成某种错觉,从而达到运营目标。从马化腾在 OICQ 上装女生陪用户聊天,到 Airbnb 将 Craiglist 的数据塞到自家网站上,再到新手玩吃鸡手游会匹配到人机、更容易获得胜利,都体现了这是一种隐匿而重要的互联网运营手法。
然而运营者必须对数据负责,对结果负责,对用户和产品负责。这次马蜂窝被爆 UGC 数据造假,其曝光方式异常简单,甚至无需专业人士出马,普通用户稍加观察,都能轻易发现端倪,体现出其运营团队低下的运营能力。
换句话说,造假都造不好,还能指望它「造真」么?
针对马蜂窝拙劣的运营手法,我提供一些技术方案,用开发手段解决运营问题,估算一下工程量:一个后端开发工程师 + 2 个运营专员,可以在一个月时间内搞定开发、测试、上线。如实在无能为力,也可请我作咨询,连开发带运营,我一个人就够了,给你们省点钱。
长话短说,解决马蜂窝的虚假数据问题,可分五步走:
- 对马甲和内容数据分类、打标签
- 对「有毒内容」进行过滤
- 调研真实用户行为特征
- 开发自动化内容发布系统
- 优化运营人力
一、对马甲和内容数据分类、打标签
在今天曝光的蚂蜂窝数据造假证据中,马甲人设来回变换、点评内容忽男忽女,即便是普通用户,只要稍微细心,都可以发现其造假实锤(例如刚和老婆在上海喝完咖啡,就带老公去深圳吃面)。
首先,批量生成小号,并对其打标签(如 25 岁白领单身女性,32 岁企业管理层已婚男性,19 岁广东省大学女生等等),其属性划分应该符合网站真实用户的正态分布(例如 80 岁老爷爷应该不太会是蚂蜂窝的主力用户吧)。
其次,对爬来的点评数据进行类似处理,按作者性别、年龄、婚姻状态等进行标签归类,便于未来发布内容时,「女性大学生」人设的账号不至于发布出「携老婆和丈母娘旅行」的内容。其中,最重要的属性是性别,在爬取数据应顺便解决性别数据,搞定性别,大约 90% 的点评数据不会出现严重错位。
这个步骤的意义在于,将马甲账号与点评内容关联起来,营造出真实用户的氛围。当马甲账号发布消息时,可通过相应的匹配规则获取符合其人物设定的内容,被现场抓包的问题基本可以解决。
二、对「有毒内容」进行过滤
把爬取到的评论中附带的竞品名字(大众点评/美团/携程等),按照渠道来源,直接替换成自己的产品名,(例如从大众点评爬来的数据,统一把「大众」「大众点评」「点评网」等关键词替换为「马蜂窝」),虽然有可能产生内容不精确问题,但是远好于被读者及同行抓现行。
同理,爬虫在爬取数据时被对方以「插入推广链接」等方式「反爬」、导致存在部分脏数据,应及时清理。
运营人员还需要定期抽样检查数据,对存在的问题进行跟踪,发现问题后可以制定数据修改规则,使用脚本对数据进行批量修改,定期对规则进行迭代。
三、调研真实用户行为特征
暂停所有马甲账号发布,对真实用户进行为期一个月的行为观测,统计网站用户的真实活跃时间、频率和点评数量。
四、开发自动化内容发布系统
按照已被揭露的马蜂窝虚假内容发布时间来看,大概率是运营团队花费了大量人力在其工作时间段内发布,而这毫无必要。后端提供写入接口,并使用脚本或服务定期定量的写入数据,可以将大量人力工作直接转化为自动化任务。
后端开发工程师应该为运营部门提供两个组件:按标签获取点评内容的消息队列,以及写入内容的接口。然后设置定时任务进行批量写入操作,时间规则参考上一条用户真实行为特征,且写入时间可随机做小幅波动,尽量贴近真实用户行为。
五、优化运营人力
通过上述方法解放出来的运营人力,应该全力负责下述方面:
1. 如何用更好的方法将马甲账号与爬取到的内容匹配起来?
2. 怎样持续优化点评内容质量、以及迭代检验内容合格与否的标准?
3. 持续观察真实用户行为,要对自己的产品和用户有更更更更深入的理解。
4. 与工程团队对接,寻找优化这套「自动化发布系统」的方法,应有运营专员负责该系统的需求与迭代。
做到以上几个方面,我相信很少有用户用户或机构可以再通过运营数据观测到虚假运营。因为虚假运营的本质就是模拟用户真实行为,面面俱到,则可最大限度减少破绽。当然虚假运营的手段多处于灰色地带,而一家正经企业也不能一辈子鸡鸣狗盗,其最终目标依然是获取更多「真实用户」并提高其活跃度和消费额,将「假数据」转变为「真数据」。广大互联网运营人士,应以蚂蜂窝为鉴,时刻提醒自己,在实战中要更专业、更专注。