手机版 欢迎访问人人都是自媒体网站
编辑导语:短视频的出现,使我们在碎片化时间有了可供消遣的内容。但是随着短视频赛道的逐渐拥挤,网络黑产也盯上了它。虽然抖音对不合规视频进行过治理,但是这种情况还没有被杜绝。面对打击黑产这个问题,抖音不能有侥幸心里,仍然需要竭尽全力。
现在是一个技术极度发达的年代,更是一个内容产业爆炸的年代。
在互联网的赋能下,我们所有人都可以在最短的时间内享受到最新鲜的内容服务,图文、视频、短视频、游戏,只有你不想要,没有你要不到。
但技术本身也是双刃剑,在我们享受到更多好内容的同时,也会有更多人在利用技术作恶。
工具不分善恶,在任何时候,只要可以获利,就会有人去钻研努力。技术和商业越发达,黑灰产就越猖獗。
有光必有影。面对信息差和技术碾压,普通人越来越难以和黑产对抗,因为对方玩儿的东西,你见都没见过。
同样的是,打击黑灰产,保护用户,将是内容平台的核心竞争力之一。
每一个内容平台都在研究如何对抗黑灰产,不仅仅是因为黑灰产会侵害平台的用户,更严重的是,当平台对内容失控的时候,在这个互联网文明底线越来越重要的年代,基本就代表了更严重的后果。
理由是苍白的,大家只看有没有做到。很多人以为的黑灰产仅仅是在发布一些看起来比较弱智的骗局,那理解就太浅薄了。
现在,在话题广场、论坛、评论区、用户昵称甚至私人对话,只要可以录入文字图片和语音的地方,就存在着失控的风险。
只要能传递信息,黑灰产就不会放过,过去是电线杆和公共厕所,现在就是所有媒介。
产品是简单的,人性是复杂的。作为内容平台,只能用尽全力去保护用户,击败对方,或者被对方击败。
02抖音作为当前第一短视频平台,拥有最庞大的内容创作群体和内容消费群体。
在抖音上,内容创作者与内容消费者是可以直接交互的,这就代表在黑产眼中,这是流量富矿,并且操作空间巨大。
实际上,任何可以C2C的内容平台,都是可操作性的,但抖音流量最大。前段时间,“假靳东”事件闹得沸沸扬扬,这就是一起典型的C2C黑灰产诈骗。
在实际业务中,C端用户上传的内容天然具有很大的不可控性,因为每个人的价值观和法治观念都是不同的,你没法把所有人的思想和操作统一,很多人就是喜欢在内容平台上上传大量的违禁内容。
论坛时代走过来的老网民都懂,黄图和小视频总是拦不住大家的散播。
从平台角度而言,这些都是风险,需要在保证正常用户体验的前提下,降低内容风险。说白了就是,屏蔽风险内容,惩罚乱来的账号。
从平台角度来说,纵容这些乱来的账号和内容,属于找死。从业务上必须要杀,但是从技术上如何杀,就是非常具有挑战的问题。
不是说可疑就要杀的,不能因为少部分人的放飞自我就影响多数人的体验,大家出来做生意,用户体验是第一要义。
针对内容风险关系,第一轮,也是最基础的,是敏感词屏蔽。什么叫敏感词?可以简单理解为是大家在私下场合心领神会的说,但是在公开场合绝对不会说的那些东西。
在抖音平台上,敏感词出现在账号ID,个人简介,私信内容,视频封面等场合。针对敏感词屏蔽,抖音的策略是自建词库+机器学习+人工审核。策略包含敏感词收集策略,敏感词应用策略,敏感词处置策略。
在这里面,人工起到了很大的作用。
很多公司喜欢瞎吹人工智能,觉得人工智能能够解决一切问题,但现实业务中,人工智能对于语义分析是存在一定问题的。
大家日常对话的那些内容,不复杂,但是涉及到敏感词,汉语是博大精深的,使用各种谐音字、变体字、火星文,以及中间夹杂各种特殊符号和空格的模式,很容易就能绕过机器。
就例如微信这个词,可以变种成V信、VX、威、VV、V你懂得、威X信等等等等,在人眼中是一样的含义,但是在机器眼中截然不同。
作为已经把算法玩到极致的抖音,非常清晰的知道机器的力量有穷尽,人的主动识别配合数据分析师定向收集,再同步模型,才可以实现ROI最大化。
而且敏感词这个东西,收集很重要,怎么用更重要,一不小心就把好的坏的一起干掉了。
例如黄恐暴类的敏感词,标签对应的处置手段应该是直接屏蔽+封号或者直接禁止发布,不废话,直接干掉;
例如疑似推广号的标签,对应的处置手段应该是屏蔽+禁言,或者禁止发布,并给予警告;
例如命中了一些权重较弱的敏感词或者敏感字,对应的处置手段应该是转人工审核,再处置。
当然,具体的尺度,是不同厂家有不同的价值观。在抖音这边,力度一直是比较大的,因为流量和影响力都太大,出一点点问题,都是大问题。
03说完敏感词,必然绕不开的是图片和短视频,这是抖音的看家本领,也是最需要风险管控的部分。
图片和视频带有的问题主要是三类:
1. 黄恐暴类内容,图片视频本身有问题针对这部分内容,抖音建立了庞大的敏感素材库,外加机器+人工的审核机制。
Copyright © 2018 DEDE97. 织梦97 版权所有 京ICP