为了不在直播中看到少儿不宜的景象，阿里做了这些

发布时间：2017-01-13 04:10:37 所属栏目：建站来源：雷锋网

导读：副标题#e# 注：本文作者威视@阿里安全部，文章首发于知乎专栏：阿里聚安全的安全专栏。直播作为近来新兴的互动形态和今年阿里巴巴双十一的一大亮点，其内容风险监控是一个全新的课题，技术的挑战非常大，管控难点主要包括业界缺乏成熟方案和标准、主播行为

2、敏感人脸检测

直播中的敏感人物管控属于人脸识别中（1：N）的问题，涉及人物载体形式多样，如动漫、印刷品、PS处理、翻拍屏幕等。人像的表情、姿态、光照、距离、遮挡、模糊等均不可控。

检测系统包括敏感人物入库及用户图片查询两大模块。其中敏感人物入库包括特征提取以及索引的建立。用户图片进行查询的时候，系统会返回与被查询人脸最相似的人物图片、名字及相似度，然后根据业务规则判断是否命中敏感人物。数据库由国内外各领域近2W知名人物人像图片组成，并按敏感程度划分不同等级，提供多层次的管控人名列表。

敏感人物识别主要包括两部分技术：一是人脸的特征提取，二是检索系统的构建。我们选用深度学习算法构建模型，采取五层卷积+两层全链接的基础网络结构，并融合年龄+性别等属性，融合回归及分类多种损失函数进行训练。这种multi-data， multi-task的训练方式充分挖掘训练数据的多维度信息，从而构建泛化性能更好的模型。

为了不在直播中看到少儿不宜的景象，阿里做了这些

敏感人物识别技术架构图

简要描述一下索引算法的流程：

1、选一组哈希函数，将数据投影到离散的值上。所有的数据按哈希值分桶保存；
2、检索时，被查询数据使用相同的哈希函数计算桶编号，取出桶里所有的数据，计算距离，排序，输出。

搜索性能：在百万数据集上，单次查询RT小于10ms，top10近邻正确率90%（以遍历检索为基准）。

算法系统主要用来管控政治敏感人物肖像，以及明星形象冒用，整个双十一期间算法系统命中产生的审核比为约0.01%。算法累计命中1613场直播，其中38场是正确命中。38场中，有17场背景包含管控人物形象，8场主播使用管控人物形象作为面具，7场与人民币相关，2场利用管控人物做广告，3场丑化管控人物，1场新闻类直播。 38场直播以业务管控标准判断有14场违规。

在整个双11期间，一共有15场涉及涉及99名核心管控人物的违规直播，只有1场未能被算法命中，算法整体召回率93.3%。由于众所周知的原因，政治敏感人物肖像的违规case不能展示。下面是一些用户使用明星照片参与连连看游戏的case：

为了不在直播中看到少儿不宜的景象，阿里做了这些

用户冒用明星形象参与连连看游戏的示意图

可能有人会觉得算法命中的准确率不高，这有两方面的原因：

1）整体审核比很低，为了保障召回，所以将阈值设置得比较低；
2）由于管控人物中包含一些女明星，容易出现主播与明星撞脸的尴尬，比如下面两位女主播很容易被识别为杨幂。

为了不在直播中看到少儿不宜的景象，阿里做了这些

和明星撞脸的女主播

二、多媒体处理集群的优化

（编辑：PHP编程网 - 金华站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

3/5

首页

尾页

针对网站不收录页面百	建议百度右侧相关搜索
通过竞争对手网站制定	几种正确执行恰当且正