(北京理工大学 计算机网络攻防对抗技术实验室,北京 100081)
摘要:网络中色情图像的传播严重影响了网络信息内容的安全性。为提高色情图像识别的准确度,提出了一种直觉模糊理论和FP(Forward Propagation)神经网络相结合的色情图像识别算法。算法以颜色直方图为底层特征,根据色情图像颜色分布情况,由模糊理论和直觉模糊理论共同构建图像特征矩阵;采用FP网络实现色情图像特征训练过程,其中特征矩阵的权重通过反向传播神经网络训练得到,以加权距离建立球形邻域半径;最后通过球形邻域覆盖情况识别色情图像。实验结果表明,该算法能够在不影响识别速率的前提下,有效的提高识别准确度。
关键词:网络安全;图像识别;直觉模糊;FP神经网络
中图分类号:TP391 文献标识码:A
Intuitionistic fuzzy theory - neural network basing pornographic image recognizing algorithm
Wang Xiao-yin,Hu Chang-zhen
(Lab of Computer Network Defense Technology,Beijing Institute of Technology,Beijing 100081)
Abstract: Spread of pornographic image on the internet impacts security of information content seriously. In order to improve accuracy of pornographic image recognition, an image recognition algorithm combining intuitionistic fuzzy theory and Forward Propagation neural network was proposed. The algorithm used color histograms as basic features. According to distribution of pornographic image colors, it constructed image features matrix by fuzzy theory and intuitionistic fuzzy theory. And it applied FP network to implement pornographic image training. The neural network get weight of features matrix from training of back propagation network. Distance with weight was used to establish radiuses of sphere neighborhoods. The recognition algorithm recognized pornorgraphic images from range of sphere neighborhoods. The experiments showed that this algorithm could improve accuracy of recognition in the case of not decreasing the speed.
Key words: network security; image recognition; intuitive fuzzy; FP neural network
0 引言
信息是人类社会进步不可或缺的组成部分,网络已成为获取信息的主要渠道。随着网络的普及,信息内容不断丰富,在提供有用信息的同时,也存在着大量的不良内容,色情图像就是其中之一。色情图像的传播,在一定程度上影响成年人的工作和生活质量,尤其对未成年人的健康成长十分不利。目前的色情图像识别系统多以图像所在网页中存在的文本信息为识别对象,与识别系统所带的关键词库进行匹配。对于大量的无附带文字或所附带文字与词库中关键词不匹配的色情图像,识别率非常低,为彻底解决色情图像识别问题,必须将识别对象定位到图像本身。
近年来研究者对此作了较为深入的研究,例如徐欣欣在图像分割的基础上,利用自适应小波不变矩的平移和缩放不变性特点,与标准皮肤纹理比较,判断是否有皮肤区域,在皮肤区域的基础上识别色情图像[1];罗森林等以纹理和颜色构成图像特征,根据C4.5算法生成的皮肤判定规则检测敏感图像[2];Zhu等通过平衡算法得出颜色空间中的肤色区域特征,再利用SVM算法提取主要特征对图像进行分类,识别是否为色情图像[3]等等。算法基本采用“确定性”技术进行特征的提取和识别,没有充分的应用人类思维的模糊性特点。而色情图像识别从本质上分析,是一种由计算机模拟人类感知的技术,人类感知属于“不确定”过程,为提高准确度需要采用“不确定”算法[4],尤其在特征提取部分。
本文算法为了更好的模拟人脑认知过程,采用不确定的软计算方法,建立了一种基于直觉模糊-神经网络的色情图像识别算法。在特征提取部分根据模糊和直觉模糊理论得出图像的颜色分布情况,建立特征矩阵,为满足现有色情图像的特点,在提取皮肤及头发颜色的同时,加入了人体胸部的颜色特征。在此特征基础上,通过BP(Back Propagation)神经网络得出特征权重,建立FP神经网络中球形邻域的半径,最后进行色情图像分类。
1 算法简介
算法分为特征提取,特征训练和图像分类三个主要部分,模块图如图1所示。从图像的颜色分布情况出发,构建主色调颜色直方图,在确定性颜色特征和模糊颜色特征的基础上,进一步引入直觉模糊集理论,完整地描述图像颜色特征,由颜色确定数值、模糊颜色值及直觉模糊颜色值构成图像颜色特征矩阵。特征矩阵中各特征对表达图像内容的重要程度通过BP神经网络确定的权重数值表示,根据权重距离公式构建FP网络中的球形邻域的半径。图像分类部分以球形邻域为范围,确定图像是否为色情图像。
2 特征提取
2.1 颜色直方图特征
颜色直方图在图像各类识别技术中起着十分重要的作用,且通过对大量的色情图像和非色情图像进行观察,可以发现两类图像在颜色直方图特征上,普遍有较为明显的区别,如图2所示,其中采用HSV色彩空间中的色调元素H作为直方图横坐标。
色情图像的颜色直方图的最大波峰值均存在于后半部分,而非色情图像中,由于各种图像反映的主题不同,主要颜色的分布也存在于直方图的各个位置,很少出现在后半部分,这为色情图像识别技术提供了一种实现思路,即可通过图像的颜色分布情况确定是否为色情图像。颜色分布与主色调颜色直方图在概念上类似,本文从主色调颜色直方图出发提取颜色特征。在主色调颜色直方图中,颜色的选择是特征提取的基础,影响颜色提取的准确性和完整性,本文由各类肤色、头发颜色以及胸部颜色构成直方图的颜色位。
(责任编辑:adminadmin2008)