文│中国人民公安大学国家安全学院闫红丽
恐怖主义给世界各国人民带来了巨大的灾难和伤痛,严重威胁国际社会安全稳定。随着国际反恐力度的加大,恐怖组织的物理活动空间受到极大压缩,其恐怖活动的形式开始由线下转为线上,互联网成为恐怖组织策划、煽动实施恐怖活动的重要手段和渠道。网络涉恐信息隐蔽性强、影响力大,传递迅速、易于扩散且很难控制,识别与发现网络涉恐信息,成为预防并从源头打击恐怖主义泛滥的主要手段。
一、从源头清理网络涉恐信息,及时阻断恐怖主义网络传播
虽然网络涉恐信息的内容和表现形式不同,但是,归根结底,我们主张,凡是在网络空间宣扬煽动恐怖主义的都是网络恐怖活动,凡是联合国认定的恐怖组织在网上的一切活动都是网络恐怖行为,网络恐怖活动和网络恐怖行为产生的信息,都属于网络涉恐信息的范畴。
总体看,网络涉恐信息主要包括以下四类:第一,煽动进行“圣战”,声称要摧毁异教徒,招募自杀式恐怖主义袭击者,煽动以“圣战”殉教的狂热,时刻保持战争状态;第二,传授恐怖主义实施的方法和技术,发布恐怖分子训练手册,传授制爆方法和技术;第三,宣扬宗教极端思想,鼓吹除了真主以外,不服从任何人,公开抵制政府管理,歪曲、诋毁党和国家政策;第四,煽动民族仇恨,以各种蛊惑人心的方法,公开煽动民族仇恨、民族歧视,煽动世界的穆斯林向异教徒发动“圣战”,呼吁世界穆斯林对“圣战者”进行援助。识别与发现网络涉恐信息,从源头上清理网络涉恐信息,才能及时阻断恐怖信息的网络传播。
(一)网络涉恐信息是当前最主要的恐怖主义信息存在形式
恐怖组织利用网络进行招募、宣扬极端主义思想,以及通过网络进行恐怖主义融资等,这种以网络为工具的工具型网络恐怖主义传播最重要的载体就是网络涉恐信息。恐怖组织不断加大利用网络进行恐怖主义活动的力度,运用网络涉恐信息为恐怖主义思想的传播推波助澜。自杀式恐怖袭击、“圣战”殉教、本·拉登、“基地”组织等这些词汇,越来越多地被视为一种符号性的精神感召。网络涉恐信息承载了这种虚无缥缈的、意识形态化了的极端思潮,成为恐怖主义思想泛滥的极大隐患。
(二)识别与发现网络涉恐信息是防范恐怖主义的第一步
(三)及时清理网络涉恐信息切断恐怖信息网络传播的渠道
对于普通人来说,最有可能接触到恐怖主义思想的途径就是网络,网络涉恐信息的存在成为吸引具有极端思想的个体加入恐怖组织的主要方式。网络涉恐信息鼓励个体发动独狼式恐怖袭击,直接危害社会,或者发布谣言,制造恐怖气氛。媒体是恐怖主义的氧气,宣传是恐怖主义的母乳,及时清理网络涉恐信息,就是切断恐怖组织赖以生存的氧气和母乳供给,从源头上消除恐怖信息的网络传播。
二、网络涉恐信息识别发现的一般路径
识别与发现网络涉恐信息,首先要确定数据源,这是划定网络涉恐信息的源头,从根本上解决从哪儿识别的问题;接下来就是建立涉恐关键词库,解决用哪些词进行筛查的问题,用大量样本对计算机进行训练,使计算机进行自动识别,提高识别效率;除了关键词搜索之外,网络涉恐信息还包含涉恐嫌疑人在网上的与恐怖主义有关的行为轨迹,例如观看暴恐音视频、进行网上的恐怖融资等,建立涉恐行为轨迹数据库,可以完整勾勒涉恐嫌疑人的网络涉恐行为,挖掘出隐藏的网络涉恐信息。在涉恐关键词库和特征行为库的基础上,构建基于场景的业务特征模型,在不同的场景下感知并发现网络涉恐信息。
(一)确定数据源是识别和发现网络涉恐信息的首要工作
对网络涉恐信息可能存在的数据源的确定是识别和发现网络涉恐信息和数据的首要准备工作,这些数据源大多是开源数据,相对零散地散布在网络空间。
(二)建立关键词库明确搜索意图进而定向追踪涉恐嫌疑人
关键词也称关键字,是网站的三个要素之一(三个要素包括标题、描述和关键字)。它可以是一个词或一个短句子。关键词搜索是搜索引擎索引的主要方式之一,搜集某一个领域的常用关键词并对其进行拓展,筛选优质关键词并进行归类,测试关键词的流量、点击和转化,就可以在一定程度上认识某些用户对某领域的搜索意图。如果能够梳理网络涉恐信息这一领域的常用关键词,可以对某个用户搜索这些关键词的流量和点击率进行分析,就能够摸清楚一些用户搜索的意图。从更深的层次讲,可以通过关键词搜索记录,定向刻画某些有涉恐嫌疑的人群,通过搜索流量的入口对其进行控制。
(三)建立行为轨迹特征库可以帮助刻画涉恐嫌疑人特征
轨迹行为特征分析是刻画对象基本特点最直观、高效的分析方式之一。人类行为是人类在生活中表现出来的生活态度及具体的生活方式,它是在一定的物质条件下,不同的个人或群体,在社会文化制度、个人价值观念的影响下,在生活中表现出来的基本特征,或对内外环境因素刺激所做出的能动反应。社会学认为,人的行为特征是自发的、有原因的、有目标的、持久性的、可改变的。
(四)建立业务特征模型库感知不同场景下涉恐对象的行为轨迹
恐怖主义是不对称冲突中的政治暴力,通过暴力使他人受害或破坏非战斗目标(一般是具有标志性的事物),试图引起恐慌及心理上的畏惧。恐怖主义的目标是要透过暴力的表述在传媒面前曝光以达到最佳的宣传效果,以影响目标观众及达到短期或中期的目的,并进一步追求长期的最终目的。
三、网络涉恐信息识别发现的技术支撑
网络涉恐信息海量庞杂,实现计算机初步自动识别发现涉恐信息,是真正盘活数据,使数据发挥最大作用的基础。利用知识图谱技术,从实体的建立、实体属性的添加和完善、规则的建立,以及基于规则的自动推理,最后实现可视化展示的层面,并完整刻画网络涉恐信息的识别与发现过程。知识图谱并不是单一技术,而是一整套数据加工、存储及应用流程,主要包含知识表示、知识抽取与知识挖掘、知识存储与知识融合、知识检索与知识推理。
(一)知识图谱概念的初衷是增强用户搜索质量及体验
知识图谱概念最早在2012年5月由谷歌正式提出,其初衷是为了优化搜索引擎返回的结果,增强用户搜索质量及体验。知识图谱由一条条知识组成,每条知识表示为一个主谓宾的三元组(SPO),在逻辑结构上可分为模式层与数据层两个层次,数据层主要由一系列事实组成,而知识将以事实为单位进行存储。
(二)通过知识图谱技术体系建设高质量的知识库
(三)基于知识图谱进行业务模型数据验证
利用知识图谱技术,对形成的基于场景的业务模型要进行数据验证。可以自建数据集,用现有的已经判定为恐怖主义犯罪的案例,同时,进一步扩充实践数据。若能真正应用于现有数据平台,则会对据此建立的模型有较大程度的改进,也会实际作用于实战,为网络涉恐信息的识别与发现进行初步的数据筛选,提高反恐工作效率,为后续的人工研判进行初步的数据准备。
四、网络涉恐信息的治理路径
(一)完善监管机制,加大对网络运营商的监管力度
在网络“信源→信道→信宿”结构关系中,网络服务提供者对应的是“信道”这一网络信息传输中具有中枢地位和作用的信息桥梁和通道。利用网络所实施的恐怖行为会在网络运营商的管理领域留下痕迹。
(二)完善技术,进一步提高分词识别的效率和准确率
要进一步增强知识图谱等人工智能方法发现网络涉恐信息的能力,通过机器学习和更新迭代,扩充网络涉恐信息的关键词。分词技术主要有“规则分词”“统计分词”和“混合分词”(规则+统计)这三个主要流派。规则分词是通过人工设立词库,按照一定方式进行匹配切分,其实现简单高效,但对新词很难进行处理。随着机器学习技术的兴起,统计分词可以较好应对新词发现,但太过于依赖语料的质量,因此,在实践中,多是采用规则分词和统计分词相结合的混合分词方法。网络涉恐信息以多种形式、多种语言出现在多个网站、社交网络平台和即时通信软件中,完善分词技术,可以完善现有的涉恐信息关键词库、涉恐行为特征库,进而改善业务应用模型,提高网络涉恐信息识别发现的效率和准确率。
(三)与反恐工作实践相结合,从源头识别发现网络涉恐信息
实践是检验方法是否可靠的唯一标准。只有把涉恐信息关键词库、涉恐行为轨迹特征库和基于业务场景建立的识别发现模型应用于实战,经过大量的数据验证,才能真正检验模型的效度和准确度,发挥模型最大的价值。在实践检验中,可以根据不同的数据类型,结合各地网络涉恐信息的多样性和复杂性,进一步修正模型种类,调整模型中设定的参数,真正制定出一套适应不同地区、不同场景、不同类别的网络涉恐信息的识别和发现模型,为信息化反恐做好信息筛选的第一步,为海量数据筛选助力,提高反恐工作效率,使恐怖主义的源头治理更快、更准、更高效。