基于文本语义相似度的计算机辅助定密系统
主要内容
构建基于树型结构的定密规则,形成定密规则库。根据待定密文档所属行业领域,对文档内容进行分词和聚类,检索并匹配定密规则库来判定文档密级。
针对不能有效匹配定密规则库的目标文档,提出了一种基于加权语义相似度分析的文档定密方法。对文档进行分词和去停用词之后,对新得到的文档中的词语进行语义概念降维与排歧,使词与词之间达到正交,W便将文本的特征词用更小的特征空间向量进行表示。在此基础之上,提出一种加权的语义相似度K-最近邻算法,实现对中文文本最后的密级分类。该算法首先WHownet为基础,计算文本的语义相似度,并在该相似度的基础上加入了文本特征词的频率和逆文档频率(TFIDF值)及特征词在文档中的位置权重作为其权重,最后结合机器学习中的KNN分类算法来对文档的密级进行分类。通过实验发现,加权的语义文本相似度的KNN算法的分类效果比加权之前的基于语义相似度的KNN算法的分类效果好,运算所消耗的时间也较短。
基于定密规则的文档密级确定方法
根据保密法和国家秘密及其密级具体范围的规定及秘密事项细目建立树型结构的定密规则,并根据这些树型结构定密规则构建起各个行业领域的定密规则库,然后匹配待定密文档与定密规则库的定密规则,最终根据匹配结果确定文档的密级。
定密规则库的构建
利用Map这个数据结构的键值对对定密规则进行存储,将定密规则存储为Map的值(value),将规则所对应的密级存储为Map的键(key)。
解析待定密文档
处理中文文本信息的基础性工作和关键性工作是对中文文本进行词法分析,而分词作为对中文文本语法分析和语义分析的起点。
由中国科学院计算技术研究所的张华平先生设计开发出来的NLPIR分词系统,其分词的正确率高达97.58%,未登录词的识别率和召回率均高于90%,其中,对于中国人名的识别召回率可接近98%,其处理文本的速度为31.5Kbytes/s,不难看出,NLPHI分词系统具有很高的实践性和正确性。
NLP化分词系统采用HMM模型,建立切分词图。在对文本词语的粗分阶段,首先通过计算得出N个概率最大的切分词语的结果,然后,利用角色标注的方法识别未登录词,并计算未登录词的概率,在切分词图中加入这些未登录词,在之后的操作中就将这些已经加入切分词图中的未登录词视为普通的词语进行处理,最终对切分标注结果进行动态规划选出N个最大概率切分结果。
密级确定
对定密规则库中的每一条定密规则逐条进行匹配,如果文档中出现了与定密规则中相同的词,我们就把定密规则中的这个词remove掉,最后判断定密规则的值的大小,如果值的大小为1,即value=NU化,我们就判定这个文档的密级为这个value为空的规则所对应的key的值;如果值的大小大于1,则说明这篇文档不符合这条定密规则。
基于加权文本语义相似度的文档密级确定方法
文本分类的定义和过程
文本分类属于有指导的学习,一般可将文本分类分为训练阶段和分类阶段。
文本分类的分类过程一般包括五个步骤:文本预处理、文本表示、特征选择、权重计算、分类算法。文本预处理,主要是指对文本分词、去停用词、文本词频统计等处理过程;文本表示,主要把使用自然语言构成的文本转换成为使计算机能够识别和理解的形式,使计算机在处理文档的时候更加方便,更加容易;特征选择,主要是指从一个文本中提取出一些特别的词语,可W用这些词语来表示这
个文本,通常这些词语在文本中最具代表性,并且对这个文档的分类有重要的贡献;权重计算,主要是指按某种方法计算并赋予特征词相应的权值;分类算法,主要指如何对训练样本集进行训练和学习,并且根据训练和学习的结果,对测试样本中的文本进行准确而有效的分类。
文本分类关键技术简介
(1)文本预处理
为了方便文本分类后续的操作,首先就是要对文本进行预处理,将语料库中原始的文本转化为统一的格式。
1)分词
目前,汉语分词算法一般可W分为W下H个大类:基于字典和词库匹配的机械分词方法、基于知识理解的分词方法以及基于统计的分词方法。
2)去停用词
停用词是指那些在文本中出现次数很多,但是在文本分类方面几乎起不到任何作用的词。
(2)文本表示
向量空间模型将文本简化为向量的形式来进行表示,把文本分类的过程简化为对空间向量的一系列运算。但是,向量空间模型基于的文本特征词之间相互独立的假设存在一些问题,因为模型假设文本的特征词之间是相互独立的、没有先后顺序的,但实际上这些特征词之间并不是独立存在的,特征词之间还存在着同义关系,近似关系等语义方面的联系。
向量空间模型主要两个基本问题;特征词选择和项的权重计算。
(3)特征选择
经过文本的预处理W后,程序就能得到一个由文档中所有词语所组成的文本特征全集。需要对文本中的特征词进行筛选和优化,从原始的特征全集中提取出一个最优的特征子集。
发布时间: 2019-07-23
最后更新: 2019-07-27
本文链接: https://juoyo.github.io/posts/69d5a5fc.html
版权声明: 本作品采用 知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议 进行许可。转载请注明出处!