采用基于词激活力的文档语义网络来计算文档相似度,并最终确定文档密级。
首先,论文研究了基于领域关键词对文档进行分词并进行向量化表示方法;其次,基于词激活力构建文档的语义网络,为文档的向量化表示模型增加语义层特征;再次,W文档的增强型向量表示为基础,计算待定密文档与已定密样本文档的相似性;最后基于文本相似度确定待定密文档的密级。
文档命名实体识别
命名实体是指从文本中识别具有特定语义含义的实体。
命名实体识别的任务就是识别出待处理文本中3大类(实体类、时间类和数字类)、7小类(人名、机构名、地名、时间、日期、货币和百分比)命名实体
命名实体识别的主要技术方法分为3种:基于规则和词典的方法、基于统计的方法、二者混合的方法。
基于词激活力的涉密文档相似度计算方法
本文作者:
Yao Zhu
发布时间: 2019-07-22
最后更新: 2019-07-22
本文链接: https://juoyo.github.io/posts/300234ae.html
版权声明: 本作品采用 知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议 进行许可。转载请注明出处!
发布时间: 2019-07-22
最后更新: 2019-07-22
本文链接: https://juoyo.github.io/posts/300234ae.html
版权声明: 本作品采用 知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议 进行许可。转载请注明出处!