军队 zcx 项目文本分类

军队 zcx 项目文本分类

自然语言处理2023年01月-2023年07月
店铺头像
宋同庆
案例介绍

渗透阶段,识别类别主要是隐私类数据,例如地址、技术文档、工作日志等,普通文本规则匹配

无法实现,需采用 NLP 技术来实现。

项目框架:BERT 知识蒸馏+TextCNN

责任描述:

(1) 数据清洗:将收集数据剔除不符合类型数据

(2) 特征处理:做文本数据分词、去停用词、文本切分等特征工程

(3) 数据增强:针对数文本据量少问题,做部分类型数据增强

(4) 模型优化:针对文本分类效果不理想问题,采用大模型 BERT 知识蒸馏到 TextCNN 小模

型,分类 ACC 分数从 78.3%提升至 91.5%