渗透阶段,识别类别主要是隐私类数据,例如地址、技术文档、工作日志等,普通文本规则匹配
无法实现,需采用 NLP 技术来实现。
项目框架:BERT 知识蒸馏+TextCNN
责任描述:
(1) 数据清洗:将收集数据剔除不符合类型数据
(2) 特征处理:做文本数据分词、去停用词、文本切分等特征工程
(3) 数据增强:针对数文本据量少问题,做部分类型数据增强
(4) 模型优化:针对文本分类效果不理想问题,采用大模型 BERT 知识蒸馏到 TextCNN 小模
型,分类 ACC 分数从 78.3%提升至 91.5%