智能漏洞归一化

自然语言处理2023年07月-2023年10月

案例介绍

项目背景：漏洞库中数据来源于多个开源安全厂商平台爬虫获取，获取存在大量无漏洞编号重

复数据需要做去重工作，针对没有漏洞编号的漏洞则不能直接去重，因人工去重成本太大，需借

助 AI 模型来完成。

项目框架：SBERT + Milvus + BERT-Crf

责任描述：

(1) 数据准备：基于内部漏洞数据库打相似度标签，构建训练数据对

(2) 模型训练：采用预训练 SBERT 模型，做安全领域数据 fine-tuning

(3) 向量入库：根据微调模型，编码正样本数据入 Milvus 向量数据库

(4) 阈值去重：文本查询基于相似度阈值召回 top_k 个高相似文本，去重率 73%

(5) 精细去重：优化采用 NER 模型 BERT-Crf 提取实体对比，判断对应实体一致性，去重率

提升至 87.1%