智能漏洞归一化

智能漏洞归一化

自然语言处理2023年07月-2023年10月
店铺头像
宋同庆
案例介绍

项目背景:漏洞库中数据来源于多个开源安全厂商平台爬虫获取,获取存在大量无漏洞编号重

复数据需要做去重工作,针对没有漏洞编号的漏洞则不能直接去重,因人工去重成本太大,需借

助 AI 模型来完成。

项目框架:SBERT + Milvus + BERT-Crf

责任描述:

(1) 数据准备:基于内部漏洞数据库打相似度标签,构建训练数据对

(2) 模型训练:采用预训练 SBERT 模型,做安全领域数据 fine-tuning

(3) 向量入库:根据微调模型,编码正样本数据入 Milvus 向量数据库

(4) 阈值去重:文本查询基于相似度阈值召回 top_k 个高相似文本,去重率 73%

(5) 精细去重:优化采用 NER 模型 BERT-Crf 提取实体对比,判断对应实体一致性,去重率

提升至 87.1%