项目背景:漏洞库中数据来源于多个开源安全厂商平台爬虫获取,获取存在大量无漏洞编号重
复数据需要做去重工作,针对没有漏洞编号的漏洞则不能直接去重,因人工去重成本太大,需借
助 AI 模型来完成。
项目框架:SBERT + Milvus + BERT-Crf
责任描述:
(1) 数据准备:基于内部漏洞数据库打相似度标签,构建训练数据对
(2) 模型训练:采用预训练 SBERT 模型,做安全领域数据 fine-tuning
(3) 向量入库:根据微调模型,编码正样本数据入 Milvus 向量数据库
(4) 阈值去重:文本查询基于相似度阈值召回 top_k 个高相似文本,去重率 73%
(5) 精细去重:优化采用 NER 模型 BERT-Crf 提取实体对比,判断对应实体一致性,去重率
提升至 87.1%