人工智能 | 某企业舆情信息情感属性分类数据处理
人工智能 | 某企业舆情信息情感属性分类数据处理
人工智能 | 某企业舆情信息情感属性分类数据处理
人工智能 | 某企业舆情信息情感属性分类数据处理

人工智能 | 某企业舆情信息情感属性分类数据处理

其他关键技术2022年10月-2023年01月¥150000.00系统框架
店铺头像
山东众志电子有限公司
客户信息
客户图标 个人客户

为了对具有重要影响力的敏感企业进行舆情监控,实时掌握这些企业的公众形象和舆论动态,评估企业的社会影响和潜在风险,部署了一套基于Python的爬虫系统。

案例介绍
案例背景

为了对具有重要影响力的敏感企业进行舆情监控。实时掌握这些企业的公众形象和舆论动态。该部门部署了一套基于Python的爬虫系统。该系统能够定期自动访问目标网站,抓取与这些企业相关的新闻报道、社交媒体帖子和其他网络内容。抓取到的数据经过预处理和清洗,以去除无关信息和噪声。随后,数据被送入情感分析模块,该模块利用自然语言处理技术对文本内容进行情感分类,从而计算出每个企业的正面评价比例(好评率)和媒体关注度(媒体指数)。这些指标作为企业舆情打分的重要组成部分,对评估企业的社会影响和潜在风险,提供支持。

亮点介绍

1. 加载情感词典。从数据库读取企业爬虫数据,同时读取已有的情感词典(包括正向情感词和负向情感词)、否定词词典和程度副词词典作为全局变量。
2.确定分类范围。利用文本得分划分文本情感属性,正向、负向或者中立。 观察得分,发现0分并不是合理的正负分界线,于是将分类问题抽象成最优化问题,即寻找最优的中立分数的上下限,使所得的分类与已知分类相比正确率最高。而得到这个范围之后,即可应用到其它文本的分类标准。 可行域根据样本分数确定,如根据排序后分数合理百分比的中间段数据的极差确定,此处下限可行域为(-2,4),上限可行域为(-1,6)。目标函数为分类正确率。如果新上下限的正确率高于旧上下限,则更新上下限。 得到中立上限为3.7分,中立下限为-1分,正确率为86.24%。

成果展示


主页