深度解析PDF研报系统

深度解析PDF研报系统

文字处理软件开发2021年01月-2022年10月
店铺头像
庞小锋
案例介绍

深度解析PDF研报,提取结构化内容。

1.解析PDF为包含坐标信息的字符,图片,曲线等。

2.利用字符的坐标特征做聚类分析,字符成行,多行成段。

3.截图文本利用PaddleOCR提取包含相对位置的字符,做聚类分析。

4.最后通过正则匹配对文本提取结构性内容。

研报自动发布,并且保留样式,保证预览效果的同时生产效率大大提高。申报专利。