公司需要创建一个数据库系统,这是其中的一个。需要在该网站的多个产品中采集它们的详细信息。但每个产品的信息格式不一样,所以需要后期进行数据转换,数据提取,数据清洗等工作,最后按照标准数据的要求输出。该数据库还必须和另一个数据库关联,所有还需要新建一个字段,通过这个字段和另一个数据库建立关联。
该项目涉及多项数据操作处理技术,比如爬虫软件的循环翻页多页数据采集。采集到的数据量太大,最后必须通过编程批量处理海量数据,包括数据格式转换,字段内容的提取,数据清洗等工作。最后还涉及Mysql数据库的关联关系的创建。
这是采集并标准化的数据。数据库关联是通过生成字段关联关系。
对部分数据进行可视化分析对比