近两年来,在新冠状病毒的侵袭下,各国都在面对巨大的挑战,有的采取封国措施,有的国家经济水平下降,但是我们中国不但保持不下降的经济,还可以说有所进步。我想通过进出口贸易总额分析,知道我们国家这两年,面对疫情的困难下,进出口总额与之前对比,通过数据可视化看出我们国家进出口总额的近年来的差别。
(二)、主题式网络爬虫设计方案
1.主题式网络爬虫名称
国内进出口贸易总额爬虫分析
爬取该网站的国内进出口贸易总额以及对当月进出口额的金额(亿美元)、同比增长、环比增长以及累计进出口额的金额(亿美元)、同比增长的分析。
3.主题式网络爬虫设计方案概述(包括实现思路与技术难点)
爬取当前网站的国内进出口贸易总额以及对当月进出口额的金额(亿美元)、同比增长、环比增长以及累计进出口额的金额(亿美元)、同比增长的分析,并找到该标签下的链接进行跳转爬取下一个页面的有关数据,再数据清洗,数据可视化。
在对页面标签的再爬取采取的循化爬取会因为数据的切片问题导致出错、对数据进行清洗和处理、对可用数据的可视化处理。
具体的思路和分析通过下列代码与图片展示。
(三)、主题页面的结构特征分析
1.主题页面的结构与特征分析
2.Htmls页面解析
在第一个图中我们可以发现我们需要找到进出口贸易总额,然后在往下面找,第二张图片我们可以发现我们所需要爬取的数据位于tobody标签的tr中,前两行是小标题,到第三行开始为2021年11月的具体进出口贸易总额(亿美元)、同比增长、环比增长的数据,以此类推10月9月......
3.节点(标签)查找方法与遍历方法
用双循环遍历tr标签。再遍历tr标签下的td标签取出数据。
(四)、网络爬虫程序设计
爬虫程序主体要包括以下各部分,要附源代码及较详细注释,并在每部分程序后
面提供输出结果的截图。
1.数据爬取与采集
2.对数据进行清洗和处理
3.数据分析与可视化(例如:数据柱形图、直方图、散点图、盒图、分布图)
量之间的回归方程(一元或多元)。
6.数据持久化
7.将以上各部分的代码汇总,附上完整程序代码
(五)、总结(10分)
1.经过对主题数据的分析与可视化,可以得到哪些结论?是否达到预期的目标?
结论:(1)近年来,所受疫情影响进出口贸易总额总体变化幅度不是特别大。
(2)总体来说,我们国家出口总金额大于进口总总额,总支出小于总收入。
(3)我们国家进出口贸易不断在提高。
达到预期目标
2.在完成此设计过程中,得到哪些收获?以及要改进的建议?
在此次设计过程种我对数据处理种的数据筛出有了很大的收获,对爬虫知识更加了解,就是怎么进行类型转换,然后达到自己的想要的效果。