风变编程笔记(二)Python爬虫精进牡蛎君

因为百度很好地遵守了淘宝网的robots.txt协议,自然,你在百度中也查不到淘宝网的具体商品信息了

【网页头】中的编码是没办法在网页中直接被看到的,标签页的内容也不属于网页的正文而元素中,即【网页体】,就是那些能看到的显示在网页中的内容了

网页体中依次有四个内容:

元素代表一级标题,对应网页中的“豆瓣2019年度电影榜单”;

元素代表三级标题,对应网页中的“评分最高华语电影”;

元素代表二级标题,对应网页中的“《少年的你》”;然后是

元素,对应网页中“根据玖月晞小说......的故事”这一整段文本5.属性HTML标签可以通过设置【属性】来为HTML元素描述更多的信息

text获取到的是该标签内的纯文本信息,即便是在它的子标签内,也能拿得到。但提取属性的值,只能提取该标签本身的在爬豆瓣的时候遇到status_code为418的情况,解决办法是在request.get()时加个头安装fake-useragent模块,在终端输入pip3installfake-useragent

importrequestsfromfake_useragentimportUserAgentua=UserAgent()#实例化headers={'User-Agent':ua.random}#也可以是ua.ie,ua.chrome,ua.safari等res=requests.get(url,headers=headers)quote()实现url编码↓

fromurllib.requestimportquote,unquote#quote()函数,可以把内容转为标准的url格式,作为网址的一部分打开print(quote('海边的卡夫卡'))#》》E6%B5%B7%E8%BE%B9%E7%9A%84%E5%8D%A1%E5%A4%AB%E5%8D%A1#unquote()函数,可以转换回编码前数据print(unquote('%E6%B5%B7%E8%BE%B9%E7%9A%84%E5%8D%A1%E5%A4%AB%E5%8D%A1'))#》》海边的卡夫卡也可以↓

可以看到变化的是这个p参数,第1页XHR的参数p值为1,第2、3页XHR的参数p值则为2和3,说明在这个client_search_cp..的请求中,代表页码的参数是p(page的缩写)通过循环变更链接中的p参数就可以拿到更多歌曲信息,但这样的代码不够优雅事实上,requests模块里的requests.get()提供了一个参数叫params,可以用字典的形式,把参数传进去所以可以把QueryStringParameters里的内容,直接复制下来,封装为一个字典,传递给params。只是有一点要特别注意:要给他们打引号,让它们变字符串

a='你\\n好\\n么\\n'b=a.replace('\\n','\n')print(a)#》》你\n好\n么\nprint(b)#》》你#》》好#》》么replace()是字符串对象的一个方法,它的意思是,把第一个参数的字符串用第二个参数的字符串替代

常用的存储数据的方式有两种——存储成csv格式文件、存储成Excel文件csv是一种字符串文件的格式,它组织数据的语法就是在字符串之间加分隔符——行与行之间是加换行符,同行字符之间是加逗号分隔它可以用任意的文本编辑器打开(如记事本),也可以用Excel打开,还可以通过Excel把文件另存为csv格式(因为Excel支持csv格式文件)

一个Excel文档也称为一个工作薄(workbook),每个工作薄里可以有多个工作表(worksheet),当前打开的工作表又叫活动表每个工作表里有行和列,特定的行与列相交的方格称为单元格(cell),比如上图第A列和第1行相交的方格可以直接表示为A1单元格openpyxl模块需要安装,mac电脑在终端输入命令:pip3installopenpyxl

Excel读取↓

获取到了字符串格式的网页源代码之后,就可以用BeautifulSoup解析和提取数据了4.自动操作浏览器

1.schedule通过第三方库schedule实现定时功能标准库一般意味着最原始最基础的功能,第三方库很多是去调用标准库中封装好了的操作函数。比如schedule,就是用time和datetime来实现的对于定时功能,time和datetime当然能实现,但操作逻辑会相对复杂,而schedule可以直接解决定时功能,代码比较简单schedule需要先安装,mac电脑在终端输入:pip3installschedule

importscheduleimporttimedefjob():print("I'mworking...")schedule.every(10).minutes.do(job)#部署每10分钟执行一次job()函数的任务schedule.every().hour.do(job)#部署每×小时执行一次job()函数的任务schedule.every().day.at("10:30").do(job)#部署在每天的10:30执行job()函数的任务schedule.every().monday.do(job)#部署每个星期一执行job()函数的任务schedule.every().wednesday.at("13:15").do(job)#部署每周三的13:15执行函数的任务whileTrue:schedule.run_pending()time.sleep(1)2.定时发送天气情况

importscrapyimportbs4导入scrapy是待会要用创建类的方式写这个爬虫,所创建的类将直接继承scrapy中的scrapy.Spider类。这样,有许多好用属性和方法,就能够直接使用在Scrapy中,每个爬虫的代码结构基本都如下所示↓

importscrapy#导入scrapyclassDoubanItem(scrapy.Item):#定义一个类DoubanItem,它继承自scrapy.Itemtitle=scrapy.Field()#定义书名的数据属性publish=scrapy.Field()#定义出版信息的数据属性score=scrapy.Field()#定义评分的数据属性导入了scrapy,目的是,等会所创建的类将直接继承scrapy中的scrapy.Item类。这样,有许多好用属性和方法,就能够直接使用。比如到后面,引擎能将item类的对象发给ItemPipeline(数据管道)处理然后定义了一个DoubanItem类,它继承自scrapy.Item类之后的代码是定义了书名、出版信息和评分三种数据。scrapy.Field()这句代码实现的是,让数据能以类似字典的形式记录。举例看下↓

importscrapy#导入scrapyclassDoubanItem(scrapy.Item):#定义一个类DoubanItem,它继承自scrapy.Itemtitle=scrapy.Field()#定义书名的数据属性publish=scrapy.Field()#定义出版信息的数据属性score=scrapy.Field()#定义评分的数据属性book=DoubanItem()#实例化一个DoubanItem对象book['title']='海边的卡夫卡'book['publish']='[日]村上春树/林少华/上海译文出版社/2003'book['score']='8.1'print(book)print(type(book))#》》{'publish':'[日]村上春树/林少华/上海译文出版社/2003',#》》'score':'8.1',#》》'title':'海边的卡夫卡'}#》》会看到打印出来的结果的确和字典非常相像,但它却并不是dict,它的数据类型是DoubanItem,属于“自定义的Python字典”。可以利用类似上述代码的样式,去重新写top250.py

importscrapyclassJobuiItem(scrapy.Item):#定义了一个继承自scrapy.Item的JobuiItem类company=scrapy.Field()#定义公司名称的数据属性position=scrapy.Field()#定义职位名称的数据属性address=scrapy.Field()#定义工作地点的数据属性detail=scrapy.Field()#定义招聘要求的数据属性5.创建和编写spiders文件在spiders文件夹下创建爬虫文件,命名为jobui_jobs.py在Scrapy里,获取网页源代码这件事儿,会由引擎分配给下载器去做,不需要自己处理。之所以要构造新的requests对象,是为了告诉引擎,新的请求需要传入什么参数,这样才能让引擎拿到的是正确requests对象,交给下载器处理构造了新的requests对象,就得定义与之匹配的用来处理response的新方法。这样才能提取出想要的招聘信息的数据

FEED_URI='./storage/data/%(name)s.csv'FEED_FORMAT='CSV'FEED_EXPORT_ENCODING='utf-8'FEED_URI是导出文件的路径。'./storage/data/%(name)s.csv',就是把存储的文件放到与scrapy.cfg文件同级的storage文件夹的data子文件夹里FEED_FORMAT是导出数据格式,写CSV就能得到CSV格式FEED_EXPORT_ENCODING是导出文件编码,utf-8是用在mac电脑上的编码格式,写ansi是一种在windows上的编码格式存储成Excel文件的方法,需要先在settings.py里设置启用ITEM_PIPELINES,设置方法只要取消ITEM_PIPELINES的注释(删掉#)

THE END
1.13.三级安全教育厂级教育内容33、工作前“一想、二查、三严”的具体内容是什么? 答:一想当天的生产作业中有哪些安全问题,可能会发生什么事故,怎样预防。 二查工作场所所使用的机器、设备、工具、材料是否符合安全要求,上道工序有无事故隐患,如何排除,还要检查一下本岗位操作是否会影响周围的人身安全,如何防范。 http://www.360doc.com/document/22/0411/23/78818870_1026072233.shtml
2.食品机械设备网机器人电缆 采购数量1套 还剩6天 查看详情 即时采购更多 化妆品 191***690 山东***究院 150***013 安徽***制品 152***073 南通***公司 188***479 粒上皇 130***088 六红食品 134***248 六红食品 134***248 六红食品 134***248 石家***公司 188***826 西安***公司 188***086产品商...https://www.foodjx.com/
3.2015年天津科技大学考研大纲及参考书目校命题科目代码:262科目名称:德语二外 复习大纲 一、考查要点: 1.词汇和语法 1.1掌握德语基本词汇与短语2000个左右。 1.2掌握《大学德语》修订版第一、二册中所涉及的名词变格、动词变位、动词时态、语态等基本语法知识并能在阅读和写作中综合运用这些知识。 https://yz.kaoyan.com/tuli/dagang/542786c6aab92.html
1.教科版六年级科学上册知识点总结(精选11篇)9、能量有电能、热能、光能、声能等不同的形式。、10、和运动有关的物体具有的能量叫机械能。燃料、食物和一些化学物质中储存的能量叫做化学能。 11、所有的用电器都是一个电能的转化器,能够把输入的电能转化成其他形式的能。用电器名称 输入的能量形式 输出的能量形式 电灯 电能 光、(热)电视机 电能 光、声、...https://www.360wenmi.com/f/filembltp8xv.html
2.AirProce简介最新艾泊斯AI-730空气净化器主打医用级长效零颗粒环境市场,采用世界顶级的双重滤网结构,底层过滤网采用F7等级过滤网,过滤大颗粒及大部分PM2.5,可保证顶级德国EBMpapst风机在一个干净的工作环境中长久稳定工作,而顶层过滤网采用H13医用级HEPA过滤网,结合塔式结构良好的密封性、气流循环及风道结构,可实现对0.3微米颗粒物大于99....https://www.airproce.com/content.html
3.食品加工机械与设备课件20240306.pptx机械名称零部件名称材料过滤机和面机冰淇淋机磨浆机上、下盖搅拌轴、料桶料斗支承座主轴1Cr18Ni9Ti1Cr18Ni9Ti1Cr18Ni9TiZG1Cr133Cr13 三、钢铁材料 钢铁材料在耐磨、耐疲劳、耐冲击力等方面有独特的优越性。仍大量地应用于食品制粉、制面、膨化机械等。钢材主要用于食品机械的结构件。铸铁用得最多的是灰口铸铁,用在机座...https://m.renrendoc.com/paper/316027642.html
4.七年级下册生物考试复习知识点③胃(主要作用:暂存食物、也可消化和吸收)。 ④小肠(起始部分称为十二指肠):(作用:进行消化和吸收的主要场所)。 ⑤大肠(起始部分叫盲肠,其上有阑尾,末端叫直肠):形成粪便,也可吸收少量营养。 七年级下册生物考试复习知识点 2 1、人体的八个系统名称和功能P15—17 ...https://www.oh100.com/shengwu/1425463.html?hrtk=123456789
5.长春大学旅游学院后勤服务中心管理制度1.处理食物前; 2.上厕所后; 3.处理弄污的设备或饮食用具后; 4.咳嗽、打喷嚏或擤鼻涕后; 5.处理动物或废物后; 6.从事任何可能会污染双手的活动后。 (十)、销售人员必须配戴口罩,每天按时到岗,做好售餐准备。每天每餐保证正点开饭,无特殊情况不准误点。不得用手直接接触食品,出售食品必须使用专用工具。 https://www.tccu.edu.cn/hqz/2020/1024/c1272a27191/page.htm
6.员工安全知识培训试题8篇(全文)②不应有可能被转动的机器绞住的部分; ③女工在生产中不能传拖鞋、凉鞋、高跟鞋、裙子,长发和辫子必须放进工作帽内; ④接触高温和危险化学品应戴手套和专用的防护用品。 4、5、过滤式防毒面具的使用条件是什么?(6分) ①空气中氧气浓度不低于是18%; ...https://www.99xueshu.com/w/file5biw5wsg.html
7.大班科学《食物的旅行》教案(通用15篇)作为一名为他人授业解惑的教育工作者,编写教案是必不可少的,教案是教学蓝图,可以有效提高教学效率。那么问题来了,教案应该怎么写?下面是小编为大家收集的大班科学《食物的旅行》教案,欢迎阅读与收藏。 大班科学《食物的旅行》教案 篇1 活动目的: 1、认识人体各个消化器官的名称、功能和消化过程。 https://www.jy135.com/ziyuan/jiaoan/688419.html
8.消化系统的科普——《肠子的小心思》读书笔记一、当食物吞进去 1、没有感觉 1、体验 在我们的身体里,也有着这样的邻居,明明在那里,你却意识不到。比如每天辛勤工作的各个脏器,你会想到它们、感觉到它们吗?第一口蛋糕的滋味,在嘴里时还很明显,刚吞下喉咙的时候也还能感觉到,然后就“哗”一下什么都感觉不到了,好像突然消失在了另一个世界。医学上把这“...https://www.jianshu.com/p/b3de3421be4f
9.英伟达「黄仁勋」的10大名言:每句都是真智慧“无论是什么,像我们一样全力以赴去追求、跑吧!不要慢慢走。不论是为了食物而奔跑,或不被他人当做食物而奔跑。你往往无法知道自己正处在哪一种情况,但无论如何,都要保持奔跑。” “期望太高的人,往往复原力很低。很不幸的,韧性对于成功来说至关重要。」” ...https://www.eet-china.com/mp/a362407.html
10.食品检测器新闻项目编号:HCZB-2022-ZB0348项目名称:中国食品药品检定研究院2022年度专项仪器设备购置项目第五批(第二次)预算金额:1144.0000000 万元(人民币)最高限价(如有):1144.0000000 万元(人民币)采购需求:包号序号预算(万元)最高限价(万元)标的名称数量(台)是否接受进口产品是否免税是否为核心产品第一包1629.00629.00超高效液相...https://www.instrument.com.cn/zhuti/111645/news.html
11.SQL教程:执行顺序经典SQL语句高频SQL只有使<having_condition> 为 true 的组才会被插入 VT7。HAVING 语句在SQL中的主要作用与WHERE语句作用是相同的,但是HAVING是过滤聚合值,在 SQL 中增加 HAVING 子句原因就是,WHERE 关键字无法与聚合函数一起使用,HAVING子句主要和GROUP BY子句配合使用。https://blog.csdn.net/freeking101/article/details/75540982
12.食品加工包装在线从传统草药到超级食物,领略Curcumin C3 Complex? 姜黄的风采 2023-11-24 共话科学体重管理,赋能健康产业升级 2023-11-23 小分子褐藻糖胶于异位性皮肤炎之人体临床研究 2023-11-08 热门资讯 地龙蛋白肽:天然保健成分与其独特的健康益处 果蔬酵素粉:健康饮食的新选择与应用前景 罗汉果浓缩汁:天然甜味的健...https://www.sjgle.com/
13.二十年后的家乡想象作文(通用51篇)走进房内,你会发现空空荡荡,看起来什么都没有。但只要喊一声你想要的家具名称,这些家具就会立刻出现在你面前。床可以根据你的体温调节温度,沙发可以通过你肌肉的疲惫程度调节软硬和曲度,食品柜能够自动根据你的口味和喜好自动订购你喜欢的水果和蔬菜。每人都拥有一个适合你性格的家居机器人,比如说你脾气暴躁,它就会...https://www.unjs.com/zuowenku/186464.html
14.以科技为话题的作文(通用61篇)C区的功能十分广泛。C区连接着互联网,可以进入电子商场,去购买需要的商品。还可以进入机器人厨房,用电视点菜,然后静静地看电视,等待着食物的出现。方便了生活,而且手指动一动,就可以买到东西,实在是太方便了。 这就是多功能电视机。 以科技为话题的作文 12 ...https://www.fwsir.com/fanwen/html/fanwen_20220427130807_1767144.html
15.食品专业实习报告(精选21篇)首先,通过实习看到了一些曾经只在书本上看到的机器及生产过程,我相信这对课本知识的学习和把握是很重要的,能让我及时的消化所学的知识。其次,实习让我真正体会到了食品工厂的生活,知道了员工在干什么,食品专业的毕业生在干什么,也想到自己以后怎样去工作。第三,实习让我对食品行业更加了解,让我真正树立起了自己的...https://www.ruiwen.com/word/shipinzhuanyeshixibaogao.html
16.食品安全主题班会(通用16篇)[小组报告:主要是市场、超市、商场、餐厅和街边小摊(学生们主要谈论以下几个方面:①放烤羊肉串和香肠的桌子又黑又脏,食物被苍蝇叮咬,满是灰尘。②制作棉花糖的机器里满是污垢,不时会有脏东西掉进去。卖家也很脏,根本不注意卫生。③袋装食品没有明确的产地和商标,有些已经过期。有些大米厨房的卫生很差 ...https://www.yjbys.com/cehuashu/zhutibanhui/3349950.html
17.《利用Python进行数据分析·第2版》第14章数据分析案例14.1来自...该操作产生了另一个DataFrame,其内容为电影平均得分,行标为电影名称(索引),列标为性别。现在,我打算过滤掉评分数据不够250条的电影(随便选的一个数字)。为了达到这个目的,我先对title进行分组,然后利用size()得到一个含有各电影分组大小的Series对象: 代码语言:javascript 复制 In [78]: ratings_by_title = data...https://cloud.tencent.com/developer/inventory/1681/article/1106651