这里介绍一种简单的方式—BeautifulSoup,利用BeautifulSoup将爬虫获取到的html页面转化为树形结构,然后再根据需要提取标签的内容及属性,不需要正则表达式,下面我简单介绍一下BeautifulSoup安装和使用,实验环境win10+python3.6+pycharm5.0,主要内容如下:
1.安装bs4,这里直接在cmd窗口输入命令“pip install bs4”就行,如下,很快就能安装完毕:
2.安装成功后,我们就可以进行测试了,为了更好地说明问题,这里假设爬取的数据如下,内容比较简单:
对应的网页源码结构如下:
根据网页结构,解析代码如下,这里我是本地打开html文件,爬虫的话,直接使用requests请求对应的页面(requests.get(url)),解析的方式是一样的:
程序运行截图如下,已经成功获取到数据:
至此,我们就完成了利用BeautifulSoup来解析网页内容,整个过程不需要正则表达式。总的来说,这种方式很简单,对于常见的简单的页面来说,完全够用了(不过,正则表达式的使用范围比较广,建议还是认真学习一下),网上也有相关教程和资料,感兴趣的可以搜一下,希望以上分享的内容能对你有所帮助吧。
css选择器的类型分为3类:标记选择器、类别选择器和ID选择器。
(可能名称有不同的说法,但意思都是一样的) 标记选择器是利用HTML的标记直接定义标记内容的样式,如:h1{ color:red; font-size:25pt;} 类别选择器是通常说的class选择器,定义的时候要在名称前加.如:.one{ color:red; font-size:25pt;} ID选择器定义的时候要在前面加#,如:#box { color:red; font-size:25pt;} 利用DW写CSS的时候,高级就是上面说的ID选择器,ID选择器的名字可以任意命名,可以自己定义,可是标签就只能是HTML语言里制定的那些标记,不能自己定义。css中用通配符代表所有元素。
通配符使用星号*表示,意思是“所有的”。
平时使用电脑,比如要搜索C盘里所有的网页,可以使用 *.html来搜索,.html是网页的后缀名,*代表了所有网页的名称;
也就是使用 * 加后缀名,就可以在电脑中搜索文件。
在CSS中,同样使用 * 代表所有的标签或元素,它叫做通配符选择器。
比如:* { color : red; } 这里就把所有元素的字体设置为红色。
*会匹配所有的元素,因此针对所有元素的设置可以使用*来完成,用的最多的例子如下:
*{margin:0px; padding:0px;}
这里是设置所有元素的外边距margin和内边距padding都为0。
不过,由于*会匹配所有的元素,这样会影响网页渲染的时间,因此很多人开始停止使用*通配符选择器,取而代之的是,把所有需要统一设置的元素,放在一起,一块设置。
css后代选择器和子选择器的区别介绍:
1 css后代选择器语法:h1 em {color:red;} 表示的是从h1开始里面包含的所有的em元素变成红色,h1为祖先,其他的em都是后代,即选中后代,不管是儿子还是孙子,只要是都会被选中,为后代选择器。2、css子元素选择器语法:h1>em{color:red;} 表示的是从h1开始里面的第一层em元素变成红色,h1为祖先,em为儿子,就像世袭制一样,只能传给儿子,孙子和其他堂亲都不行
Copyright © 广州京杭网络科技有限公司 2005-2025 版权所有 粤ICP备16019765号
广州京杭网络科技有限公司 版权所有