1、css3新增的超级选择器:属性选择器、结构性伪类选择器、UI元素状态伪类选择器、通用兄弟元素选择器
2、使用选择器在页面中插入文字、图片、项目编号等内容
3、文字阴影与自动换行
4、各类盒模型:总体分为block类型和in line类型,在细分为inline-block类型、inline-table类型、list-item类型、run-in类型、compact类型、表格相关类型、none类型
5、盒模型相关的属性:overflow属性(内容溢出)、box-shadow属性(盒阴影)、box-sizing属性(宽高计算)
6、新增的背景样式backround-clip属性、backround-origin属性、backround-size属性、backround-break属性
7、新增的边框样式:border-radius属性(圆角边框)、border-image属性(图片边框)
8、新增的 transform变形功能:rotate(旋转)、scale(缩放)、skew(倾斜)、translate(移动)
9、新增的动画功能:transition(平滑过渡)、animation(关键帧)
10、布局相关样式:多栏布局、盒布局、弹性盒布局
11、兼容性问题
css选择器优先级核心:每个选择器本身有优先级,作用范围越具体优先级越高。
CSS优先级从高到低分别是:
1.在属性后面使用 !important 会覆盖页面内任何位置定义的元素样式。
2.作为style属性写在元素标签上的内联样式
3.id选择器
4.类选择器
5.伪类选择器
6.属性选择器
7.标签选择器
8.通配符选择器
9.浏览器选择器
当CSS样式的规则由多个选择器组成时,id选择器的权值为1000,class选择器为100,标签选择器为10,按权值求和的记过高低决定哪个优先。当两个css规则的权值相同时,谁更具体用谁,也就是权值高的选择器作用的越具体优先级越高。当两个选择器规则和权值都是一样,后面样式会覆盖前面的!
引用css文件<linkhref="/templets/default/styles/all.css"rel="stylesheet"type="text/css"/>引用JS文件<scripttype="text/javascript"src="/templets/default/js/jquery-1.3.1.min.js"></script>插入>HTML>脚本选择文件
设计原理
webmagic采用完全模块化的设计,功能覆盖整个爬虫的生命周期(链接提取、页面下载、内容抽取、持久化),支持多线程抓取,分布式抓取,并支持自动重试、自定义UA/cookie等功能。
webmagic包含页面抽取功能,开发者可以使用css selector、xpath和正则表达式进行链接和内容的提取,支持多个选择器链式调用。
使用maven
webmagic使用maven管理依赖,在项目中添加对应的依赖即可使用webmagic:
WebMagic 使用slf4j-log4j12作为slf4j的实现.如果你自己定制了slf4j的实现,请在项目中去掉此依赖。
项目结构
webmagic主要包括两个包:
webmagic-corewebmagic核心部分,只包含爬虫基本模块和基本抽取器。webmagic-core的目标是成为网页爬虫的一个教科书般的实现。
webmagic-extensionwebmagic的扩展模块,提供一些更方便的编写爬虫的工具。包括注解格式定义爬虫、JSON、分布式等支持。
webmagic还包含两个可用的扩展包,因为这两个包都依赖了比较重量级的工具,所以从主要包中抽离出来,这些包需要下载源码后自己编译。
Copyright © 广州京杭网络科技有限公司 2005-2024 版权所有 粤ICP备16019765号
广州京杭网络科技有限公司 版权所有