提供两种方法获取div下第一个或最后一个a标签的内容:实例演示如下:1、HTML结构2、jQuery代码3、效果演示
方法/步骤:
1.
首先在html里,我们创建二个input元素,一个有id属性,一个有name属性。然后再添加一个button按钮来触发获取事件。
2.
在javascript脚本里,我们直接使用js内置的函数document.getElementById就可以了,参数就是我们要获取元素的id。
3.
得到这个元素后,我们就可以获取这些元素的一些值了,比如value值,通过alert来弹出验证一下。
4.
运行页面,点击页面上的按钮,
5.
点击后,就可以得到结果,弹出了这个id元素的value值了。
同样,要通过name来获取元素,我们可以使用getElementsByName这个函数。但通过这个函数获取到的元素,不能直接取他的值,不然是取不到的。
采集器在处理采集任务中,最重要的三部分是:网页下载、翻页、数据解析。其中各部分处理中需要注意的事项如下:
1. 翻页
在大批量数据采集中,不建议设置翻页。主要是翻页信息的维护比较麻烦。为了不漏采数据,可以适度的增加采集频率,来弥补未翻页带来的影响。
2. 标题
标题一般使用采集URL地址时A标签的值。然后在正文解析时进行二次校验,来纠正标题可能存在的错误。
3. 发布时间处理
发布时间解析难免会出问题,但是绝对不能大于当前时间。
一般是清除HTML源码中css样式、JS、注释、meta等信息后,删除HTML标签,取内容中第一个时间作为发布时间。
一般可以统计一些发布时间标识,如:“发布时间:”,“发布日期”等。然后,通过正则表达式,获取该标识前后100个长度的字符串中的时间,作为发布时间。
Copyright © 广州京杭网络科技有限公司 2005-2024 版权所有 粤ICP备16019765号
广州京杭网络科技有限公司 版权所有