口子屋

口子屋小站 首页 建站知识 查看内容

火车头采集器规则编写方法

2020-9-17 14:43| 发布者: 口子屋博主| 查看: 1937| 评论: 0

摘要: 第一步采集网址规则=起始网址=就是所有列表页链接如果你的目标站列表页只有1页,选择,填好,点击就行了如果你的目标站列表页有很多页,选择http:// www .whgfd.com/news/3/lhttp:// www .whgfd.com/news/3/2...http ...
第一步采集网址规则
=起始网址=
就是所有列表页链接
如果你的目标站列表页只有1页,选择[单条网址],填好,点击[添加]就行了
如果你的目标站列表页有很多页,选择[批量/多页]
http:// www .whgfd.com/news/3/l
http:// www .whgfd.com/news/3/2
...
http ://www .whqfd.com/news/ 3/88
http://www .whqfd.com/news/3/(*)
等差数列从l开始到88
我现在做示范,就采集3页试试所以填3,如果你们要采集全部的话,填尾页

=多级网址抉获取=
就是获取每个列表页的每一个文档链接
[从选定区域中提取网址]
借助浏览器F12查看列表页的数据列表部分(不包含分页条代码),找唯一
现在这个目标站是很多页的,每页都是最后一个数字变化而已,所以我们在格式这里填
[必须包含]
就是每个文档的链接规律,比如这个目标站的是.html

列表页如果有缩略图,推荐选择【手动填写链接规则】,这样才能准确采集到对应缩略图
[手动填写链接规则]
找每个文档块里面即有文档链接又有缩略图的代码,并且要唯一
防止出现空格问题,用*号替换多余的代码
「参数]就是文裆链接
实际链接要绝对路径,如果目标站是/a/web/123.html要补齐http://目标站域名/[参数1]
现在这个目标站是绝对路径,所以不需要补
[测试网址采集]
如果有的文档可以正常获取缩略图,有的还有一堆代码,那是因为没有做到唯一

像这样是正常的了。l


第二步采集内容规则
根据列表页采集到的某一个文档链接
开始写内容页规则
从页面看这里只有标题和时间和文档内容
找I唯一
[标题]
记得公选不能为空,没标题的不入库
[内容]
勾选补齐绝对路径,方便织梦程序自动帮你下载远程图片到你网站里
[时间]
尽量去掉全部html代码,只要时间
[宿略图]
如果目标站是相对路径的/uploads/123.jpg,也要加上域名,这个目标站不是相对路径,所以不用加

第三步发布内容设置
=web发布配置管理=
先设置好发布模块,发布字段与任务内容规则标签对应上,任务上没有的清空
三启用方式一web在线发布到网站=
添加发布模块,获取列表
=发布方式三
倒序发布

第四步文件保存及部分高级设置
1
1
1个个采集1个个发布,要顺序一致就这样设置,不要一致的话,随便来。
最后一步,勾上3个,开始采集和入库。|
如果目标站是相对路径的/uploads/123.jpg,也要加上域名,这个目标站不是相对路径,所以不用加


路过

雷人

握手

鲜花

鸡蛋

最新评论

相关分类

QQ|Archiver|手机版|小黑屋| 口子屋小站-分享个人经验和笔记的博客 ( 京ICP备17003237号-5 )

GMT+8, 2025-1-8 23:07 , Processed in 0.032723 second(s), 15 queries .

Powered by Discuz! X3.4

© 2015-2016 网站地图如有冒犯请即时告知站长邮箱: 1451074562@qq.com

返回顶部