第一步采集网址规则 =起始网址= 就是所有列表页链接 如果你的目标站列表页只有1页,选择[单条网址],填好,点击[添加]就行了 如果你的目标站列表页有很多页,选择[批量/多页] http:// www .whgfd.com/news/3/l http:// www .whgfd.com/news/3/2 ... http ://www .whqfd.com/news/ 3/88 http://www .whqfd.com/news/3/(*) 等差数列从l开始到88 我现在做示范,就采集3页试试所以填3,如果你们要采集全部的话,填尾页 =多级网址抉获取= 就是获取每个列表页的每一个文档链接 [从选定区域中提取网址] 从 到 借助浏览器F12查看列表页的数据列表部分(不包含分页条代码),找唯一 现在这个目标站是很多页的,每页都是最后一个数字变化而已,所以我们在格式这里填 [必须包含] 就是每个文档的链接规律,比如这个目标站的是.html 列表页如果有缩略图,推荐选择【手动填写链接规则】,这样才能准确采集到对应缩略图 [手动填写链接规则] 找每个文档块里面即有文档链接又有缩略图的代码,并且要唯一 防止出现空格问题,用*号替换多余的代码 「参数]就是文裆链接 实际链接要绝对路径,如果目标站是/a/web/123.html要补齐http://目标站域名/[参数1] 现在这个目标站是绝对路径,所以不需要补 [测试网址采集] 如果有的文档可以正常获取缩略图,有的还有一堆代码,那是因为没有做到唯一 像这样是正常的了。l 第二步采集内容规则 根据列表页采集到的某一个文档链接 开始写内容页规则 从页面看这里只有标题和时间和文档内容 找I唯一 [标题] 记得公选不能为空,没标题的不入库 [内容] 勾选补齐绝对路径,方便织梦程序自动帮你下载远程图片到你网站里 [时间] 尽量去掉全部html代码,只要时间 [宿略图] 第三步发布内容设置 =web发布配置管理= 先设置好发布模块,发布字段与任务内容规则标签对应上,任务上没有的清空 三启用方式一web在线发布到网站= 添加发布模块,获取列表 =发布方式三 倒序发布 第四步文件保存及部分高级设置 1 1 1个个采集1个个发布,要顺序一致就这样设置,不要一致的话,随便来。 最后一步,勾上3个,开始采集和入库。| 如果目标站是相对路径的/uploads/123.jpg,也要加上域名,这个目标站不是相对路径,所以不用加 |
|Archiver|手机版|小黑屋| 口子屋小站-分享个人经验和笔记的博客 ( 京ICP备17003237号-5 )
GMT+8, 2025-1-8 23:07 , Processed in 0.032723 second(s), 15 queries .