一、数据分页设置页简介

1、说明

我们经常遇到一些网站在显示文章内容时,将内容分成了几个页面来显示,我们需要翻页才能依次阅览全部内容,当我们采集这类网站的文章时,就需要使用数据分页;在ET中,我们可以从两种分页方式中选择其一来采集分页,分别是‘采集方式’和‘逻辑方式’,[数据分页-采集方式设置页]见图示1:


(图示1:采集方式数据分页)

 

数据项从所属采集页(即第一个分页)源代码中用数据项采集规则分析获取内容,然后分别从每一个分页源代码中单独用数据项采集规则分析获取内容 ,这些内容将依顺序合并,并以[内容分隔]标记 “ #-0-# ” 分隔;

当访问分页失败时,不中断对该篇文章的采集;

 

注:在2.4版以前,分页仅对正文数据项有效,从2.4版开始,各个数据项都可以从分页中获取内容了。

在2.4版以前,是先将全部分页源代码依次合并后,再用数据项采集规则分析获取内容;2.4版开始,是先单独从每个分页源代码中用数据项采集规则分析获取内容后,再将获取的各个内容按顺序合并。因此,2.4版之前使用了正文分页功能的采集规则,在升级到2.4版后可能会存在兼容问题,需要调整。

 

 

二、启用采集方式

采集方式是指通过预设的分页规则从数据分页所属采集页的源代码中用分析规则获取分页网址的方式,这种方式设置上比逻辑方式复杂一些,但适用范围更广,见图示1;

采集方式从数据分页所属采集页开始,依次提取每一个分页源代码中符合分页规则的非重复分页网址,这对于未在起始分页中显示全部分页网址的网站,也能采集到全部分页;

 

要使用采集方式获取分页,请勾选[使用采集方式],见图示2:


(图示2)

数据分页是做为某一个采集页的分页存在的,而该采集页,就是第一个分页,例如一篇文章的内容页显示为多个分页,一件商品的评论页显示为多个分页,因此需要设置数据分页属于哪一个采集页,见图示2;

 

为避免用户错误的配置导致分页采集陷入死循环,ET提供了最大分页数设置项,用以指定使用采集方式能采集的分页数量上限,分页数上限为2000,见图示3。

 

 

三、分页区域规则

1、说明

[分页区域规则]用于指定包含分页网址的代码段,起到缩小并准确定位分页网址的分析范围的作用,见图示3:



(图示3)

 

[分页区域规则]可以选填,当此项留空时将以整个[正文]数据项所属的页面的源代码为分页网址分析对象,填写本项后,将以本项中区域标记<%content%>所表示的源码作为分页网址分析对象;

点击 图标,可以对[分页区域规则]进行测试;


2、标记区

[分页区域规则]有两个可用标记,见图示3;

 

1、区域标记

标记代码为<%content%>,用于表示网页源码中包含分页网址的代码段,[区域标记]标记在规则中仅可使用一次,并不可和其他标记连接;

 

2、变量标记

标记代码为<%var%>,用于表示源码中不需要采集的、连续的、零到任意数量的不确定字符串,[变量标记]标记在规则中可以多次使用,不可和其他标记连接;

[变量标记]使用次数越多,会导致采集工作效率越低;

 

关于标记更多说明见相关主题 ET内部运算标记注解 ;

 

 

3、参考范例

[分页区域规则]的建立和 采集配置-列表设置-列表区域规则 的建立方式相似,请参考该处的范例;

 

 

四、分页链接规则

1、说明

[分页链接规则]为必填项,本项用以从[分页区域规则]确定的网页代码范围中分析出分页网址信息,见图示4:


(图示4)

点击 图标,可以对[分页链接规则]进行测试;

 

2、标记区

[分页链接规则]有两个可用标记,见图示4;

 

1、分页地址

标记代码为<%fileid%>,为必用项,用于表示分页网址中的特征字符串,将被用于[分页网址合成]处确定该分页的网址,[分页地址]标记在规则中仅可使用一次,并不可和其他标记连接;

 

2、变量标记

标记代码为<%var%>,用于表示源码中不需要采集的、连续的、零到任意数量的不确定字符串,[变量标记]标记在规则中可以多次使用,不可和其他标记连接;

[变量标记]使用次数越多,会导致采集工作效率越低;

 

关于标记更多说明见相关主题 ET内部运算标记注解 ;

 

 

3、参考范例

[分页链接规则]的建立和 采集配置-列表设置-列表分析规则 的建立方式相似,请参考该处的范例;

 

 

 

五、分页网址合成

1、说明

[分页网址合成]使用[分页链接规则]中获取的[分页地址]在此合成为完整分页网址,见图示5:


(图示5)

 

[分页网址合成]可以选填,留空时则直接使用[分页链接规则]中获取的[分页地址]为完整分页网址;

合成后的完整分页网址若与之前合成的完整分页网址有重复,则被过滤;

完整分页网址可以使用相对当前页的的相对链接和完整链接,如:“../../page-<%fileid%>.htm” 、 “page<%fileid%>.htm” 、 “http://xxx.xxx.com/news/<%fileid%>.htm” 等;

 

注:文章地址为计算机本地文件路径时分页网址必须为完整地址,不能使用相对地址;

 

点击 图标,可以对[分页网址合成]进行测试;

 

2、标记区

[分页网址合成]有一个可用标记,见图示5;

 

1、分页地址

标记代码为<%fileid%>,为必用项,用于表示分页网址中的特征字符串,和[分页链接规则]中的[分页地址]标记为同一个标记,用于引用其值;

 

关于标记更多说明见相关主题 ET内部运算标记注解 ;

 

 

3、参考范例

[分页网址合成]的建立和 采集配置-列表设置-文章网址合成 的建立方式相似,请参考该处的范例;

 

 

 

相关主题

1、数据项采集处理顺序

2、ET内部运算标记注解

 

 

 

 

 

深圳SEO优化公司天水推广网站哪家好乌海百度网站优化报价张掖网站推广工具价格恩施seo网站推广报价吕梁关键词按天计费推荐仙桃百度网站优化价格焦作设计公司网站哪家好梅州网站排名优化爱联百度网站优化排名蚌埠百度标王阳泉优化公司大浪seo优化多少钱南宁模板推广哪家好安阳模板制作公司廊坊网络广告推广哪家好海东设计公司网站报价那曲网站搭建哪家好白城企业网站制作公司文山百度标王推荐德州企业网站改版公司霍邱模板推广哪家好太原网站搭建公司沈阳外贸网站建设公司忻州百度竞价公司海东百度标王多少钱惠州百度网站优化排名公司宁德关键词排名价格天津品牌网站设计公司开封SEO按效果付费报价绵阳网站优化报价歼20紧急升空逼退外机英媒称团队夜以继日筹划王妃复出草木蔓发 春山在望成都发生巨响 当地回应60岁老人炒菠菜未焯水致肾病恶化男子涉嫌走私被判11年却一天牢没坐劳斯莱斯右转逼停直行车网传落水者说“没让你救”系谣言广东通报13岁男孩性侵女童不予立案贵州小伙回应在美国卖三蹦子火了淀粉肠小王子日销售额涨超10倍有个姐真把千机伞做出来了近3万元金手镯仅含足金十克呼北高速交通事故已致14人死亡杨洋拄拐现身医院国产伟哥去年销售近13亿男子给前妻转账 现任妻子起诉要回新基金只募集到26元还是员工自购男孩疑遭霸凌 家长讨说法被踢出群充个话费竟沦为间接洗钱工具新的一天从800个哈欠开始单亲妈妈陷入热恋 14岁儿子报警#春分立蛋大挑战#中国投资客涌入日本东京买房两大学生合买彩票中奖一人不认账新加坡主帅:唯一目标击败中国队月嫂回应掌掴婴儿是在赶虫子19岁小伙救下5人后溺亡 多方发声清明节放假3天调休1天张家界的山上“长”满了韩国人?开封王婆为何火了主播靠辱骂母亲走红被批捕封号代拍被何赛飞拿着魔杖追着打阿根廷将发行1万与2万面值的纸币库克现身上海为江西彩礼“减负”的“试婚人”因自嘲式简历走红的教授更新简介殡仪馆花卉高于市场价3倍还重复用网友称在豆瓣酱里吃出老鼠头315晚会后胖东来又人满为患了网友建议重庆地铁不准乘客携带菜筐特朗普谈“凯特王妃P图照”罗斯否认插足凯特王妃婚姻青海通报栏杆断裂小学生跌落住进ICU恒大被罚41.75亿到底怎么缴湖南一县政协主席疑涉刑案被控制茶百道就改标签日期致歉王树国3次鞠躬告别西交大师生张立群任西安交通大学校长杨倩无缘巴黎奥运

深圳SEO优化公司 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化