采集:

一,新增采集节点,并设置基本节点信息。
1,其中在,列表网址获取规则的设置上可以采用自动生成的网址,适用于分页数据的采集;和手动填写网址,适用于页面数量少,规则复杂的网址。但可以使用批量生成和手工指定相配合的方式完成复杂的网址配置
2,在设定匹配区域的html时,一定注意要按照查看页面的源代码的方式设定,不应该按照类似于firebug之类的程序。

二,在设置内容匹配规则时,一定要注意页面上是否有冲突的内容。

二,采集数据,并需要导出数据到某个分类下面。

 

 

采集

正则表达式中s模式修正符,将当前所要匹配的内容视为单行,也叫单行模式。换句话说就将点“.”的匹配能力提升。

正则表达式中U模式修正符,将正则表达式设置为费贪婪模式。也可在正则表达式中,在表示数量的字符后增加?来达到非贪婪模式的效果。

 

如果使用的是preg_match(_all),第三个参数是存放当前查找的元素。是一个数组形式。此数组的0下标,保存的是整个正则表达式所匹配的内容。1,下标保存的是第一个子模式所匹配的内容。以后以此类推,2,第二个子模式,3,第三个子模式。。。

在获得页面数据时,有时需要以post形式,甚至需要以登陆的状态去获得数据,此时我们就不能单纯的发出一个get请求,应该把post或者登陆所需要的信息给传递过去。希望大家去了解下curl和fsockopen.其中curl相对简单,大家只需要记住参数就可以了。而fsockopen则更贴近于http协议。

明天说下dedecms模版使用小结。

Leave a Reply

电子邮件地址不会被公开。 必填项已用*标注

You may use these HTML tags and attributes:

<a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong> <pre class="">

请选择吧!