dedecms采集的一些采集规律

采集：

一，新增采集节点，并设置基本节点信息。
1，其中在，列表网址获取规则的设置上可以采用自动生成的网址，适用于分页数据的采集；和手动填写网址，适用于页面数量少，规则复杂的网址。但可以使用批量生成和手工指定相配合的方式完成复杂的网址配置
2，在设定匹配区域的html时，一定注意要按照查看页面的源代码的方式设定，不应该按照类似于firebug之类的程序。

二，在设置内容匹配规则时，一定要注意页面上是否有冲突的内容。

二，采集数据，并需要导出数据到某个分类下面。

采集

正则表达式中s模式修正符，将当前所要匹配的内容视为单行，也叫单行模式。换句话说就将点“.”的匹配能力提升。

正则表达式中U模式修正符，将正则表达式设置为费贪婪模式。也可在正则表达式中，在表示数量的字符后增加?来达到非贪婪模式的效果。

如果使用的是preg_match(_all)，第三个参数是存放当前查找的元素。是一个数组形式。此数组的0下标，保存的是整个正则表达式所匹配的内容。1,下标保存的是第一个子模式所匹配的内容。以后以此类推，2，第二个子模式，3，第三个子模式。。。

在获得页面数据时,有时需要以post形式，甚至需要以登陆的状态去获得数据，此时我们就不能单纯的发出一个get请求，应该把post或者登陆所需要的信息给传递过去。希望大家去了解下curl和fsockopen.其中curl相对简单，大家只需要记住参数就可以了。而fsockopen则更贴近于http协议。

明天说下dedecms模版使用小结。

璞玉（POOY）

记录开发与生活点滴 I'M POOY !

dedecms采集的一些采集规律

Leave a Reply Cancel Reply