帝国采集正则怎么写?帝国cms采集正则的写法详解

查看付费资源请通过右侧购买区域进行购买!

  帝国CMS的采集正则:

  1、帝国CMS的采集正则是什么样的,下面我们用实例讲解:

  (1)、假如我们要采集页面的内容页为如下页面:

  图1:HTML页面

  

帝国采集正则怎么写?帝国cms采集正则的写法详解 帝国cms采集 采集正则 第1张


  图2:查看页面源代码为如下:

  

帝国采集正则怎么写?帝国cms采集正则的写法详解 帝国cms采集 采集正则 第2张


  (2)、由上图的源代码内容我们可以得出帝国CMS的采集正则:

  新闻标题正则:标题:[!–title–]

  新闻内容正则:内容:[!–newstext–]

  “[!–title–]”与“[!–newstext–]”分别为“标题”字段与“内容”字段的正则变量。用于指定我们要采集的内容位置。

  (3)、由上面我们得出了,帝国CMS采集正则是把正则变量替换要采集内容后的代码内容。格式:

  识别代码头部[!–变量名–]识别代码尾部

  注意:上面的“识别代码头部”一定是要唯一的标记。

  2、帝国CMS正则还有表示任意内容的字符:“*”

  如果“识别代码头部”中有内容是变化的,那么我们可以用*代替它。如页面源代码为如下,我们要采集下面的链接地址:

  标题

  通过使用“*”任意内容表示字符,我们可以用下面的正则忽略可变内容,获得链接地址:

  附加说明:[!–newsurl–]为页面链接地址的正则变量。

  3、其他说明:

  (1)、正则要找出唯一性的开头字符。有时候空格都会成为识别的依据。

  (2)、对于特殊字符请在前面加上“”,当然直接将特殊字符改为“*”最合适了。特殊字符如下:

  “ )”、“(”、“{”、“}”、“[”、“]”、“”、“?”等等。


转载请说明出处
仿站网 » 帝国采集正则怎么写?帝国cms采集正则的写法详解

发表评论

您需要后才能发表评论

仿站网专注帝国cms仿站,Zblog仿站,Wordpress仿站服务,专业+效率+售后保障

关于我们 联系客服
 
QQ在线咨询
客服热线
139-3511-2134