query("select classid,classname,bclassid from {$dbtbpre}enewsinfoclass where bclassid='$bclassid' order by classid"); $returnstr=""; while($r=$empire->fetch($sql)) { if($r[classid]==$obclassid) {$select=" selected";} else {$select="";} $returnstr.=""; $returnstr.=ShowClass_AddInfoClass($obclassid,$r[classid],$exp,$enews); } return $returnstr; } $enews=ehtmlspecialchars($_GET['enews']); $r[newsclassid]=(int)$_GET['newsclassid']; /* if(empty($r[newsclassid])&&($enews=="AddInfoClass"||empty($enews))) { echo""; exit(); } */ if($_GET['from']) { $listclasslink="ListPageInfoClass.php"; } else { $listclasslink="ListInfoClass.php"; } $docopy=ehtmlspecialchars($_GET['docopy']); $url="采集 > 管理节点 > 增加节点"; //初使化数据 $r[startday]=date("Y-m-d"); $r[endday]="2099-12-31"; $r[num]=0; $r[renum]=2; $r[relistnum]=1; $r[insertnum]=10; $r[keynum]=0; $r[keeptime]=0; $r[smalltextlen]=200; $r[titlelen]=0; $r['getfirstspicw']=$public_r['spicwidth']; $r['getfirstspich']=$public_r['spicheight']; $r['repf']=',title,newstext,'; $r['repadf']=',newstext,'; $r['loadkeeptime']=0; $r['isnullf']=',newstext,'; $pagetype0=""; $pagetype1=" checked"; //复制结点 if($docopy) { $classid=(int)$_GET['classid']; $r=$empire->fetch1("select * from {$dbtbpre}enewsinfoclass where classid='$classid'"); //采集节点 if($r[newsclassid]) { $ra=$empire->fetch1("select * from {$dbtbpre}ecms_infoclass_".$r[tbname]." where classid='$classid'"); $r=TogTwoArray($r,$ra); } if(empty($r[pagetype])) { $pagetype0=" checked"; $pagetype1=""; } else { $pagetype0=""; $pagetype1=" checked"; } $url="采集 > 管理节点 > 复制节点:".$r[classname]; $r[classname].="(1)"; } //修改节点 if($enews=="EditInfoClass") { $classid=(int)$_GET['classid']; $r=$empire->fetch1("select * from {$dbtbpre}enewsinfoclass where classid='$classid'"); //采集节点 if($r[newsclassid]) { $ra=$empire->fetch1("select * from {$dbtbpre}ecms_infoclass_".$r[tbname]." where classid='$classid'"); $r=TogTwoArray($r,$ra); } if(empty($r[pagetype])) { $pagetype0=" checked"; $pagetype1=""; } else { $pagetype0=""; $pagetype1=" checked"; } $url="采集 > 管理节点 > 修改节点"; } //模型 $modid=$class_r[$r[newsclassid]][modid]; $modr=$empire->fetch1("select enter from {$dbtbpre}enewsmod where mid='$modid'"); //栏目 $options=ShowClass_AddClass("",$r[newsclassid],0,"|-",$class_r[$r[newsclassid]][modid],4); if($r[retitlewriter]) { $retitlewriter=" checked"; } if($r[copyimg]) { $copyimg=" checked"; } if($r[copyflash]) {$copyflash=" checked";} //节点 $infoclass=ShowClass_AddInfoClass($r[bclassid],0,"|-",0); //采集表单文件 $cjfile="../data/html/cj".$class_r[$r[newsclassid]][modid].".php"; ?> 增加节点
位置:
基本信息
节点名称: (如:体育,娱乐等)
父节点:
采集页面地址:
(一行为一个列表)


>
采集页面为直接内容页
采集页面地址方式二:
(此方式,系统自动生成页面地址)
地址: (分页变量用 替换)
页码从 之间,间隔倍数 倒序 补零
(如:http://www.phome.net/index.php?page=[page])
内容页地址前缀:
(如地址前面没域名的话,系统会加上此前缀)
图片/FLASH地址前缀(内容): (图片地址为相对地址时使用)
入库栏目: (如本节点不是采集节点,请不选)
开始时间: (格式:2007-11-01)
结束时间: (格式:2007-11-01)
备注:
选项
默认相关关键字: 截取标题前 个字

采集记录数:

采集前 条记录("0"为不限,系统会从头采到页面尾)
远程保存图片到本地(内容): > (入库时才会保存, > 加水印)
远程保存FLASH到本地(内容): > (入库时才会保存)
标题图片设置: 取第 张图片为标题图片( > 生成缩略图:宽度 ×高度 )
每组列表采集个数: 每组采集 个列表页(防止采集超时)
每组信息采集个数: 每组采集 个信息页(防止采集超时)
每组入库数: 每组入 条记录(防止入库超时)
每组采集时间间隔 (0为连续采集)
每组入库时间间隔 (0为连续入库)
附加选项
页面编码转换 正常编码"; if(empty($ecms_config['sets']['pagechar'])||$ecms_config['sets']['pagechar']=='gb2312') { ?>
> UTF8->GB2312 > BIG5->GB2312 > UNICODE->GB2312
> UTF8->BIG5 > GB2312->BIG5 > UNICODE->BIG5
> GB2312->UTF8 > BIG5->UTF8 > UNICODE->UTF8
是否重复采集同一链接 > 重复采集(不选为不重复采集)

是否隐藏已导入的信息

> 是 > 否
采集后自动入库 > 是, > 直接审核(不推荐选择,因为可能入库超时)
  > 入库后自动删除已导入的信息记录
整体页面过滤正则
格式:广告开始[!--pad--]广告结束
IFRAME TABLE FORM
OBJECT TR TBODY
SCRIPT TD  
STYLE A  
DIV FONT  
SPAN IMG  
(多个请用","格开)  
整体页面替换 替换成
(原字符多个请用","格开,如果是新字符是多个,可以用","格开,系统会对应替换)
过滤选项
采集关键字(包含关键字才会采): (只针对标题。如不限制,请留空。多个请用","格开)
替换:
(针对标题与内容)
替换成
(原字符多个请用","格开,如果是新字符是多个,可以用","格开,系统会对应替换)
要替换的字段名 (多个字段用半角逗号","格开)
过滤广告正则:
格式:广告开始[!--ad--]广告结束
(针对内容)
IFRAME TABLE FORM
OBJECT TR TBODY
SCRIPT TD  
STYLE A  
DIV FONT  
SPAN IMG  
(多个请用","格开)  
要过滤广告的字段名 (多个字段用半角逗号","格开)
内容为空不采集 > 是,验证字段名: (多个字段用半角逗号","格开)
过滤相似: 不采集标题相似超过 字的信息[与入库信息比较](如不限制请填"0")
  不采集标题完全相同的信息(与入库信息比较) >
截取内容简介:

截取信息内容 个字(在没有设置“内容简介”正则,系统采取的措施)

采集内容正则(不采集项,请留空)
列表页  
信息链接区域正则:
(如不限,请为空)
截取的地方加上
如:<tr><td>链接区域</td></tr>
正则就是:
<tr><td>[!--smallurl--]</td></tr>
信息页链接正则:
截取的地方加上
如:<a href="信息链接">标题</a>
正则就是:
<a href="[!--newsurl--]">*</a>

标题图片正则:
(如图片在内容页,请留空)

图片地址前缀: > 保存本地
(如填这里,将为此字段值)
内容页(文件过大的请不要选择保存本地)
内容页分页采集设置:(如没有分页请留空,只对newstext有效)
入库是否保留原分页: > 保留分页 > 不保留分页
分页形式: > 上下页导航式 > 全部列出式
"全部列出"式正则设置:
分页区域正则([!--smallpageallzz--]) 分页链接正则([!--pageallzz--])
"上下页导航"式正则设置:
分页区域正则([!--smallpagezz--]) 分页链接正则([!--pagezz--])
 

注意事项:
1.*:表示不限制内容。行与行之间的间隔最好用*格开
2.增加节点后,最好先“预览”。
3.对于特殊字符请在前面加上“\\”,当然直接将特殊字符改为“*”最合适了。特殊字符如下:
),(,{,},[,],\,?
4.同一信息链接系统不会重复采集。