收罗治理能资助企业在信息收罗,,,,,资源整合方面节约大宗的人力与资金。。普遍应用于行业门户网站,,,,,竞争情报系统,,,,,知识治理系统,,,,,网站内容系统,,,,,笔直搜索,,,,,科研等领域。。
点击“添加收罗项目”进入新建收罗项目;;;
收罗第一步参数说明如下:
收罗项目名称即我们要收罗的项目,,,,,好比我们收罗的是时政新闻则命名为时政新闻;;;
模子设置收罗的是文章模子则选择文章,,,,,图片信息则选择图片模子;;;
文档入库栏目是指收罗的信息要归属于哪个栏目,,,,,我们在收罗前要先建好这个栏目才华选择归属栏目;;;
文档归属专题选择文档归属的专题
目的站点名称即要收罗哪个网站的信息如采腾讯新闻;;;
收罗目的URL即屎厕的网址;;;
编码方式凭证我们要采的网站编码举行设置,,,,,若是编码差池可能会造成乱码;;;
设置属性即对收罗的内容举行设置某项或某些属性,,,,,收罗同时也支持显示在手机上了;;;
收罗选项:生涯图片到外地勾选后收罗回来的文章中若是有图片则自动将图片生涯到外地服务器;;;连忙天生HTML勾选后收罗回来的广告自动天生HTML静态;;;勾选已保存主表的同名纪录跳过则不重复已有的信息文档问题,,,,,当有同名的文档时则不收罗;;;倒序收罗勾选则从最后一页的最后一条倒着往前采;;;自动设置首页图片勾选后则自动将收罗到的图片文章设置为第一张图片;;;暂停设置好比每收罗100篇信息停留2秒。。
设置后点击“下一步”进入第二步标记设置;;;
列表设置即文章列表的最先和竣事标记;;;在右边代码里可以查找到;;;
测试链接即文章问题的链接最先和竣事标记;;;
标记好,,,,,可以测试列表和测试链接,,,,,测试乐成右边代码会自动获取源码;;;
分页设置:
不分页则只收罗第一页;;;
批量设置若是要收罗多页,,,,,并且每页的生陋习则是有规则性的,,,,,设置如http://域名/list.asp?page={$ID},,,,,然后生陋习模设置为您要收罗的页面如第1页到第6页则设置为2to 6
手动设置,,,,,把要收罗的列表网址录入,,,,,一个分页一行
点击“下一步”进入收罗第三步设置。。
在右侧,,,,,我们可以选择显示代码窗口,,,,,获取代码时,,,,,利便直接审查收罗的代码源,,,,,也可关闭代码窗口;;;点击“会见”进入会见要收罗的内容页,,,,,然后审查其源代码。。
例如转向链接,,,,,泉源,,,,,更新时间等若是需要设置可以凭证代码源设置标签,,,,,也可以指定
简介若是不需要则选择不作设置,,,,,需要做标记同样在源代码里查找唯一标记,,,,,添加好点“截取设置”,,,,,在右边测试效果中可审查截图效果;;;
详细内容设置将文章内容的最先和竣事标记截取出来,,,,,过滤HTML标记将要过滤的项选中收罗后这些项就被过滤了
最后生涯设置完成收罗项目设置。。
点击“确定”返回到收罗治理。。
返接纳罗项目治理,,,,,可以审查我们所有添加的收罗项;;;可以举行编辑、删除、测试、收罗、复制收罗项目等操作。。
点击治理操作的测试,,,,,测试收罗项是否通过。。
点击治理操作下的“收罗”链接进入最先收罗信息操作。。
收罗后我们可以在收罗历史纪录中审查所有收罗的信息内容;;;
同时在内容治理-文章系统对应的栏目下面也可以审查到收罗入库的信息;;;若是收罗回来的文章因收罗规则设置的时间没有过滤完善我们需要将文章治理中的收罗纪录和历史纪录中的收罗纪录都删除后再重新设置收罗规则再点击收罗。。
过滤规则即我们要将某些被收罗网站中的某些内容替换为其它的内容好比将<div></div>替换为<span>被替换的文字</span>
注释:在收罗第三步中,,,,,设置的标签,,,,,可以在模子治理--字段治理中选择哪些字段允许开启收罗;;;
添加过滤规则,,,,,治理过滤规则。。添加过滤名称、替换方式、查找内容、选是否启用。。
添加完确认操作即可。。返回过滤规则治理,,,,,可以对添加的过滤规则举行编辑处理。。
治理收罗历史。。支持快速查找历史、批量删除历史纪录。。
