火车采集器怎么用

1.火车头采集器干嘛用的

火车采集器(LocoySpider) 是一个供各大主流文章系统,论坛系统等使用的多线程内容采集发布程序。使用火车采集器,可以瞬间建立一个拥有庞大内容的网站。系统支持远程图片下载,图片批量水印,Flash下载,下载文件地址探测,自制作发表的cms模块参数,自定义发表的内容等。

一、工作流程

火车采集器采集数据是分成两个步骤的,一是采集数据,二是发布数据。这两个过程是可以分开的。

1、采集数据,这个包括采集网址,采集内容。这个过程是获得数据的过程。我们做规则,在采的过程中也算是对内容做了处理。

2、发布内容就是将数据发布到自己的论坛,CMS的过程,也是实现数据为已有的过程。可以用WEB在线发布,数据库入库或存为本地文件。

具体的使用其实是很灵活的,可以根据实际来决定。比如我可以采集时先采集不发布,有时间了再发布,或是同时采集发布,或是先做发布配置,也可以在采集完了再添加发布配置。总之,具体过程由您而定,火车采集器的强大功能之一也就是体现在灵活中。

二、功能特点

火车采集器(LocoySpider)是一款功能强大且易于上手的专业采集软件,强大的内容采集和数据导入功能能将您采集的任何网页数据发布到远程服务器,自定义用户cms系统模块,不管网站是什么系统,都有可能使用上火车采集器,系统自带的模块文件支持:风讯文章,动易文章,动网论坛,PHPWIND论坛,Discuz论坛,phpcms文章,phparticle章,LeadBBS论坛,魔力论坛,Dedecms文章,Xydw文章,惊云文章等的模块文件。更多cms模块请自己参照制作修改,也可到官方网站与大家交流制作。 同时您也可以使用系统的数据导出功能,利用系统内置标签,将采集到的数据对应表的字段导出到本地任Access,MySql,MS SqlServer内。

2.火车头采集器怎么用

作为同时使用八爪鱼采集器和写爬虫的非技术的莫名其妙喜欢自己琢磨技术的互联网运营喵。。。我来谈谈心得感想。

八爪鱼有一些优势,比如学习成本低,可视化流程,快速搭建采集系统。能直接导出excel文件和导出到数据库中。降低采集成本,云采集提供10个节点,也能省事不少。

不好的地方就是,即使看似很简单了,而且还有更傻瓜化的smart模式,但是里面的坑只有用的多的人才清楚。关于这个我在我的博客里简单写了写,不过说实话心得太多,还没仔细整理。

首先里面的循环都是xpath元素定位,如果用单纯的傻瓜化点击定位的话,很死板,大批量采集页面的时候很容易出错。另外用这个工具的,因为方便,小白太多,成天有人问普通问题,他们都不会看页面结构,也不懂xpath,很容易出现采集不全,无限翻页等问题。

但是八爪鱼采集器的ajax加载,模拟手机页面,过滤广告,滚动至页面底端等功能堪称神器,一个勾选就能搞定。写代码很麻烦的,实现这些功能费劲。

八爪鱼毕竟只是工具,自由度肯定完败编程。胜在方便,快速,低成本。

八爪鱼判断语录较弱,无法进行复杂判断,也无法执行复杂逻辑。还有就是八爪鱼只有企业版才能解决验证码问题,一般版本无法接入打码平台。

还有一点就是没有ocr功能,58同城和赶集网采集的电话号码都是图片格式,python可以用开源图像识别库解决,对接进去识别便可。

除非对技术有很高要求,否则我觉得八爪鱼采集器很好用,比火车采集器好用,虽然效率没那么高,但是比起费劲学习和研究数据包,还是用这个省事。我没事也会在八爪鱼群里解答一些规则编制的问题。

作者:极客兔子

来源:知乎

3.如何使用火车头采集器采集网页图片详细图文教程

火车头采集器采集信息分两个步骤:

1,采网址。这一步也是就告诉软件,有多少个网页需要去采,并给出具体的网页地址。

2,采内容。有了网址之后,就可以去这个网址上采集信息了,但网页上信息众多,软件不知道你想采哪些。在采内容部分,就要做规则了。告诉软件我想采什么。

1,采网址。

网页上的产品信息就是所想采的,即为目标。

在采集链接页面里,输入采集地址的列表页,这里要注意无用链接的过滤。

然后点击测试按钮测试所填信息的正确性:

测试正确以后,我们对地址进行扩展,现在我们只不过是采了一张列表页的文章地址,还有其它的列表要需要采集,其它的列表页就在它的分页上,我们观察这些分布的链接形式,找出规律,然后批量填入网址规则。

2,内容的采集

经过上面的处理,目标产品页的链接都已经能够采到,下面我们进入内容的采集。

明确好要采集的内容以后,我们开始编写采集规则,火车头采集内容是采集网页的源代码,因此我们要打开产品页的源代码,找到我们要采集信息所在的位置。比如,Description字段的采集:

找到Description的位置,找到之后,如何填写采集规则呢,很简单,只要将采集目标的开始字符串与结束字符串填入采集的对应位置。这里我们选取<span>Description:</span>;作为开始字符串,</span>;为结束字符串。值得注意的是,开始字符串必须在本页面是唯一的,并且在其它产品页面也存在这个字符串。本页面唯一能使软件找到要采集的位置,其它页面通用,保证软件能够采到其它页面的数据。

填完以后并不表示就能采集正确了,还需测试一下,排除一些无用数据,排除可在HTML标签排除和内容排除中进行。测试成功后,这样一个标签就制作好了。

这里我们使用通配符来实现这一要求。我们把不通用的地方用(*)通配符来表示任意。而要采集的地址我们用参数(变量)来表示。最后我们将这段内容变为:<li id="current">(*)Compare Prices(*)<a href="[参数]" onClick="(*)">Product Details,填入模块,并测试是否成功。

如果测试没有成功,那说明你填入的内容还不符合唯一且通用的标准,还需要调试。测试成功以后,可以保存,进入标签的制作了。

这里的标签制作与上面的是一样的,找到要采集信息的所在地,填入开始结束字符串,并做好过滤,唯一的不同的在于所属页面选项里要选择刚才制作好的模块,这里就不赘述,直接显示结果了。

这样标签就制作完成了。点击更新以后,去掉发布选项,就可以进行任务的采集了。

4.火车头采集器的使用方法,谁用过这款采集软件,能告诉我吗

方法/步骤

软件程序的获取:

大家可以从百度中搜索“火车头采集器”,并进入对应官方来获取程序的最新版本下载地址。当然也可以从小编所提供的网盘地址中获取最新版本程序:

安装并运行“火车头采集器”程序,在弹出的登陆界面中直接点击“登陆”按钮就可以以免费版身份登陆。

在程序主界面中,点击“新建”下拉箭头,从中选择“任务”项。

在弹出的窗口中,输入“任务名”,同时点击“起始网址”栏目右侧的“添加”按钮。

接下来就极为重要的一步,就是对要进行采集的网站进行分板,对所采取的网站中各片文章的URL进行综合分析并找出规律,最后按如图进行填写。

然后切换至“第二步:采集内容规则”选项卡中,我们需要对网页内容进行分板。在此以“搜狗浏览器”为例,右击要进行分析的网页,从弹出的菜单中选择“审查元素”项。

在“开发式模式”界面中,点击“选择页面中的一个元素去透视”按钮,接着点击“标题”内容,此时就可以在“开发者”窗口中显示标题所对应的标签,此例为“h2"。

接下来在”采集内容规则“界面中,点击“添加”按钮来添加“标题”项,或者直接双击“标题”项进行修改。在弹出的界面中,勾选”前后截取“,将设置前后辍分别为"“、”".

利用同样的方法添加其它采集内容的规则。

切换至“第三步:发布内容设置”选项卡,勾选“启用 方式二”,并进行如图设置。

最后从任务列表中,勾选要采集的内容,点击“开始”按钮就可以按规则采集网站中的网页内容啦。

火车采集器怎么用

转载请注明出处360知识网 » 火车采集器怎么用

贴花怎么用

阅读(34)

本文主要为您介绍贴花怎么用,内容包括美甲贴怎么使用,指甲贴花怎么用要按自己的指甲形状修剪吧,贴纸是干什么用的贴纸是干什么用的。淘宝上有一款七翼美...

延时套怎么用

阅读(37)

本文主要为您介绍延时套怎么用,内容包括杜蕾斯延时避孕套使用方法,延时避孕套用法,延时避孕套怎么用。过度耗精会导致骨髓空洞,脑髓不满,生命提前衰老、夭...

怎么用假币

阅读(45)

本文主要为您介绍怎么用假币,内容包括为什么那么多假币用假币怎么判刑,怎么认假钱啊以最快的方法识别出它是假请,收到假钱怎么收到假钱怎么办。明知是伪...

脚膜怎么用

阅读(29)

本文主要为您介绍脚膜怎么用,内容包括足膜的使用方法,足膜怎么用,足膜的使用方法。要是对于保湿足膜来说的话,例如像爽健的深层保湿足膜,最多可以一个月做...

起泡贴怎么用

阅读(30)

本文主要为您介绍起泡贴怎么用,内容包括怎样制作起泡胶,用家里常用的东西,手机贴膜为什么会有气泡怎么贴,即时贴如何才能贴好。原因:一般去实体店买手机,...

思维导图软件怎么用

阅读(40)

本文主要为您介绍思维导图软件怎么用,内容包括免费思维导图软件,如何使用思维导图做读书笔记,怎样用思维导图记英语单词。xmind、freemind、MindManager...

遮瑕盘怎么用

阅读(36)

本文主要为您介绍遮瑕盘怎么用,内容包括LISEWATIER遮瑕盘的用法,如何使用nyx6色遮瑕盘中的绿色,遮瑕膏怎么用。本人化妆属自学,基本都跟着网络学然后自己...

欣兰怎么用

阅读(36)

本文主要为您介绍欣兰怎么用,内容包括欣兰冻膜怎么用,欣兰冻膜正确使用方法,冻膜要怎么用请问。欣兰冻膜这两年被炒的很火,很多人说很好用,但也有一些反应...

涵曦怎么用

阅读(32)

本文主要为您介绍涵曦怎么用,内容包括涵曦瘦身霜使用方法,涵曦排毒针怎么使用,涵曦排毒针怎么用。想减肥 不要靠那些什么拔罐 刮痧 吸脂 减肥茶 减肥药 ...

mj怎么用

阅读(35)

本文主要为您介绍mj怎么用,内容包括我遇见MJ用英语怎么说急用,MJ是什么什么是MJ,怎么才能去.去那里有什么用处么,坎巴拉太空计划MJ怎么用的。...

知识

火车用英语怎么说

阅读(29)

本文主要为您介绍火车用英语怎么说,内容包括火车用英语怎么说,英语翻译乘火车的说法有几种列举有说乘某人的火车,或这辆火车,,火车车厢用英语怎么说。火

知识

从秦皇岛火车站到冰糖峪有公交车吗

阅读(39)

自驾可以到达冰糖峪,路线如下:1.秦皇岛火车站向正西方向出发,行驶90米。2.左转行驶50米,右转进入北环路辅路,直行进入北环路。3.右转进入海阳路,朝G1方向

知识

徐州火车站附近有什么好玩的地方

阅读(45)

1.出火车站直走步行到黄河故道,或者坐1路到古彭广场逛街。2.如果是徐州站,你可以去云龙山、云龙湖,坐51路公交即可。3.如果是徐州东站,西侧不远处有金龙

知识

地铁跑酷跳过火车啥意思

阅读(24)

1.这个是在任务中出现的,是人物跳过整列的火车,一些停着的或者是迎面驶来的,穿上弹力鞋,就能做到;2.穿上弹力鞋,在火车将要撞到时,跳起来,并且不碰到火车,再掉

知识

济南火车站可以站内换乘吗只有23分钟~

阅读(56)

可以。站内换乘步骤为:1.事先检查换乘前后的两张火车票,确定两列车次间隔在10分钟以上。2.下火车后,直接寻找无障碍电梯,直达候车室,随后按正常程序检票上

知识

首次乘坐火车身份证如何激活

阅读(34)

首次乘坐火车身份证需要去火车票售票大厅窗口激活即可。激活步骤:1.持二代居民身份证的注册用户、常用联系人乘车人,身份信息未经国家身份认证权威部门