大数据爬虫技术基础篇:大快在线爬虫安装步骤

在线爬虫是大快大数据一体化开发框架的重要组成部分,本篇重点分享在线爬虫的安装。 爬虫安装前准备工作:大快大数据平台安装完成、zookeeper、redis、elasticsearch、mysql等组件安装启动成功。

1、修改爬虫安装配置文件(最好在线下修改好后再上传平台)

大数据爬虫技术

大数据爬虫技术

2、修改crawler\dkcrw\jdbc.properties配置文件(只修改图片里的内容其他内容默认即可)

大数据爬虫技术

Hbase.zookeeper.quorum所填地址应在DKM监控平台查看:

大数据爬虫技术

Redis相关配置看如下界面:

3、把已修改的crawler\dkcrw\下的jdbc.properties配置文件替换到\crawler\dkcrw-tomcat-7.0.56\webapps\ROOT\WEB-INF\classes下(这下面有一个没有改好的直接替换)

大数据爬虫技术

修改好后把修改好的爬虫文件打压成压缩文件

4、上传平台主节点并解压(这里就不介绍怎么上传了的了,本次例子是上传到root目录下,安装包上传到任何目录下都可以推选root目录)

大数据爬虫技术

unzip 解压命令,解压唱功后会多了一个 cuawler 的文件夹

大数据爬虫技术

使用cd crawler 命令进入 crawler 文件夹下

大数据爬虫技术

使用mysql -uroot -p123456 < numysql.sql 命令添加numysql.sql数据库

大数据爬虫技术

5、分发爬虫文件

大数据爬虫技术

每个节点都需要有dkcrw文件, dkcrw-tomcat-7.0.56文件只能放在一个节点上,不能放在主节点上(推选放在从节点) 命令: scp -r {要分发的文件名可填写多个,如果不在要分发文件的目录下请添加路径} {分发到的服务器ip或名称:分发到的路径} 例如: cd /opt/dkh scp -r dkcrw dk2:/opt/dkh/ scp -r dkcrw dkcrw-tomcat-7.0.56/ dk2:/opt/dkh/

6、在分发了dkcrw-tomcat-7.0.56文件的节点上给文件添加权限 命令: chmod -R 755 {需要给权限的文件等} 例如: cd /opt/dkh chmod -R 755 dkcrw dkcrw-tomcat-7.0.56/

大数据爬虫技术

7、启动爬虫界面 命令: cd /opt/dkh/dkcrw-tomcat-7.0.56/bin/ ./startup.sh

大数据爬虫技术

启动界面之后再浏览器中输入启动界面节点的IP,来打开爬虫界面看是否启动成功(账号密码是默认的)

大数据爬虫技术

8、启动每个节点的dkcrw.jar 命令: 主节点运行 cd /opt/dkh/dkcrw/ nohup java -jar dkcrw.jar master > dkcrw.log 2>&1 &

从节点运行 cd /opt/dkh/dkcrw/ nohup java -jar dkcrw.jar slave > dkcrw.log 2>&1 &

注意:可以先使用前台启动爬虫,确定爬虫没错误。 前台启动命令java -jar dkcrw.jar master/slave

转载于:https://my.oschina.net/u/3793864/blog/1933377

weixin_33766168
关注 关注
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
一篇万字博文带你入坑爬虫这条不归路 【万字图文】
孤寒者的博客
07-09 80万+
????最近,很多粉丝私信我问——爬虫到底是什么?学习爬虫到底该从何下手????? ????其实,我想说的也是曾经的我身为小白的时候某些大牛对我说过的——很多时候我们都有一颗想要学习新知识的心,却总是畏惧于对想要学习内容的无知,这也是多数人失败甚至后悔终身的:因为他们从来没有开始过!???? ????借一位几年前带我入坑的前辈的话——坑就在你面前,别总是犹豫徘徊,大胆一点:向前一步,入了这个坑,莽着头就是往前冲,别多想,别回头,终有一天——>你也会成为别人的前辈!???? 今日份鸡汤已成功送达,目
大数据关键技术:自然语言处理入门篇
weixin_47367099的博客
10-19 4092
自然语言处理概况#什么是自然语言处理?自然语言处理( Natural Language Processing, NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。自然语言处理主要应用于机器翻译、舆情监测、自动摘要、观点提取、文本分类、问题回答、文本语义对比、语音识别、中文OCR等方面。输入对应的是自然语言理解;输出对应的是自然语言生成;
Python数据爬取超详细讲解(零基础入门,老年人都看的懂)
热门推荐
BookSea的博客
07-13 45万+
关于Python爬虫的超详细讲解,用例子来给大家一步步分析爬虫的代码原理,由浅入深,老年人来了,我也给你整明白。
Python爬虫第一课:了解爬虫与浏览器原理
weixin_47380093的博客
10-15 9780
浏览器工作原理爬虫工作原理爬虫的四个步骤requests库。
大数据的关键技术之——大数据采集
逆境清醒的博客
09-05 6573
大数据采集是指通过各种技术手段,收集和整理大量数据的过程。采集的数据可以来自不同的数据源,包括结构化数据和非结构化数据,如网站数据、社交媒体数据、电子邮件、日志文件、传感器、企业应用程序等。
【零基础爬虫爬虫实战:爬取京东零食
我的博客
04-18 861
简介 使用Selenium+chrome/PhantomJS爬取京东零食。 京东的页面比较复杂:含有各种请求参数、加密参数,如果直接请求或者分享Ajax的话会非常的繁琐,Selenium是一个自动化测试工具,可以驱动浏览器完成各种操作:模拟点击、输入、下滑等各种功能,如此一来,我们只需要关心操作,而不需要关心后台发生了什么样的请求。PhantomJS是无界面的浏览器,比Selenium方便,pha...
小白python爬虫基础教程(看这一篇就完了)
caoyongsheng的博客
03-29 242
1)cookie:能够存储一些服务器端的信息,与session共同完成身份标志的工作。3)定位需要的信息所在位置(re正则表达式,XPATH, CSS selector)#返回html信息的二进制(bytes)类型,response.content。第一步,观察http的包,使用requests的包,get,post。4)内容的存储 (open,pymysql,pymongo)2)获取网址的返回信息(urllib,requests)1)需求分析,找到需求相关的网址。最后一步保存到文件系统。
逆向爬虫技术的进阶应用与实战技巧
陈橘又青的博客
03-24 1万+
探讨爬虫技术的进阶应用与实战技巧,包括如何突破反爬虫机制、解析复杂页面结构、处理动态加载数据等。文章将结合具体案例,详细解析爬虫开发中的难点和解决方案,并提供丰富的代码示例,帮助读者从基础入门到实战进阶,全面掌握爬虫技术的精髓。
最新Python爬虫入门教程24:下载某网站付费文档保存PDF
2401_84563875的博客
05-03 728
Python崛起并且风靡,因为优点多、应用领域广、被大牛们认可。学习 Python 门槛很低,但它的晋级路线很多,通过它你能进入机器学习、数据挖掘、大数据,CS等更加高级的领域。Python可以做网络应用,可以做科学计算,数据分析,可以做网络爬虫,可以做机器学习、自然语言处理、可以写游戏、可以做桌面应用…Python可以做的很多,你需要学好基础,再选择明确的方向。这里给大家分享一份全套的 Python 学习资料,给那些想学习 Python 的小伙伴们一点帮助!
大数据大数据与云计算:塑造未来的技术力量
05-20
大数据方面开发教程,从入门到进阶到就业,提供给大家免费下载,希望对您有帮助!
一看就明白的爬虫入门讲解:基础理论篇
02-26
本文作者诸葛IO创始人/CEO孔淼从基础理论入手,详细讲解了爬虫内容,分为六个部分:我们的目的是什么;内容从何而来;了解网络请求;一些常见的限制方式;尝试解决问题的思路;效率问题的取舍。关于爬虫内容的分享,...
骑行大数据,寻找城市热点:标志性餐饮篇.pdf
02-25
骑行大数据,寻找城市热点:标志性餐饮篇
大数据行业之企业篇:东方国信调研报告.pdf
09-11
大数据行业之企业篇:东方国信调研报告.pdf
如何让Google速收录?
最新发布
m0_75172622的博客
05-29 236
GPC爬虫池利用一个庞大的站群系统和复杂的内外链结构,吸引Google的爬虫频繁访问你的网站。这样的技术操作可以显著增加你网站被Google爬虫抓取的次数,从而加网站页面的Google收录速度。如果你追求速提高网站在Google搜索引擎的可见度,并且希望在短时间内实现网页的广泛收录,GSI服务可以是一个有效的选择。维持收录:虽然GSI服务不保证长期维持收录(这依赖于网页内容的质量),但初期的速收录可以显著提升网站的曝光率和权重。GSI服务的具体优势主要三点。
python爬虫登录到海康相机管理页面
Zlucien的博客
05-21 662
python爬虫登录到海康相机管理页面
Python爬虫项目实战:百度任意图片抓取
weixin_53707653的博客
05-27 841
定义一个变量a,初始值为1,遍历上一步得到的包含图片URL的列表。每次循环,将a的值加1。再次使用requests库的get方法发送一个GET请求到当前的图片URL,同时传入headers参数和timeout参数(设置超时时间为10秒),定义一个变量name,其值为一个字符串,这个字符串包含了图片的保存路径和文件名,文件名由关键词和序号组成,打印出图片的保存路径和文件名。定义一个字典headers,其中包含了一个键值对,键为"User-Agent",值为一个字符串,这个字符串描述了浏览器的信息。
如何被谷歌收录?
m0_75172622的博客
05-27 250
最简单的方法就是提交网站给谷歌,但这种方法可操作空间不大,一天一般也就只有十条左右的链接可以提交,对于一些大网站来说,这种方法显然不适用,这时候GPC爬虫池的好处就体现了,GPC爬虫池对希望提升Google搜索引擎中的可见度的外贸网站来说是极具吸引力的,通过增加网站被Google爬虫抓取的频率,GPC爬虫池可以显著提高网站页面的收录率,收录是seo的基本,没有收录一切都无从谈起,想做seo就要做收录,收录就是你在网络世界里涟漪,但涟漪足够多,就会形成波浪,那你网站的知名度可以说就大大提高了。
防御恶意爬虫攻击
m0_66268916的博客
05-27 1217
数据抓取爬虫是攻击者使用自动化脚本或工具在移动应用程序中抓取敏感数据的一种方式。这些爬虫可以定向抓取用户信息、产品列表、评论和评级等数据。攻击者可能会将这些数据用于非法目的,例如进行身份盗窃、诈骗活动或者卖给其他恶意方。对于移动应用程序,数据抓取爬虫可能造成以下后果:- 用户隐私泄露:攻击者可以通过抓取用户信息,获取私人和敏感数据,例如个人资料、联系方式、登录凭证等。- 商业损失:如果攻击者抓取了产品或服务的定价、销售策略等机密数据,他们可能使用这些信息来获取竞争优势,进而对您的业务造成损害。
写一篇数据科学与大数据技术的论文
02-16
在这篇论文中,我们将介绍一个应用数据科学和大数据技术解决企业问题的案例研究。该研究的目的是提高一家电商公司的销售额和客户满意度。 方法: 我们首先收集了大量的数据,包括客户购买历史、行为数据和市场趋势...

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
写文章

热门文章

  • nginx重新加载配置(reload) 35128
  • 西部数据出现“WD SES Device USB Device”怎么办,而且说明书全是英文。 18259
  • vue中的input使用e.target.value赋值的问题 17682
  • 开源BT磁力搜索引擎收集 15949
  • 华为交换机限速配置命令2016 15286

最新评论

  • 自动注册appleid

    weixin_45186442: 大量收苹果id

  • 自动注册appleid

    L·J.J: 有出苹果id么

  • 自动注册appleid

    karnooL: 可以批量注册吗

  • centos6.8下l2tp客户端xl2tpd的安装配置

    王腾: 资源404了

  • 地理信息系统专业考研 GIS专业考研 名词解释大全[转]

    lllugmk: 这个是外国的软件吗,数据存储安全吗

最新文章

  • 【Java】操作mysql数据库
  • C++中实现回调机制的几种方式
  • vc 获取外网ip
2019年355篇
2018年658篇
2017年891篇
2016年522篇
2015年400篇
2014年347篇
2013年312篇
2012年242篇
2011年223篇
2010年165篇
2009年105篇
2008年91篇
2007年81篇
2006年37篇
2005年18篇
2004年13篇

目录

目录

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43元 前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值

深圳SEO优化公司平湖网站关键词优化公司芜湖模板推广报价襄樊营销网站哪家好上饶企业网站制作公司襄樊网站改版报价坪山关键词排名迪庆SEO按效果付费山南设计网站推荐河源网站搜索优化哪家好新余百度标王潮州网站建设多少钱林芝优秀网站设计价格和县百姓网标王推广推荐深圳外贸网站建设多少钱永州百度网站优化哪家好威海网络推广哪家好深圳建站报价鹤岗网站制作报价永新网页制作宝安企业网站设计推荐宜宾网站建设公司景德镇网页设计价格衢州网页设计价格三亚网站seo优化推荐白山SEO按天收费公司大浪百度竞价多少钱坪地关键词按天计费茂名企业网站改版价格大芬网页设计报价临沂外贸网站建设哪家好歼20紧急升空逼退外机英媒称团队夜以继日筹划王妃复出草木蔓发 春山在望成都发生巨响 当地回应60岁老人炒菠菜未焯水致肾病恶化男子涉嫌走私被判11年却一天牢没坐劳斯莱斯右转逼停直行车网传落水者说“没让你救”系谣言广东通报13岁男孩性侵女童不予立案贵州小伙回应在美国卖三蹦子火了淀粉肠小王子日销售额涨超10倍有个姐真把千机伞做出来了近3万元金手镯仅含足金十克呼北高速交通事故已致14人死亡杨洋拄拐现身医院国产伟哥去年销售近13亿男子给前妻转账 现任妻子起诉要回新基金只募集到26元还是员工自购男孩疑遭霸凌 家长讨说法被踢出群充个话费竟沦为间接洗钱工具新的一天从800个哈欠开始单亲妈妈陷入热恋 14岁儿子报警#春分立蛋大挑战#中国投资客涌入日本东京买房两大学生合买彩票中奖一人不认账新加坡主帅:唯一目标击败中国队月嫂回应掌掴婴儿是在赶虫子19岁小伙救下5人后溺亡 多方发声清明节放假3天调休1天张家界的山上“长”满了韩国人?开封王婆为何火了主播靠辱骂母亲走红被批捕封号代拍被何赛飞拿着魔杖追着打阿根廷将发行1万与2万面值的纸币库克现身上海为江西彩礼“减负”的“试婚人”因自嘲式简历走红的教授更新简介殡仪馆花卉高于市场价3倍还重复用网友称在豆瓣酱里吃出老鼠头315晚会后胖东来又人满为患了网友建议重庆地铁不准乘客携带菜筐特朗普谈“凯特王妃P图照”罗斯否认插足凯特王妃婚姻青海通报栏杆断裂小学生跌落住进ICU恒大被罚41.75亿到底怎么缴湖南一县政协主席疑涉刑案被控制茶百道就改标签日期致歉王树国3次鞠躬告别西交大师生张立群任西安交通大学校长杨倩无缘巴黎奥运

深圳SEO优化公司 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化