大数据——相关知识介绍

大数据——相关知识介绍

之前永信大数据为大家介绍了大数据的相关知识，如何学习大数据呢？接下来永信大数据带您回顾并了解。

1. 什么是大数据

大数据（big data），指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据的定义是4Vs：Volume、Velocity、Variety、Veracity。用中文简单描述就是大、快、多、真。

Volume——数据量大：随着技术的发展，人们收集信息的能力越来越强，随之获取的数据量也呈爆炸式增长。例如百度每日处理的数据量达上百PB，总的数据量规模已经到达EP级。

Velocity——处理速度快：指的是销售、交易、计量等等人们关心的事件发生的频率。

Variety——数据源多样：现在要处理的数据源包括各种各样的关系数据库、NoSQL、平面文件、XML文件、机器日志、图片、音视频等等，而且每天都会产生新的数据格式和数据源。

Veracity—— 真实性：诸如软硬件异常、应用系统bug、人为错误等都会使数据不正确。大数据处理中应该分析并过滤掉这些有偏差的、伪造的、异常的部分，防止脏数据损害到数据准确性。

3. 如何学习大数据

首先我们要先了解Hadoop和Spark

Hadoop：Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高速运算和存储。
Hadoop实现了一个分布式文件系统（Hadoop Distributed File System），简称HDFS。HDFS有高容错性的特点，并且设计用来部署在低廉的（low-cost）硬件上；而且它提供高吞吐量（high throughput）来访问应用程序的数据，适合那些有着超大数据集（large data set）的应用程序。HDFS放宽了（relax）POSIX的要求，可以以流的形式访问（streaming access）文件系统中的数据。
Hadoop的框架最核心的设计就是：HDFS和Map Reduce。HDFS为海量的数据提供了存储，则Map Reduce为海量的数据提供了计算。

Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop Map Reduce的通用并行框架，Spark拥有Hadoop Map Reduce所具有的优点；但不同于Map Reduce的是——Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的Map Reduce的算法。
Spark 是一种与 Hadoop 相似的开源集群计算环境，但是两者之间还存在一些不同之处，这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越，换句话说，Spark 启用了内存分布数据集，除了能够提供交互式查询外，它还可以优化迭代工作负载。
Spark 是在 Scala 语言中实现的，它将 Scala 用作其应用程序框架。与 Hadoop 不同，Spark 和 Scala
能够紧密集成，其中的 Scala 可以像操作本地集合对象一样轻松地操作分布式数据集。尽管创建 Spark
是为了支持分布式数据集上的迭代作业，但是实际上它是对 Hadoop 的补充，可以在 Hadoop 文件系统中并行运行。通过名为 Mesos
的第三方集群框架可以支持此行为。Spark 由加州大学伯克利分校 AMP 实验室 (Algorithms, Machines, and
People Lab) 开发，可用来构建大型的、低延迟的数据分析应用程序。

永信大数据认为Hadoop就是处理大数据的一个分布式系统基础架构，而Spark是一个专门用来对那些分布式存储的大数据进行处理的工具。

以上是永信大数据为大家整理出今日份文章，欢迎私信留言，感谢观看❤。

发布于 2022-03-22 11:42

大数据分析

深圳SEO优化公司邵阳网站优化按天扣费推荐太原百度关键词包年推广报价桂林网站推广工具价格滨州百度seo 漳州企业网站设计推荐德宏网站优化按天收费多少钱肇庆关键词按天计费哪家好常州seo排名价格焦作企业网站改版报价阳泉建站哪家好永新网页设计天门百搜标王报价福田网站建设多少钱承德百度关键词包年推广哪家好伊春seo优化多少钱通辽百度竞价包年推广公司汉中SEO按天计费推荐保定模板推广价格汕尾模板网站建设杭州关键词按天计费杭州seo排名多少钱大运SEO按效果付费哪家好阜新优化推荐铜陵SEO按天收费多少钱海东优秀网站设计推荐大芬关键词排名包年推广文山百姓网标王推广多少钱防城港网页设计推荐信阳百搜标王无锡企业网站建设公司歼20紧急升空逼退外机英媒称团队夜以继日筹划王妃复出草木蔓发春山在望成都发生巨响当地回应 60岁老人炒菠菜未焯水致肾病恶化男子涉嫌走私被判11年却一天牢没坐劳斯莱斯右转逼停直行车网传落水者说“没让你救”系谣言广东通报13岁男孩性侵女童不予立案贵州小伙回应在美国卖三蹦子火了淀粉肠小王子日销售额涨超10倍有个姐真把千机伞做出来了近3万元金手镯仅含足金十克呼北高速交通事故已致14人死亡杨洋拄拐现身医院国产伟哥去年销售近13亿男子给前妻转账现任妻子起诉要回新基金只募集到26元还是员工自购男孩疑遭霸凌家长讨说法被踢出群充个话费竟沦为间接洗钱工具新的一天从800个哈欠开始单亲妈妈陷入热恋 14岁儿子报警 #春分立蛋大挑战#中国投资客涌入日本东京买房两大学生合买彩票中奖一人不认账新加坡主帅：唯一目标击败中国队月嫂回应掌掴婴儿是在赶虫子 19岁小伙救下5人后溺亡多方发声清明节放假3天调休1天张家界的山上“长”满了韩国人？开封王婆为何火了主播靠辱骂母亲走红被批捕封号代拍被何赛飞拿着魔杖追着打阿根廷将发行1万与2万面值的纸币库克现身上海为江西彩礼“减负”的“试婚人”因自嘲式简历走红的教授更新简介殡仪馆花卉高于市场价3倍还重复用网友称在豆瓣酱里吃出老鼠头 315晚会后胖东来又人满为患了网友建议重庆地铁不准乘客携带菜筐特朗普谈“凯特王妃P图照”罗斯否认插足凯特王妃婚姻青海通报栏杆断裂小学生跌落住进ICU 恒大被罚41.75亿到底怎么缴湖南一县政协主席疑涉刑案被控制茶百道就改标签日期致歉王树国3次鞠躬告别西交大师生张立群任西安交通大学校长杨倩无缘巴黎奥运

深圳SEO优化公司 XML地图 TXT地图虚拟主机 SEO 网站制作网站优化