睿治

智能数据治理平台

睿治作为国内功能最全的数据治理产品之一,入选IDC企业数据治理实施部署指南。同时,在IDC发布的《中国数据治理市场份额,2022》报告中,蝉联数据治理解决方案市场份额第一。

在线免费试用 DEMO体验 视频介绍

睿治 智能数据治理平台

IDC蝉联数据治理解决方案市场第一

大数据架构平台搭建指南

时间:2022-12-20来源:银朱浏览数:3213

虽然大数据平台组件很多,但是对于没有参与建设过大数据平台的朋友来说,当前众多的大数据组件和平台架构容易让人眼花缭乱。

本文首先介绍了大数据架构平台的组件架构,便于了解大数据平台的全貌,然后分别介绍数据集成、存储与计算、分布式调度、查询分析等方面的观点,最后附上了某企业大数据平台整体架构设计方案PPT,值得借鉴。

01大数据平台架构

从图上可以看出,大数据架构平台分为:数据集成、存储与计算、分布式调度、查询分析等核心模块。我们就沿着这个架构图,来剖析大数据平台的核心技术。

02、数据集成
1. 日志同步开源日志收集系统有 Sqoop、Flume、Logstash、Filebeat、Vector 等,其中 Flume 在云原生场景用的多,Vector 是一个很高效的日志同步工具,刚开源不久。专家观点:

日志同步系统虽然本身比较成熟,但在平时工作中也属于重点,一是因为需要同步的数据量比较大,二是要保证日志输出的持续性,有缓存机制最大限度保障不丢日志,始终保持平稳的运行状态。

2. 数据抽取工具

大数据分析不能直接在原始的业务数据库上直接操作,所以需要抽取想要的数据到分析数据库或者分布式存储系统(例如 HDFS),常见数据抽取工具包括:DataX、BitSail 等。

DataxundefinedDataX 是阿里开源的一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle 等)、HDFS、Hive、ODPS、HBase、FTP 等各种异构数据源之间稳定高效的数据同步功能。

BitSail 项目是头条刚开源的,基于 Flink 开发,在自己内部业务应用广泛。BitSail 支持多种异构数据源间的数据同步,并提供离线、实时、全量、增量场景下的全域数据集成解决方案。

专家观点:

数据集成非常重要,因为跟业务方相关的第一个环节就是数据集成,数据集成如果出现问题比如速度慢、丢数据等,都会影响到业务方数据的使用,也会影响业务方对大数据平台的信任度。

3. 数据传输队列

数据传输有三种: Kafka:流式传输

RabbitMQ:队列传输

Pulsar:流式传输+队列传输

专家观点:

Kafka是Hadoop组件全家桶,名气更大,但是易用性还是差一点。

Pulsar 跟Kafka很像,不过架构比Kafka更先进,属于后起之秀。

03、数据处理: 数据存储、计算

1. 数据存储:HDFSHDFS 特点:横向扩展,数据容错性高。

专家观点:

对于 HDFS 来说,优化是一个很重要的事情,因为 HDFS 的集群规模比较大,又要稳定,又要持续不断的应对业务挑战,优化这一块还是很重要的。如果集群负载大时,访问延迟,会影响集群整体使用效率。

HDFS 的优化趋势包括:架构改进、读写分离、读写优化等。

虽然 HDFS 是分布式文件系统,但在实际场景中,由于 NameNode 的单点和小文件过多导致的压力过大问题,其管理的数据节点是有限的。分布式文件系统的新趋势类似 JuiceFS 的架构,采用「数据」与「元数据」分离存储的架构,从而实现文件系统的分布式设计,利用元数据缓存极大提升整体文件系统的性能,同时兼容大数据和云原生场景的应用。

2. 数据计算

(1)离线计算引擎在众多的计算引擎中,MapReduce、Hive、Spark 等通常用于离线处理,即批计算。Storm、Spark Steaming 等处理实时计算的场景较多,即流计算。不得不说的是,Flink 既可以用于流计算,也可以用于批计算。其中 Hive 的用途很广,也很可靠,底层基于 MapReduce 的封装,属于 Hadoop 全家桶组件之一,缺点是只能实现离线批处理。Spark 是非常高效的批处理工具,成熟,稳定,比 Hive 快很多,并且还能实现近实时的数据处理能力。Spark 功能全,架构新,基于 RDD,计算过程中优先利用内存,并优化中间的计算步骤。

专家观点:

● Spark+数据湖是未来的发展方向。

● 离线的场景很丰富,但是缺乏处理的非常好的统一的计算引擎,hive和spark都无法做到,所以这一块未来还有很大的发挥空间。

(2)实时计算引擎优缺点及适用场景

实时计算引擎大体经过了三代,依次是:storm、spark streaming、Flink。其中storm和spark streaming现在用的很少,大部分公司都在用Flink。

专家观点:

● Flink的优点是:可以实时的进行计算,在处理流计算这个方向上是最好的组件,而且几乎可以替代近实时的业务场景。

● 缺点是对离线处理会略显不足,不太适合处理大批量的离线数据集。

● Flink的优化方向很多:

a. Flink在流处理稳定性上,虽然已经做到极细粒度,但是遇到阻塞时,会存在丢失数据的问题。需要加强稳定性。

b. 实时性的提升:实时的优化是无底洞,业务需求能到秒级别、毫秒级别,怎么能让Flink在业务场景用的好,提升速度的同时,保持数据一致性,是Flink面临的挑战。

04、数据调度

1. 常用任务调度系统

提到常用的任务调度系统,大家都会想到非常多,包括但不限于:Crontab、Apache Airflow、Oozie、Azkaban、Kettle、XXL-JOB、Apache DolphinScheduler、SeaTunnel 等,五花八门。

专家观点:

● Apache DolphinScheduler(海豚调度)更专注于大数据场景,调度功能不复杂,但是足够把任务管理起来。并且它是中文的,这一点对于中文用户较友好。

● Apache Airflow 国外用的多。

2. 资源调度系统

资源调度系统主要包括 Yarn 和 Azkaban。

Yarn 用的广泛,上层很多组件都要支持,所以很受欢迎,对其优化很多。

Azkaban 是资源调度的小众分支,用的人不多。

05、大数据查询

1.  大数据查询引擎

常用的OLAP引擎对比:

专家观点:

专家之一曾经用 Presto 和 StarRocks 做过对比 Impala 的性能测试,结论如下:

● 结果上看 StarRocks 的性能确实很强大,速度最快,但三者对比提升相同量级的性能需要更多的 CPU、内存资源等;

● Impala 在开启各项优化之后,效果是可以接近 StarRocks 的;

● Presto 性能一般,而且发现跑部分 TPC-DS 测试时,调用 HMS API 的频率偶尔很高,曾经把 HMS 搞挂过。但是 Presto 的易用性感觉最好,差不多就是开箱即用,配置很简单。

支持多源数据(多Catalog)的接入,但是随着数据湖对底层数仓存储层的统一加上各个。

其他高效分析引擎对数据湖的支持,这块的优势也会被逐步抹平。

专家对查询引擎优化的观点:

查询引擎优化在大数据平台架构只算一环,不算难点,但确实很重要。整个大数据生态的上下游优化应该是逐步协同进行的,查询引擎上游的数据是需要下功夫治理的,不然 Impala 遇到比如小文件问题是很拖累性能的;查询引擎下游需要一个合适的平台作为数据的展示窗口,比如 BI 工具,或用协议比较通用的客户端,像支持 MySQL 协议的 SR 和 Doris 这些,如果下游没法做比较好的数据展示,查询引擎再牛也没法让大家用起来。 2. 大数据查询优化工具

大数据查询优化工具包括 Alluxio、JuiceFS 和 JindoFS。

专家观点:

Alluxio:

数据编排最为强大,市面上常见的存储系统、云存储服务均可以直接接入,也可以自行实现相关 api 以接入其他自研存储系统,可以说 Alluxio 最为通用,既可用于云存储服务的缓存接入或数据编排,也可作为传统 HDFS 的多集群数据编排。

JuiceFS:

● 提供了和 Alluxio 非常相似的功能,如元数据与数据分离的存储、数据编排、与 Hadoop API 兼容、Fuse 等特性;● JuiceFS 也有不错的数据编排特性,元数据存储的方式比 Alluxio 更多元,主要用于云存储场景。

JindoFS:

● 局限于阿里云 oss 场景的分布式存储系统;● 支持与 Alluxio 非常相似的功能,也能提供内存级的缓存加速;● 但场景局限于 oss 内。

附:大数据平台整体架构设计方案PPT


那么一款趁手好用的 BI工具,就非常重要了。

01 亿信ABI是什么
ABI = ALL in one BI,亿信ABI是一款全能型数据分析产品,融合了数据源适配、ETL数据处理、数据建模、数据分析、数据填报、工作流、门户、移动应用等核心功能而打造的一站式 数据分析平台,为企业提供一站式大数据BI解决方案。

来,先一张图了解整体架构↓

再来一张图了解能力地图↓

02亿信ABI能做什么

沉淀17年,亿信华辰致力于为企业提供一站式大数据BI解决方案,我们一直在不断拓展亿信ABI的应用场景边界,支持以下应用场景:

1.企业运营看板/大屏
亿信ABI内置300+可视化组件,让用户在短时间内,快速搭建一个酷炫的可视化看板或大屏,支持包括指挥中心、会议展厅、汇报演示等业务场景应用,实时监控核心数据、智能预警,让企业的运营者、管理者实时了解生产运营情况,快速做出战略决策。

2.中国式复杂报表
亿信ABI采用类Excel在线设计器,支持多级表头、分组、表元合并、斜线表元、多级浮动、多表体等复杂报表样式,让业务人员无需依赖于IT人员,也能够快速、高效地设计任意“格式复杂、信息量大”的中国式复杂报表,满足公司业务需求。

3.自助式探索分析
亿信ABI可以通过拖拉拽的方式进行数据的分析和探索。拖拽维度和指标,即可快速生成图表。同时,能够根据数据特征自动适配图形进行展示,并提供图形推荐列表供用户选择。自助式数据探索,赋能于业务人员,实现人人都是数据分析师。

4.数据填报分析一体化
通过表单填报、表格填报实现数据的采集与补录,支持添加校验及流程审批,可保障数据完整性,提升数据分析质量,也可轻松打造采集与分析一体化的业务应用系统。

5.数据处理分析一体化
集数据建模及ETL设计的功能于一体,可预先对数据源进行整合及处理,帮助政府和企业构建 数据仓库,提高 数据质量,实现数据融合。

6.多样化的报告分析
亿信ABI支持图文并茂的word分析报告,采用参数过滤的方式来制作报告,图表取自于报表,对报表中相应的数据格添加过滤条件,这样就可以实现报告自动化。同时还支持即席报告、PPT报告。

7.语音交互, 智能分析
亿信ABI也是一款智能BI,可通过文字输入或语音方式提问 ,利用自然语言分析引擎解析翻译,深度识别用户意图,帮助用户更容易地获得数据洞见,实现分析结果随思而行,即问即答,极大降低数据分析门槛。

8.移动跨屏分析
亿信ABI支持PC、iPad和手机等移动设备的应用,无缝对接微信、钉钉等APP,可随时随地地通过移动设备进行数据的采集和分析,实时跟踪业务变化,高效协同办公,从而辅助决策。

03亿信ABI的优势在哪

亿信华辰一直以来,希望用更智能、更多元、更好用的产品,为企业提供BI数据分析与可视化展现于一体的解决方案,而亿信ABI作为BI领域集大成者,更是优势突出:

1.一站式数据服务能力
覆盖数据接入、到数据建模与处理、再到数据分析与挖掘整个数据应用全链路,降低实施、集成成本。

2.一体化的数据建模能力
支持跨不同数据查询整合,与分布式ETL一体化,提供敏捷建模、智能计算,全面支撑各种数据准备需求。

3.超大数据量实时处理
依靠强大的计算分析引擎,高速缓存等技术,完美支持海量历史数据多维查询与分析等场景,大大提高计算性能,实现亿级秒级响应。

4.领先的智能分析能力
运用自然语言分析、机器学习等智能分析能力,提升分析广度和深度,自动化的AI技术,催生更多“民间数据科学家”。

当然,这种展示在用户眼前的界面上的内容,除了要好看、易用,最重要的是要速度,不能给人一种很慢,很卡顿的感觉,这样才能提升用户体验。有啥技术亮点,话不多说上图。

其实产品的特色有很多,不是通过简单的一两句话能阐述清楚。说到这里,如果您有BI数据分析的难题,就直接联系我们吧,相信我们定能助您一臂之力。

(部分内容来源网络,如有侵权请联系删除)
立即申请数据分析/数据治理产品免费试用 我要试用

上一篇: 如何破解企业数字化增长难题?这三大要素缺一不可...

下一篇: 国家电网:抢抓数字新基建机遇 推动电网数字化转型...

  • 相关主题
  • 相关大数据问答
  • 相关大数据知识
HTML5 大数据分析管理 炫酷 人员主数据管理 如何测试数据质量与数据分析的准确性 BI数据看板 数据图表可视化 DMS管理系统 零售制造业数字化 数据报表分析工作总结 数据库质量检查 设备管理可视化 大数据中心如何盈利 ORACLE数据库和MYSQL 生产统计报表的模板 主数据与数据仓库集成 数据展示方案

1 2022云计算十大关键词

2 产品信息管理和主数据管理有哪些区别?

3 数字化转型过程中,管理“转”什么?

4 企业主数据项目建设价值

5 企业管理驾驶舱企业管理中的作用及优势是什么?

1 如何理解商业智能系统

2 数据指标体系如何建立,答案都在这里!

3 数据交换技术主要哪三种

4 大数据分析平台选型评估维度有哪些?

5 大数据可视化的作用

数字化转型
推荐文章
基于数字底座的数字化管理平台建设实践与思考
基于数字底座的数字化管理平台建设实践与思考

2023-07-19

新阶段工业互联网演进及数字化转型新路径探索
新阶段工业互联网演进及数字化转型新路径探索

2023-07-14

2023年数字化转型指数报告
2023年数字化转型指数报告

2023-07-12

数据资产目录构建方法与步骤
数据资产目录构建方法与步骤

2023-07-12

数据资产管理在管理理念、组织形态、管理方式、技术架构、管理手段等7方面的发展趋势
数据资产管理在管理理念、组织形态、管理方式、技术架构、管理手段等7方面的发展趋势

2023-07-06

最近文章

亿信华辰参编《数据要素流通标准化白皮书》, 助推数据要素流通

免费报名 | 企业数据资产入表方法与实施系列直播,4大领域专项分享

年终盘点 | “数”看亿信华辰2023年度成绩单

主数据驱动某大型央企数字变革,亿信华辰鼎力助攻

亿信ABI行业领跑,助力实现数据采集分析展示一体化

customer

在线咨询

深圳SEO优化公司辽源百姓网标王推广推荐珠海seo优化报价成都网站改版多少钱南充网站推广价格连云港SEO按天计费公司张掖网站推广工具哪家好伊犁百搜标王镇江网站推广价格湘潭百搜标王公司防城港网站seo优化价格达州SEO按天扣费哪家好济源seo网站推广多少钱洛阳百度标王哪家好扬州模板网站建设价格沈阳推广网站推荐长春阿里店铺运营公司吉祥设计网站报价长沙网站定制价格大连百度竞价哪家好廊坊SEO按效果付费抚州网站优化按天计费哪家好泉州推广网站海北SEO按天收费推荐松原网站优化软件推荐海南百搜标王推荐赤峰seo排名推荐泰州网站优化按天收费多少钱丹竹头高端网站设计公司中山网络广告推广报价秦皇岛网站推广系统报价歼20紧急升空逼退外机英媒称团队夜以继日筹划王妃复出草木蔓发 春山在望成都发生巨响 当地回应60岁老人炒菠菜未焯水致肾病恶化男子涉嫌走私被判11年却一天牢没坐劳斯莱斯右转逼停直行车网传落水者说“没让你救”系谣言广东通报13岁男孩性侵女童不予立案贵州小伙回应在美国卖三蹦子火了淀粉肠小王子日销售额涨超10倍有个姐真把千机伞做出来了近3万元金手镯仅含足金十克呼北高速交通事故已致14人死亡杨洋拄拐现身医院国产伟哥去年销售近13亿男子给前妻转账 现任妻子起诉要回新基金只募集到26元还是员工自购男孩疑遭霸凌 家长讨说法被踢出群充个话费竟沦为间接洗钱工具新的一天从800个哈欠开始单亲妈妈陷入热恋 14岁儿子报警#春分立蛋大挑战#中国投资客涌入日本东京买房两大学生合买彩票中奖一人不认账新加坡主帅:唯一目标击败中国队月嫂回应掌掴婴儿是在赶虫子19岁小伙救下5人后溺亡 多方发声清明节放假3天调休1天张家界的山上“长”满了韩国人?开封王婆为何火了主播靠辱骂母亲走红被批捕封号代拍被何赛飞拿着魔杖追着打阿根廷将发行1万与2万面值的纸币库克现身上海为江西彩礼“减负”的“试婚人”因自嘲式简历走红的教授更新简介殡仪馆花卉高于市场价3倍还重复用网友称在豆瓣酱里吃出老鼠头315晚会后胖东来又人满为患了网友建议重庆地铁不准乘客携带菜筐特朗普谈“凯特王妃P图照”罗斯否认插足凯特王妃婚姻青海通报栏杆断裂小学生跌落住进ICU恒大被罚41.75亿到底怎么缴湖南一县政协主席疑涉刑案被控制茶百道就改标签日期致歉王树国3次鞠躬告别西交大师生张立群任西安交通大学校长杨倩无缘巴黎奥运

深圳SEO优化公司 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化