写在前面

本文隶属于专栏《大数据从 0 到 1》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!

本专栏目录结构和文献引用请见 《大数据从 0 到 1》

解答

大数据特征通常指的4V。

  1. 数据量大(Volume) 非结构化数据的超大规模和增长,导致数据集合的规模不断扩大,数据单位已从GB到TB再到PB级,甚至开始以EB和ZB来计数。
  2. 类型繁多(Variety) 大数据的类型不仅包括网络日志、音频、视频、图片、地理位置信息等结构化数据,还包括半结构化数据甚至是非结构化数据,具有异构性和多样性的特点。
  3. 价值密度低(Value) 大数据本身存在较大的潜在价值,但由于大数据的数据量过大,其价值往往呈现稀疏性的特点。虽然单位数据的价值密度在不断降低,但是数据的整体价值在提高。
  4. 速度快时效高(Velocity) 要求大数据的处理速度快,时效性高,需要实时分析而非批量式分析,数据的输入、处理和分析连贯性地处理。

大数据4V

补充

7V

在这里插入图片描述

还有3V也常见于各类大数据相关书刊,但是存在争议。

精准性(Veracity)

在大数据的背景下,精准性指的是准确地分析数据,以获得有意义的结果。

由于数据源众多,尤其某些用户输入的非结构化数据的质量不太可靠,处理某些渠道的数据时必须慎之又慎。如果有企业想要在业务上应用这些数据,必须更加严格地验证这些数据的准确性。

视野(Vision):

每一个大数据领域相关的企业都应该有一个清晰的视野,并且改进业务流程来充分利用它。同时,企业的管理层应该充分理解数据湖等大数据技术给企业带来的变化,并在决策时充分考虑到这一点。

可视化(Visualization)

大数据预期将存储巨量数据。其中部分数据意义重大,另一部分则不尽然。数据科学家们会研究这些数据来发现有意义的规律,这些发现需要以有效的方式呈现给管理层。

要取得大数据方面的成功,对各种格式的数据进行有意义的可视化是必不可少的。

# 大数据
Logo
松山湖开发者村综合服务平台

助力广东及东莞地区开发者,代码托管、在线学习与竞赛、技术交流与分享、资源共享、职业发展,成为松山湖开发者首选的工作与学习平台

更多推荐

  • · PHP在线生成查询产品防伪证书系统源码
  • · PHP 使用websocket推荐使用
  • · 测试标题-存草稿箱1
cover

PHP在线生成查询产品防伪证书系统源码

cover

PHP 使用websocket推荐使用

测试标题-存草稿箱1

测试标题-存草稿箱 1