COS 数据湖最佳实践:基于 Serverless 架构的入湖方案
数据湖(Data Lake)概念自 2011 年被推出后,其概念定位、架构设计和相关技术都得到了飞速发展和众多实践,数据湖也从单一数据存储池概念演进为包括 ETL 分析、数据转换及数据处理的下一代基础数据平台。
![](https://main.qcloudimg.com/raw/fbb3830e476a3e7ee922d78ac17565d8.png)
如果需要给数据湖下一个定义,可以定义为:数据湖是一个企业的各种各样原始数据的大型仓库,其中的数据可供存取、处理、分析及传输。数据湖是一种存储架构,本质上讲是存储,所以通常情况下会用最经典的对象存储,比如用腾讯云对象存储 COS 当数据湖的地基。
数据湖从企业的多个数据源获取原始数据,并且针对不同的目的,同一份原始数据还可能有多种满足特定内部模型格式的数据副本。因此,数据湖中被处理的数据可能是任意类型的信息,从结构化数据到完全非结构化数据。
那么,企业如何从各个数据源构建数据管道,如何将各种数据数据稳定可靠的存入数据湖存储是非常重要的一环。
这篇文章就数据湖的入湖管道为大家详细解答关于 COS 数据湖结合 Serverless 架构的入湖方案。
01. 数据湖数据链路分析
为了更好的理解如何构建数据湖,我们可以先了解下数据湖背景下的数据生命周期。
![](https://main.qcloudimg.com/raw/708abe1bba390cf1d53148f6a1e70b04.png)
上述生命周期也可称为数据在数据湖中的多个不同阶段。每个阶段所需的数据和分析方法也有所不同。数据处理其实有批量(batch)和流式计算(real - time)两种方式。这里定制化内容会比较多
cquptcqs: 所以要怎么对接数据库呢?有啥低成本的对接方案有没有。serverless我才不想把数据库host username password 上传上去呢,鬼知道数据是不是安全的。
xss初级选手: 有详细教程吗
m0_73385577: 马一个
mahowxhk2645542961: 写的不错啊,外部群一般可以通过PC企微模拟,2645-542961还可以二次开发的
2580185125路西: 留言一下我的几个失误,之前成功了,踩了很多坑,隔了一段时间没用,又踩了一些新的坑,太粗心大意了,所以把我的经历分享出来记录一下,避免下次再踩。 在进入环境的时候,开一个新项目需要修改一下py的名称,不然会报错,安装第三方库的时候不要忘了 -t . 的后缀,不然下载的文件夹是空的