备案 控制台
开发者社区 大数据与机器学习 大数据计算 MaxCompute 文章 正文

MaxCompute(原ODPS)开发入门指南——数据开发工具篇

简介: 大家在使用大数据计算服务MaxCompute时,最头疼就是我现在已有的数据如何快速上云?我的日志数据如何采集到MaxCompute上?等等。。。具体详见《MaxCompute(原ODPS)开发入门指南——数据上云篇》。

MaxCompute(原ODPS)开发入门指南——数据开发工具篇

写在最前面

>>>进入了解更多>>>阿里云数加·MaxCompute大数据计算服务.

大家在使用大数据计算服务MaxCompute时,最头疼就是我现在已有的数据如何快速上云?我的日志数据如何采集到MaxCompute上?等等。。。具体详见 《MaxCompute(原ODPS)开发入门指南——数据上云篇》。

SQL Cost

但是数据在MaxCompute上了之后,问题又来了,我怎么基于上面进行快速的数据开发,构建大数据仓库。
本文就重点为大家推荐和介绍开发工具:① 大数据开发套件Data IDE; ② MaxCompute Studio。

大数据开发套件Data IDE

大数据开发套件基于MaxCompute强大的计算存储能力,提供多人协作开发能力且支持百万级别任务稳定调度系统的在线开发工具,在阿里巴巴集团内是建设大数据仓库平台的必备工具。

1.工作流设计器

通过拖拽式进行工作流任务的设计,包括上下游节点任务的依赖关系。包括SQL、MR、数据同步、机器学习、shell节点任务等。

SQL Cost

SQL Cost

2.数据集成

支持常见的数据源集成,提供可视化方式配置和脚本模式,开发者可以根据自己喜好进行选择。

SQL Cost

例子:ftp数据同步到MaxCompute的可视化配置界面。如下:

SQL Cost

例子:ftp数据同步到MaxCompute的脚本开发模式,包括reader和writer。如下:

SQL Cost

3.调度系统

大数据开发套件Data IDE支持调度周期类型:天、小时、分钟(5的倍数)、月、周。也就是说在大数据开发套件中如果做数据集成,最小的数据周期颗粒度为5分钟一次。具体可以在调度配置中进行设置:

SQL Cost

只需要进行下拉框配置即可设置工作流任务的调度周期和任务执行时间。

4.运维系统

提供可视化运维界面,完全解放数据开发运维的问题,包括任务的重跑、kill和补数据等操作。

SQL Cost

5.数据管理

在大数据开发套件中也提供了表级/字段级的数据血缘管理。同时提供整个组织级别的空间表权限管理,包括权限申请、授权和收回。

SQL Cost

详情可以进入了解 大数据开发套件Data IDE!

MaxCompute Studio

不同于大数据开发套件Data IDE,MaxCompute Studio是阿里云数加MaxCompute提供的本地集成开发环境,MaxCompute Studio 基于 IntelliJ IDEA 平台提供了一套扩展插件,皆在提升MaxCompute 用户的开发体验,给到用户不同开发体验的多种选择。

详情可以进入了解 MaxCompute Studio更多信息。

SQL Cost

如下为我本地的开发环境界面:

SQL Cost

具体的安装配置和使用可以查看如下短视频:

MaxCompute Studio安装配置视频

总结

工欲善其事必先利其器。在进行数据开发之前需要根据自己的业务情况、个人喜好来选择正确的大数据开发套件。那么讲这么多,这两个具体在数据开发过程中的差异在哪?

【相同点】

两者都是基于MaxCompute之上的开发者工具,为开发者提供友好的开发体验。

【差异点】

① 调度系统:Data IDE具有强大且稳定的调度系统,在阿里集团内部稳定保障数据产生多年。适合数据开发者进行搭建大型数据仓库。而MaxCompute Studio更偏向于本地开发和数据分析,是没有自己的调度系统。

② UDF/MR开发:Data IDE本身不支持UDF/UDF源码开发和编译,只接受jar包资源方式上传的执行;而Studio提供 UDF开发、 MR开发。

③ Data IDE大数据开发套件是在线的开发工具,用户只需要能够上网即可进行。而MaxCompute Studio需要安装在本地,故需要对本地的环境有要求。

SQL Cost

SQL Cost

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
祎休
目录
相关文章
芯在这
|
22天前
|
DataWorks Oracle 关系型数据库
DataWorks操作报错合集之尝试从Oracle数据库同步数据到TDSQL的PG版本,并遇到了与RAW字段相关的语法错误,该怎么处理
DataWorks是阿里云提供的一站式大数据开发与治理平台,支持数据集成、数据开发、数据服务、数据质量管理、数据安全管理等全流程数据处理。在使用DataWorks过程中,可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。
芯在这
38 0
芯在这
|
22天前
|
运维 DataWorks 关系型数据库
DataWorks产品使用合集之DataWorks还有就是对于mysql中的表已经存在数据了,第一次全量后面增量同步的步骤如何解决
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
芯在这
43 2
caramel
|
10天前
|
DataWorks 安全 数据可视化
手把手操作-在自建的 Web 嵌入 DataWorks 数据血缘图
DataWorks 提供丰富的数据可视化界面,让用户能轻松地透过界面操作大数据业务,但仍有集成至自建 Web 界面的需求,减少切换页面的频率。下文就以透过阿里云令牌服务结合自建 Web 界面代理登录阿里云,做到嵌入DataWorks数据地图的血缘图。
caramel
60 1
手把手操作-在自建的 Web 嵌入 DataWorks 数据血缘图
芯在这
|
22天前
|
分布式计算 DataWorks 数据管理
DataWorks操作报错合集之DataWorks中udf开发完后,本地和在MaxCompute的工作区可以执行函数查询,但是在datawork里报错FAILED: ODPS-0130071:[2,5],是什么原因
DataWorks是阿里云提供的一站式大数据开发与治理平台,支持数据集成、数据开发、数据服务、数据质量管理、数据安全管理等全流程数据处理。在使用DataWorks过程中,可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。
芯在这
33 0
芯在这
|
22天前
|
DataWorks NoSQL Java
DataWorks操作报错合集之在 DataWorks 中运行了一个 Hologres 表的任务并完成了执行,但是在 Hologres 表中没有看到数据,该怎么解决
DataWorks是阿里云提供的一站式大数据开发与治理平台,支持数据集成、数据开发、数据服务、数据质量管理、数据安全管理等全流程数据处理。在使用DataWorks过程中,可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。
芯在这
30 0
芯在这
|
22天前
|
分布式计算 DataWorks 数据库
DataWorks操作报错合集之DataWorks使用数据集成整库全增量同步oceanbase数据到odps的时候,遇到报错,该怎么处理
DataWorks是阿里云提供的一站式大数据开发与治理平台,支持数据集成、数据开发、数据服务、数据质量管理、数据安全管理等全流程数据处理。在使用DataWorks过程中,可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。
芯在这
29 0
芯在这
|
22天前
|
分布式计算 DataWorks 关系型数据库
DataWorks操作报错合集之在DataWorks同步数据时,遇到乱码问题,该怎么解决(rest api数据源)
DataWorks是阿里云提供的一站式大数据开发与治理平台,支持数据集成、数据开发、数据服务、数据质量管理、数据安全管理等全流程数据处理。在使用DataWorks过程中,可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。
芯在这
28 0
芯在这
|
22天前
|
缓存 DataWorks 监控
DataWorks操作报错合集之在DataWorks中进行数据同步时,遇到数据量大的表同步时报链接异常,该怎么办
DataWorks是阿里云提供的一站式大数据开发与治理平台,支持数据集成、数据开发、数据服务、数据质量管理、数据安全管理等全流程数据处理。在使用DataWorks过程中,可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。
芯在这
24 0
芯在这
|
22天前
|
分布式计算 DataWorks 数据管理
DataWorks操作报错合集之在DataWorks数据开发模块中一直显示“工作空间默认初始化中”,该怎么办
DataWorks是阿里云提供的一站式大数据开发与治理平台,支持数据集成、数据开发、数据服务、数据质量管理、数据安全管理等全流程数据处理。在使用DataWorks过程中,可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。
芯在这
32 3
芯在这
|
22天前
|
分布式计算 DataWorks 关系型数据库
DataWorks产品使用合集之在 DataWorks 中,使用Oracle作为数据源进行数据映射和查询,如何更改数据源为MaxCompute或其他类型
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
芯在这
36 1
大数据与机器学习

大数据计算 MaxCompute

热门文章

最新文章

  • 1
    阿里巴巴飞天大数据平台MaxCompute(原名ODPS)全套攻略(持续更新20200109)
  • 2
    阿里云开源离线同步工具DataX3.0介绍
  • 3
    盘古:阿里云飞天分布式存储系统设计深度解析
  • 4
    odps是什么?
  • 5
    美柚:最懂女性App背后的混合云架构与大数据服务
  • 6
    MaxCompute执行作业慢的原因排查
  • 7
    优酷背后的大数据秘密
  • 8
    吴刚专访--大数据和 MaxCompute 技术和故事
  • 9
    一分钟了解阿里云产品:大数据计算服务MaxCompute概述
  • 10
    使用 odps-jdbc 接入 ODPS,不再从零开始
  • 1
    http代理IP能开展哪些应用?
    8
  • 2
    短效http代理为什么比长效http代理用的人多?
    12
  • 3
    更换了浏览器http代理ip使用不了的原因是什么
    44
  • 4
    实现根据gps数据计算停留点udaf函数
    28
  • 5
    奇思妙想的SQL|兼顾性能的数据倾斜处理新姿势
    31
  • 6
    一些MaxCompute日常优化案例分享
    32
  • 7
    MaxCompute产品使用合集之在大数据计算MaxCompute中,怎么查看工作空间中正在运行的查询和任务
    50
  • 8
    MaxCompute产品使用合集之怎样可以将大数据计算MaxCompute表的数据可以导出为本地文件
    237
  • 9
    MaxCompute产品使用合集之要查看MaxCompute Studio中的项目中的计算任务代码,我该怎么操作
    159
  • 10
    MaxCompute产品使用合集之MaxCompute的性能受到哪些因素的影响
    139
  • 相关产品

  • 云原生大数据计算服务 MaxCompute
    文档详情 产品详情
  • 相关课程

    更多
  • 大数据Spark2020最新课程(知识精讲与实战演练)第二阶段
  • 大数据Spark2020版(知识精讲与实战演练)第四阶段
  • 2020版大数据实战项目之DMP广告系统(第七阶段)
  • 一站式大数据开发治理平台DataWorks初级课程
  • DataWorks 使用教程
  • DataWorks一站式大数据开发治理平台精品课程
  • 相关电子书

    更多
  • DataWorks高效数据分析最佳实践-2020飞天大数据平台实战应用第一季
  • DataWorks调度任务迁移最佳实践-2020飞天大数据平台实战应用第一季
  • DataWorks商业化资源组省钱秘籍-2020飞天大数据平台实战应用第一季
  • 相关实验场景

    更多
  • 基于小程序Serverless开发个人相册小程序
  • 函数计算进阶-IP查询工具开发
  • 基于Hologres轻松玩转一站式实时仓库
  • 数据湖构建DLF快速入门
  • MMA大数据迁移实训
  • 通过FastMR自动拉起大数据集群并运行TPCDS任务
  • 下一篇
    2024年阿里云免费云服务器及学生云服务器申请教程参考

    深圳SEO优化公司茂名高端网站设计哪家好商洛网页设计推荐南阳网站优化按天计费多少钱营口网站优化按天计费报价沈阳百度竞价包年推广哪家好兴安盟网站制作推荐镇江网络推广张掖百度关键词包年推广南宁网站推广系统公司济源网站建设许昌网站推广工具多少钱宝安网站优化排名哪家好晋中百度标王推荐清徐营销网站多少钱光明网站排名优化哪家好清徐外贸网站设计福田关键词排名推荐佛山网站排名优化推荐天津推广网站多少钱黔西南seo网站优化凉山百度seo公司宝安网站开发哪家好衢州关键词按天计费多少钱荷坳网站开发价格嘉兴营销型网站建设多少钱晋城网站建设设计哪家好锦州网站设计报价飞来峡网站排名优化推荐思茅百度关键词包年推广报价徐州SEO按效果付费多少钱歼20紧急升空逼退外机英媒称团队夜以继日筹划王妃复出草木蔓发 春山在望成都发生巨响 当地回应60岁老人炒菠菜未焯水致肾病恶化男子涉嫌走私被判11年却一天牢没坐劳斯莱斯右转逼停直行车网传落水者说“没让你救”系谣言广东通报13岁男孩性侵女童不予立案贵州小伙回应在美国卖三蹦子火了淀粉肠小王子日销售额涨超10倍有个姐真把千机伞做出来了近3万元金手镯仅含足金十克呼北高速交通事故已致14人死亡杨洋拄拐现身医院国产伟哥去年销售近13亿男子给前妻转账 现任妻子起诉要回新基金只募集到26元还是员工自购男孩疑遭霸凌 家长讨说法被踢出群充个话费竟沦为间接洗钱工具新的一天从800个哈欠开始单亲妈妈陷入热恋 14岁儿子报警#春分立蛋大挑战#中国投资客涌入日本东京买房两大学生合买彩票中奖一人不认账新加坡主帅:唯一目标击败中国队月嫂回应掌掴婴儿是在赶虫子19岁小伙救下5人后溺亡 多方发声清明节放假3天调休1天张家界的山上“长”满了韩国人?开封王婆为何火了主播靠辱骂母亲走红被批捕封号代拍被何赛飞拿着魔杖追着打阿根廷将发行1万与2万面值的纸币库克现身上海为江西彩礼“减负”的“试婚人”因自嘲式简历走红的教授更新简介殡仪馆花卉高于市场价3倍还重复用网友称在豆瓣酱里吃出老鼠头315晚会后胖东来又人满为患了网友建议重庆地铁不准乘客携带菜筐特朗普谈“凯特王妃P图照”罗斯否认插足凯特王妃婚姻青海通报栏杆断裂小学生跌落住进ICU恒大被罚41.75亿到底怎么缴湖南一县政协主席疑涉刑案被控制茶百道就改标签日期致歉王树国3次鞠躬告别西交大师生张立群任西安交通大学校长杨倩无缘巴黎奥运

    深圳SEO优化公司 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化