暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

kettle组件使用-文本文件输入

原创 超越无限D 2022-06-14
2232

第3章 转换步骤

3.1文本文件输入

【功能描述】

可通过此步骤读取大量不同的文本文件,可指定读取的文件列表,或者用正则表达式表示的目录列表。

【操作步骤或操作内容】

功能1:文件名称指定

  1. 指定文件名后,并按“增加”按钮,你可以添加一个文件到“选择文件”中,如下所示:


  1. 你也可以用指定正则表达式通配符的形式来搜索文件。正则表达式比简单的用“?”和“*” 通配符更有效。

文件名

正则

选择的文件

/dirA/

.*userdata.*/.txt

所有在/dirA/目录下的并且文件名包含userdata、以txt为后缀的文件。

/dirB/

AAA.*

所有在/dirB/目录下的并且文件名以AAA 开头的文件。

/dirC/

[A-Z][0-9].*

所有在/dirC/目录下的并且文件名以字母开头、紧接着一个数字的文件。

功能2:内容指定

  1. 内容标签允许你指定正在读取的文本文件的格式:


  1. 下面是标签的选项列表:

选项

描述

文件类型

可以是CSV 或者Fixed length(固定长度)。

分隔符

在文本的单行中,一个或多个字符将被用来分隔字段,

比较有代表性的是;或者一个tab 制表符。

封闭字符

一些字段能够被一对允许分隔的字符来封闭。封闭字符

串是可选的。

逃逸字符

如果你的数据中有逃逸字符,就指定逃逸字符(或者逃

逸字符串)。如果\作为逃逸字符,文本’Not the nine

o\’clock news.’(’作为封闭字符),将被解析成Not

the nine o’clock news.

头部/头部行数量

如果你的文本文件有头部行就使用这个。你可以指定头

部行出现的次数。

尾部/尾部行数量

如果你的文本文件有尾部行就使用这个。你可以指定尾

部行出现的次数。

包装行/包装行数量

利用这个来处理被某些页限制包装的数据行。注:头部

和尾部从来不考虑被包装。

分页布局/每页行数/文档头部行

在行打印机上打印的时候,你可以用这个选项作为最终

的手段。用头部行的数量来跳过介绍性的文本,用每页

的行数来定位数据行。

压缩

如果你的文件是ZIP 文件或者GZIP 归档文件,就启用

这个。注:此刻归档文件中仅仅第一个文件被读取。

没有空行

不往下一步发送空行。

输出包含文件名

如果你想文件名作为输出的一部分,可以启用这个。

文件名字段名称

包含文件名的字段名称。

输出行数

如果你想行数作为输出的一部分,可以启用这个。

行数字段名称

包含行数的字段名称。

根据文件获取行数

允许每个文件重置的行数。

格式

可以是DOS、UNIX 或者混合模式。UNIX 行终止可以是

回车,DOS 中可以是回车或者换行。如果你选择混合模

式,将不会验证。

编码方式

指定文本文件编码方式。如果不设置就使用系统默认的

编码方式。如果想用Unicode,可以指定UTF-8 或者

UTF-16。第一次使用的时候,Spoon 将搜索系统,寻找

可用的编码。

记录数量限制

设置读取记录的行数。0 代表读取所有的。

解析日期时是否严格要求

如果你想严格的解析数据字段,可以禁用这个选项。如

果启用的时候,Jan 32nd 将变成Feb 1st。

本地日期格式

在本地日期常常被解析为“February wnd,2006”的形

式,在用法语本地化的系统中日期将不会被解析,因为

在法语本地化中February 不能理解。

功能3:错误处理

  1. 当错误发生的时候,错误处理标签允许你指定这个步骤将重新做些什么。


  1. 下面是标签的选项列表

选项

描述

忽略错误

如果在解析的时候忽略错误,就指定这个选项。

跳过错误行

使用这个选项来跳过那些出现错误的行。你可以生成另外的文件来包含发生错误的行号。如果不跳过错误行,解析错误字段将是空的。

错误计数字段

在输出流行中增加一个字段,这个字段将包含错误发生的行数。

错误字段字段名

在输出流行中增加一个字段,这个字段将包含错误发生的字段名称。

错误文本字段名

在输出流行中增加一个字段,这个字段将包含解析错误发生字段的描述。

警告文件目录

当警告发生的时候,它们将被放进这个目录。文件名将是<警告目录>/文件名.<日期时间>.<警告文件扩展>。

错误文件目录

当错误发生的时候,它们将被放进这个目录。文件名将是<错误文件目录>/文件名.<日期时间>.<错误文件扩展>。

失败行数文件目录

当解析行的时候发生错误,行号将被放到这个目录。文件名将是<错误行目录>/文件名.<日期时间>.<错误行扩展>。

功能4:过滤

  1. 在“过滤”标签中,你可以指定文本文件中要过滤的行。


  1. 下面是标签的选项列表。

选项

描述

过滤字符

搜索字符串。

过滤位置

在行中过滤字符串必须存在的位置。0 是起始位置,如果你指定一个小于0 的值,过滤器将搜索整个字符。

停止在过滤器

如果你想在文本文件遇到过滤字符的时候,停止处理,就指定Y。

功能5:字段

  1. 设定要导入的字段。


  1. 选项。

选项

描述。

名称

设置要在输出流中显示的字段名称。

类型

字段类型(String、Date、Number 等)。

长度

对于Number:有效数的数量。

对于String:字符的长度。

对于Date:打印输出字符的长度(例如4 代表返回年份)。

精度

对于Number:浮点数的数量。

对于String,Date,Boolean:未使用。

货币类型

用来解释如$10,000.00 的数字。

小数

小数点可以是”.”(10;000.00)或者”,”(5.000,00)。

分组

分组可以是”.”(10;000.00)或者”,”(5.000,00)。

如果为空

空值如何处理。

默认

字段为空的时候的默认值。

去空字符串

处理之前先去空。

重复

Y/N:如果在当前行中对应的值为空,则重复最后一次不为空的值。

kettle
「喜欢这篇文章,您的关注和赞赏是给作者最好的鼓励」
关注作者
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文章的来源(墨天轮),文章链接,文章作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论

深圳SEO优化公司邯郸百搜标王公司镇江营销网站多少钱北海SEO按效果付费多少钱爱联外贸网站建设推荐上饶品牌网站设计哪家好西宁百姓网标王价格宿州百度网站优化排名哪家好石岩百度网站优化哪家好鸡西外贸网站建设公司大连建站价格长沙百搜标王公司邢台网页设计秦皇岛网站排名优化公司德州seo优化哪家好邢台关键词排名哪家好甘孜百姓网标王哪家好丽水网站建设公司宜昌网站优化按天扣费价格扬州推广网站公司黄石网站优化软件哪家好淮安网站建设价格白银网站建设设计哪家好黔东南外贸网站建设多少钱垦利百姓网标王推广哪家好廊坊至尊标王哪家好防城港网站优化推广推荐宿州优化报价曲靖网站推广方案哪家好大丰建网站湖州SEO按天扣费价格歼20紧急升空逼退外机英媒称团队夜以继日筹划王妃复出草木蔓发 春山在望成都发生巨响 当地回应60岁老人炒菠菜未焯水致肾病恶化男子涉嫌走私被判11年却一天牢没坐劳斯莱斯右转逼停直行车网传落水者说“没让你救”系谣言广东通报13岁男孩性侵女童不予立案贵州小伙回应在美国卖三蹦子火了淀粉肠小王子日销售额涨超10倍有个姐真把千机伞做出来了近3万元金手镯仅含足金十克呼北高速交通事故已致14人死亡杨洋拄拐现身医院国产伟哥去年销售近13亿男子给前妻转账 现任妻子起诉要回新基金只募集到26元还是员工自购男孩疑遭霸凌 家长讨说法被踢出群充个话费竟沦为间接洗钱工具新的一天从800个哈欠开始单亲妈妈陷入热恋 14岁儿子报警#春分立蛋大挑战#中国投资客涌入日本东京买房两大学生合买彩票中奖一人不认账新加坡主帅:唯一目标击败中国队月嫂回应掌掴婴儿是在赶虫子19岁小伙救下5人后溺亡 多方发声清明节放假3天调休1天张家界的山上“长”满了韩国人?开封王婆为何火了主播靠辱骂母亲走红被批捕封号代拍被何赛飞拿着魔杖追着打阿根廷将发行1万与2万面值的纸币库克现身上海为江西彩礼“减负”的“试婚人”因自嘲式简历走红的教授更新简介殡仪馆花卉高于市场价3倍还重复用网友称在豆瓣酱里吃出老鼠头315晚会后胖东来又人满为患了网友建议重庆地铁不准乘客携带菜筐特朗普谈“凯特王妃P图照”罗斯否认插足凯特王妃婚姻青海通报栏杆断裂小学生跌落住进ICU恒大被罚41.75亿到底怎么缴湖南一县政协主席疑涉刑案被控制茶百道就改标签日期致歉王树国3次鞠躬告别西交大师生张立群任西安交通大学校长杨倩无缘巴黎奥运

深圳SEO优化公司 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化