筛选:  面向对象数据库系统论文 计算机数据库系统论文 数据库系统开发设计论文 数据库系统原理论文 关于数据库系统的论文 数据库系统数学模型论文 信息系统数据集成论文 图像处理技术论文 仓库管理数据挖掘论文 数据库选题系统论文

【学士论文】商业银行数据仓库系统中ETL的设计与实现(论文选题)

星级: ★★★★ 期刊: CN刊物作者:周飞 刘梦娜 张晖 李志刚 曹帅 浏览量:2772 论文级别:最新本章主题:数据系统原创论文: 5156论文网时间:2014年3月2日审核稿件编辑:Atwood本文版权归属:www.5156chinese.cn 分享次数:4258 评论次数: 7603

导读:商业银行数据仓库系统中ETL的设计与实现是一篇相关数据系统的毕业论文题目,免费分享阅读下载是对毕业生写作论文有着参考意义。

摘要:本文基于国内某商业银行数据中心的新核心系统项目,首先介绍近年来数据仓库的国内外发展状况,其次根据商业银行各业务系统的特点,分析出建设商业银行数据仓库的重大意义和存储规划.最后详细介绍了数据调度ETL系统的开发与设计,从各个源系统中抽取数据到数据仓库的实现方法,对银行数据仓库的设计与实现有一定的参考应用价值.

关键词:数据仓库;ETL;商业银行;商业智能

中图分类号:TP311文献标识码:A

文章编号:2096-1472(2018)-11-42-04

1引言(Introduction)

数据仓库是应用于银行业的重要技术.近年来,随着商业银行各业务系统的不断发展,产生了日益庞大的历史数据,这些数据是银行十分重要的战略资源,将这些重要的业务数据存储于数据仓库中统一管理,进行数据分析,挖掘出其中潜在的重要的商业信息,可以很好的辅助银行领导层管理决策,解决银行最紧迫的问题,使银行的经济效益最大化,从而使银行更好更快的发展.在大数据时代下,基于数据仓库的数据挖掘是银行业之间竞争的重要工具[1].

在1990年BillInmon提出了一种新的数据库技术,即数据仓库,目的是用来存储和组织各业务系统的海量数据,并对数据进行分析.ETL(Extract,Transform,Load)系统工具专用于业务数据到数据仓库中存储的处理过程,在数据源和数据仓库之间起到了桥梁和纽带的作用,直接影响数据仓库的建设和运行.对于ETL系统的研究和开发是建设数据仓库必须考虑的重要问题,通过改进ETL技术提高数据的传输和存储效率,是建设商业银行数据仓库永恒的目标,能更好的促进银行业的发展.

2ETL技术简介(IntroductionofETLtechnology)

完整的数据仓库系统如图1所示,数据的ETL是建立数据仓库系统的第一步[2,3],是应用于数据仓库项目的重要步骤,为后续的数据挖掘和决策支持做好准备.

数据仓库中数据的调度工作是通过ETL工具来实现的.ETL是数据调度系统三个阶段抽取(Extract)、转换(Transform)、装载(Load)的英文首字母缩写[4,5].下面我们来简要的介绍ETL的三个阶段.

2。1数据抽取

商业银行数据仓库系统中ETL的设计与实现
数据系统毕业论文题目

首先分析从每个数据源获取数据的策略,分析从数据源系统中收集到的原始数据,存入ETL环境的物理存储磁盘上.每次执行完一次ETL调度后,源系统会产生新的数据,称这些新的数据为变化的数据,用变化的原因标记有变化的数据,抽取其中所有变化的数据.简要的抽取步骤为:

(1)Dump:复制来源数据.

(2)Capture:抽选所需资料.

如何撰写数据专业学士论文
预览次数:3196 评说人数:2756

(3)Detect:数据变更获取.

2。2数据转换

将业务数据以Push/Pull方式从源系统环境传送到数据仓库环境中.数据转换加工,完成的是从缓冲区到基础区的加工,以及基础区到汇总区的转换任务.在本项目中这类作业通过JAVA程序調用实现,JAVA程序调用SQL脚本,执行具有特定转化逻辑的SQL语句.简要的转换步骤为:

(1)StagingLoad:将数据加载暂存区.

(2)Validation:检查数据并指定索引键.

(3)Transformation:将来源文件的结构转换成目标仓储表格结构.

(4)Merge:将多个数据源的数据融合.

2。3数据装载

将源系统抽取转换的数据最终装载到数据仓库中,简要的装载步骤为:

(1)Apply:将变更记录更新到数据仓库区.

(2)SummarizeandMart:建立数据汇总和数据集市.

(3)Cube:建立数据集市的多维分析.

3ETL系统的架构设计(FrameworkdesignoftheETLsystem)

我们分析了国内A商业银行各业务系统的数据源,对数据仓库存储的数据做一个总体的预估,如表1所示.根据数据的存储情况,设计相应的ETL系统架构,把数据从数据源系统中抽取出数据,加载至数据仓库中[6].由于在源系统开发中有着非常多的挑战,导致ETL系统开发存在着极高的难度.任何意外情况的发生都会导致ETL系统的开发延期,耽误项目整体进度,增加项目成本.因此ETL调度系统的架构设计一定要非常仔细谨慎.

3。1ETL系统的功能与特点

根据商业银行的业务特点和客户对产品的需求,此项目设计的ETL系统将实现以下功能:

(1)ETL支持数据源多,异构平台的数据关联.支持系统的可视化、参数化.支持集群、负载均衡.

(2)ETL支持事件触发、消息触发等多种触发机制.

(3)ETL支持多并发处理方式,可以根据系统处理资源的情况调整并发程度,处理效率高.

(4)ETL支持多节点处理,可以根据系统性能的要求,增加硬件功能来提高系统的生成效率.

3。2ETL系统架构设计

结合国内某商业银行的业务特点,我们规划出ETL系统架构图如图2所示.

对于详细的ETL系统架构,我们参照下面四个方面来设计[7-9].

(1)设计全局规划

规划源数据,各系统业务逻辑,目标数据仓库 设计架构.根据各个系统业务逻辑的不同,开发相应的ETL系统,解决当前数据调度存在的和还未解决的问题.

(2)选择ETL工具

在数据仓库市场上存在多种ETL工具,本文采用调度抽取工具Datastage主动到各个源系统中获取数据.(3)开发默认策略

对ETL工具的基本需求进行整体考虑,开发默认策略.这些包括:从每个源系统获取数据,归档获取的数据或分级的数据,监管维度和特定事实的数据质量,维度属性变化的管理,确保数据仓库和ETL系统满足系统可用性需求,设计数据审计子系统,组织ETL过渡区.

(4)按照目标表获取数据

开发完所有的ETL调度任务后,还需要深入研究详细的转换工作.确定数据仓库中数据来源的目标表,完成源数据到目标表的映射后,继续完成数据概要描述工作,全部理解每个表所需要的数据转换.

4ETL在BI项目中的应用(ETLapplicationintheBusinessIntelligenceproject)

下面在A商业银行BI(BusinessIntelligence)项目,我们通过ETL调度系统来完成数据的转换和存储.在遵循ETL逻辑架构的基础上,为各个源数据系统中的每一张业务表设计一个调度作业,表中数据的开发就是对调度作业数据的ETL操作过程.完成调度作业中数据的ETL阶段代码编写、ETL调度开发,实现整个ETL数据存储到数据仓库中[10,11].

进行ETL调度系统开发,首先要搭建开发环境,包括:导入初始化数据、设计调度程序、设计监控程序.其中调度程序的设计分为ETL任务设计和ETL调度设计,此外还要开发一个数据检测程序SendMessage作为调度程序的辅助工具.监控程序的设计就是ETL监控设计.

4。1ETL任务设计

首先要分析整理出调度作业的任务信息,包括数据源系统、各个系统中所有调度作业的编号、调度作业的阶段信息、调度作业之间的前后驱关系等.具体设计步骤如下:

(1)按照数据源系统和作业处理阶段收集任务信息,包括任务的执行周期、任务类型、任务渠道、任务阶段等.把收集到的所有数据源系统依次编号,例如现在已经收集到了核心系统、信贷系统、ECIF系统、财管系统,依次将核心系统编号为10000、信贷系统编号为20000、ECIF系统编号为30000,财管系统编号为40000,后续出现的数据源系统以10000为单位编排下去.将作业每个调度阶段进行编号,如数据检测阶段编号为1000,数据导出阶段编号为2000,数据传输阶段编号为3000,数据装载阶段编号为4000,数据备份阶段编号为5000,其他阶段编号为9000等.

(2)对收集到的所有作业进行任务编码,例如核心系统共100个作业,每个作业都经过检测装载备份三个阶段,第一个作业检测阶段编号11001,其中万位数的1代表核心系统10000,千位数的1代表检测阶段1000,后三位001代表第一个作业.第一个作业生成装载阶段的作业编号14001,备份阶段的作业编号15001,其他作业依次按顺序生成相应的检测,装载,备份作业编号.统计所有的作业编号,阶段信息和渠道信息,生成作业信息表.

(3)根据作业信息表中的任务信息,分析其所属的阶段和数据源,确定各任务之间的前后驱关系.一个ETL调度系统一般都是由上万个不同的任务共同协作完成,任务之间的关系决定整个数据调度过程是否能够顺利进行.ETL调度系统中处理作业是按顺序来的.先执行的作业被称为前驱任务,用来决定其他作业是否执行,后执行的作业被称为后驱任务.ETL任务中只有前一个作业处理执行成功才会执行后一个作业,所以作业之间的前后驱关系很重要.每个数据源系统设有一个首作业,首作业的后驱作业是所有的检测作业,检测作业的后驱作业是装载作业,装载作业的后驱作业是备份作业.梳理完成所有作业的前后驱关系,整合到调度系统中,在作业信息表中添加阶段开始和结束的标志性任务,生成作业流程表.

(4)将前面整理好的作业任务转化为SQL语句程序,在ETL工作站上部署该程序,系统启动后,调度生成程序根据作业信息表和作业流程表生成作业调度表.

4。2ETL调度设计

由于数据源系统非常多,所需加载的数据也非常多,导致ETL调度程序的设计非常复杂,因此设计一个完善且易于维护的ETL调度程序,对数据仓库的正常工作运行是非常重要[12].ETL调度流程如图3所示.结合业务系统的特点,设计出高效的ETL调度程序,具体设计步骤如下:

(1)作业调度表生成完毕,开始执行调度任务程序,根据作业调度表中作业信息,作业调度执行的情况,生成调度执行情况表.

(2)根据作业优先级关系向各个ETL工作站分配相应数量的作业任务.如果某ETL工作站执行作业已经完成,则将新的作业分配给该ETL工作站,并更新调度执行情况表.

(3)假如某个调度任务执行出错,则根据作业错误处理级别对作业进行相应处理,如等待人工处理、自动跳过错误任务、重复执行等.如果需要人工处理调度任务,则人工对调度任务进行相应处理,并记录日志.

(4)当作业调度表中任务全部执行完成后,暂停调度程序,等待下一批次调度任务,ETL工作站也处于等待状态.

4。3ETL监控设计

ETL作业任务运行过程中,需要实时监控所有的作业执行情况,其中包括ETL单个作业的状态监控等信息,ETL监控的主要作用是监控任务的执行情况及支持对错误任务的手工处理.

接收調度执行终端的反馈结果并进行相应的处理,反馈结果有任务成功,失败状态.接收数据检测消息发送器的消息并做相应的处理,如接收到核心系统渠道2018-03-01的数据准备好,调度则开始跑批对应的任务.ETL监控相关流程如图4所示.

4。4ETL调度系统的实现

在上述设计的ETL调度系统中,所有的操作过程都是通过SQL程序语句来实现的.开发外部SQL脚本程序,调用该SQL程序来实现ETL系统的数据调度功能.SQL脚本逻辑可以根据不同的需求分别编写,实现其功能,这样做的好处是配置作业比较容易.根据调度作业信息表的结构创建一个临时作业表INIT_JOB,INIT_JOB表起到一个调度作业中转的作用.INIT_JOB表结构如图5所示.该临时表可以记录SQL脚本程序调用作业所需的大部分信息,例如:作业类型、作业名称、所属阶段和渠道、调用脚本及参数等.这样做的好处是可以方便的初始化作业信息.向INIT_JOB表中添加新增作业信息,通过INIT_JOB临时表完成新增作业的信息存储,调用SQL脚本完成作业的数据开发过程,最终将表中的业务数据存储备份至数据仓库中.当需要重新调度新的作业时,初始化INIT_JOB表为空,插入新增作业信息,根据新作业的业务特点,修改SQL脚本逻辑,实现新增作业的调度功能.

当作业调度开发结束后,通过查询调度作业日志,查看数据调度是否成功,调度成功则数据成功存储至数据仓库中,如图6所示.若调度失败,则查看日志,找到调度失败原因并修改,重新执行调度任务,直至调度作业执行成功.

5结论(Conclusion)

本论文以国内某商业银行的BI项目为背景,设计开发了商业银行数据仓库的ETL调度系统,实现了银行各业务数据到数据仓库的集中存储,实现全行数据的统一化、标准化、高质量、高效率,极大的提升了商业银行数据信息化水平.在大数据时代下,数据挖掘是银行业之间竞争的重要工具,基于数据仓库的数据分析,挖掘出其中潜在的重要的商业信息,可以很好的辅助银行领导层管理决策,解决银行最紧迫的问题,使银行的经济效益最大化,从而使银行更好更快的发展.

参考文献(References)

[1]RenS,SunQ,ShiY。CustomerSegmentationofBankBasedonDataWarehouseandDataMining[C]。TheIEEEInternationalConferenceonInformationManagementandEngineering。IEEE,2010:349-353。

[2]LBaldacci,MGolfarelli,SGraziani,etal。QETL:AnApproachtoOn-DemandETLfromNon-OwnedDataSources[J]。Data&KnowledgeEngineering,2017。

[3]VTheodorou,AAbelló,MThiele,etal。FrequentPatternsinETLWorkflows:AnEmpiricalApproach[J]。Data&KnowledgeEngineering,2017:112。

[4]DuporS,JovanovicV。AnapproachtoconceptualmodellingofETLprocesses[C]。InternationalConventiononInformationandCommunicationTechnology,ElectronicsandMicroelectronics。IEEE,2014:1485-1490。

[5]徐俊剛,裴莹。数据ETL研究综述[J]。计算机科学,2011,38(4):15-20。

[6]常艳莉,李一凡,赵怀慈。基于银行数据仓库的ETL系统的设计与实现[J]。微计算机信息,2006,22(24):21-23。

[7]沈琦,陈博。基于大数据处理的ETL框架的研究与设计[J]。电子设计工程,2016,24(2):25-27。

[8]张同杨。一种ETL数据整合架构设计与实现[J]。价值工程,2016,35(31):88-91。

[9]张靖,雷航,唐雪飞,等。ETL应用优化设计与实现研究[J]。微电子学与计算机,2012,29(4):134-137。

[10]林尤惠,项颖,张凤祺。ETL在银行数据中心系统中的应用[J]。自动化与信息工程,2009,30(2):17-20。

[11]WaasF,WrembelR,FreudenreichT,etal。On-DemandELTArchitectureforRight-TimeBI:ExtendingtheVision[J]。InternationalJournalofDataWarehousing&Mining,2013,9(2):21-38。

[12]宋旭东,刘晓冰。数据仓库ETL任务调度模型研究[J]。控制与决策,2011,26(2):271-275。

[ 参考文献 ]

1、关于施工企业在施工阶段成本控制的分析
摘 要:建筑行业竞争日趋激烈,获利空间越来越小。施工企业应更加重视施工成本控制,成本控制是企业获取更大的经济效益的最有效的手段之一。但目前我国施工企业在施工阶段的成本控制中还存在许多问题。文章中笔者对

2、网络化财务集中管理模式在政府机关应用中的关键问题
(山东省潍坊商业学校  山东潍坊  261011)摘 要:当前,国家正在倡导电子政务建设,政府机关内部也大都建立了局域网,机关办公自动化水平也日益提高,政府机关的财务管理信息化水平理应走在社会各行业的

3、情感营销在童装营销中的运用
(广东纺织职业技术学院  广东佛山  528000)摘 要:情感营销作为一种新兴营销手段,正被越来越多的营销工作者所运用,本文主要通过品牌文化、广告宣传、价格定价、服务水平等几个方面,来论述情感营销在

这篇文章预览整理:对关于撰写数据系统方面相关论文范文和课题研究的大学生硕士以及相关本科毕业论文数据论文开题报告范文和相关格式模版及论文参考文献有了一定的了解帮助。

此篇数据系统毕业论文范文免费供广大学者阅读-点击更多356074篇数据系统相关论文开题报告格式范文模版阅读下载
延伸阅读: 医药物流管理系统论文 数据库药房管理系统论文 数据管理系统论文 数据库管理系统毕业论文 博硕士论文全文数据库 南师大论文答辩 超市毕业论文 电力系统技师论文 汽车销售系统论文 电力系统自动化论文
动画博士论文 论文研究思路与方法 山东自考论文格式 金融法学论文 手写论文格式范文 计算机网站论文 口腔医学根管治疗论文 测论文重复率 论文征稿网 关于统计学的论文