更多服务
两种数据中心方案都要E-HR系统先行
日期:2021-10-22 浏览
数据ETL是数据中心的重要建设内容


数据的展示、集成、存储和接口交换是数据中心的重要建设内容。在数据中心的数据集成平台上,要实现数据的自动抽取、转换和装载(Extract, Transform & Load, ETL),这是数据中心的建设难点,也是实现数据共享、协同管理与服务的关键点。数据统计分析和报表与具体的业务办理相关,既可以纳入数据中心的重要建设内容,也可以在数据中心上作为E-HR系统的独立功能模块,本书专门在第6章介绍数据报表。本节内容选自学校校务管理数据共享服务平台建设方案,技术性较强,主要供信息网络中心和技术公司的读者参考,人力资源部门的读者可以忽略。
——数据展示平台。数据中心要求对应用服务实行开放式开发和管理,可以在线发布。支持动态注册与删除服务包,为满足性能需要,应用支持分布式部署,可部署在不同的服务器上。能够对服务包进行有效管理,支持设定管理者,对服务进行进一步管理和使用权分配。管理创建多级组织机构、部门信息;管理系统用户信息、限制用户登录权限;机构管理员、机构负责人、办公室主任配置。身份管理除校内人员的身份信息管理外,还支持临时账号管理及校内多身份管理,通过与认证系统的集成,用任意账号都可以实现身份认证的真正统一。根据人事、学籍、组织机构等基本信息,提供人员角色管理,权限管理、权限审计、系统管理等功能。提供基本用户类型权限管理,采用符合国际标准的权限管理模型,方便校园网用户权限的分级、分层的管理的需要;用户组管理;管理、定义集成系统的安全信息。考虑访问安全,包括在实现认证客户端列表、限制登录的IP地址、首次登录修改配置、登录失败过多锁定段时间、登录验证码、限制登录时间、每个用户只能登录一次等安全措施。对报表工具、查询工具、第三方数据分析工具、各类Web资源、各类数据资源的支撑体系,通过应用支撑系统可以将这些资源有效地组织在一起,进行统一权限分配、参数传递和资源管理。支持身份访问控制、操作日志监控,支持数据的输出,服务项的访问情况统计。支持操作日志的查询、分析、过滤,实现对用户操作的监控和审计。
——数据集成标准。信息化标准研究和制订的目的在于满足学校信息系统建设的需要,加强信息化建设的统一领导,建立信息化标准的管理体系,保证信息在采集、处理、交换、传输的过程中有统一的规范,最大限度地实现信息资源共享,使学校信息系统得到协同发展。高校的信息标准可以分为数据标准、代码标准、交换接口标准、交换标准、数据模型标准、应用集成标准。数据标准是高校管理信息所涉及的业务数据管理标准,数据标准规范了业务数据模式的设计,为高校业务数据“如何存、存什么、存哪儿”提供了详细的规范。代码标准是高校管理信息所涉及的代码规范,也就是数据标准中所引用的字典规范。其中包括引用的国家标准、行业标准、学校标准等。信息标准必须有很强的兼容性、开放性和可管理性,需要基于国家标准、教育部标准、行业标准和学校已有的校标,兼顾各个标准之间的兼容性、一致性以及标准的可扩展性,建设和完善学校的各项标准并给出信息分类编码规格说明书,使各类数据按照统一的标准产生、存放、使用,使数据真正实现共享。随着信息化进程的发展,信息标准也必须是一个及时更新、不断充实的动态系统,因此标准的建设同时必须提供能灵活调整信息标准的管理和维护工具,对信息标准进行有效管理。需要制定涵盖各职能部门的明确的管理规范和科学合理的业务流程,从行政管理上、规章制度上保障信息化建设的健康发展,要重点反映学校在建设网络业务系统建设中的政策、指导方针。
——数据集成平台。通过数据集成平台将各业务系统数据库中需交换的数据自动上传到数据集成中心库中,并按各业务系统的数据需求将数据集成中心库的数据分发到各业务系统,从而实现数据的统一集成和标准化,为提供数据的综合查询、统计分析奠定数据基础。同时,保留各业务系统的原有数据库,又确保了各业务系统的完整性。平台主要完成数据集成过程,其中包含集成过程、集成方法调用以及集成架构和集成策略。集成的过程即数据抽取、转换、清洗、装载的过程,完成数据从数据源向目标数据库。数据集成平台的目的是在数据中心和各职能部门等原有业务系统之间交换数据。由于各原有系统的技术构架不同,信息的表示也各不相同。要在这些不同的系统之间交换数据,首要的问题就是定义一种标准的数据格式及数据交换的规范,以方便实现不同硬件平台、不同操作系统平台、不同语言平台应用之间的平滑通信。数据交换首先涉及如何与各级部门、各异构系统及其异构数据库进行交互,实现数据的存取。能够对各级部门、各业务系统的数据库定义数据抽取规则,从而实现自动地从各级部门的数据库或相应业务系统中抽取全局数据库所需的数据。支持灵活的数据交换方式。可以根据不同部门的情况,对于不同类型的数据有不同的更新要求,可分别灵活采取多种数据上传的方式。支持跨平台、跨多种网络模式的分布式数据交换。平台需要能够适应各系统数据内容和格式的变化,提供可视化的转换配置界面,并实现各系统数据与中心标准数据之间灵活的转换。支持对敏感数据进行加密传输。支持中心式部署、分布式部署等多种部署方式;支持开放的API,以及可将产品集成到其他应用系统。支持数据转换与清洗。数据质量管理对学校现有业务数据、上报数据、历史数据进行梳理和分析。提供数据审计、数据缺失表和源数据差异矩阵,建立数据质量完善方案,推动学校数据质量提升。
——数据存储。通过依托数据集成平台设计共享数据库需要做到:保证数字化校园信息编码的统一;保证“谁产生、谁维护”原则,保证所有的数据都只有唯一的维护者;保证提供反映整个学校的全面信息;保证为整个学校决策提供所需的数据信息。共享数据库用来解决全校范围内数据资源的标准化、有序整合、合理共享。在数据模式的设计上体现作为学校数据中心的权威性,必须是标准统一,数据全面,模式规范。共享数据库的建设目标是结合学校实际情况,制定校数据字典和信息编码标准,统一数据交换标准,建立安全高效、充分共享的数据中心;在内容上,基础数据库建成以学生、教职工人员的全面的数据模式,涉及教学、科研、管理和后勤管理等相关活动;重点增加与财、物相关的基础数据库的建设,领导所关心的资金、工资、福利等财务数据,校内的资产、仪器设备等数据的建设。数据模式设计兼顾到结构化数据、非结构化数据等多种数据格式。共享数据库模式是按照对象和高校核心活动进行划分的,由应用来推导模式的设计,由模式反向衍生、扩展上层应用。信息库用于存储和管理各原有业务数据库经转换、清洗后的相关数据以及新建业务系统相关数据,新设计和定义中心数据库的表、视图等,设计应符合新制定的信息标准。此外,数据库的设计还应保证便于建设数据仓库。
应用系统运行过程中会在数据库中保存大量的业务数据,有些数据用户使用各种应用程序频频访问,有些数据在数据库的某个角落无人问津,还有些数据在不断的变更和删除操作中湮没了。随着应用软件功能的增加和使用时间的积累,这些历史数据将会占据数据库的大部分存储空间,可能是当前数据的几倍、几十倍大小。如果不区分历史数据和当前使用的数据将会增加数据管理上的难度,也会加大数据库的负载,从而影响数据库性能。一个完善的系统应该保留所有的数据记录而且运行稳定、响应迅速。根据历史数据产生过程可以把历史数据分为静态历史数据和动态历史数据。静态历史数据就是那些状态为当前却沉寂了很久,很少应用使用的数据。动态历史数据是指数据记录变化之前的数据。数据库模型设计中,一般都分为两种类型的表,即字典表、业务表。字典表数据记录少,也很少变化,而业务表每天都会增加大量的业务数据,也就是记账式数据。字典表数据记录变化产生的数据量小,而且变化缓慢,而且业务表数据记录变化产生的数据量大,变化频繁。动态历史据此可以分为两类:缓慢变化和快速变化。归档数据库根据归档规则对共享数据库进行归档,为基于历史数据的统计报表提供支持,如历年教师工作量对比、教师历年工资发放规模等。归档数据库要求设计共享数据库的归档规则,设定各类数据的不同归档时间维。归档数据库要求能够支撑各类数据的历史数据查询,提供基于不同业务的不同时间维权威历史数据切片。要求历史数据与当前业务数据能够进行对比、趋势分析等数据查询与统计,不需要做任何技术处理。
数据仓库以主题模式存储学校各项数据,数据仓库中的数据模型是数据分析的数据支撑。数据仓库建设的主要内容为数据模型建设,数据模型包括事实表、维度表、维度级别、关联关系、逻辑列等,通过数据模型建设,可实现灵活多变的钻取、切片、即席查询、即席分析等功能,通过数据仓库建设,可实现标准评估、预测、差异分析、问题定位等面向领导者服务的复杂功能。数据集市由数据仓库抽取形成,主要用于数据展现处理,为学校的各种BI分析提供数据支撑。数据集市建设主要为解决数据仓库的性能和逻辑性问题,数据集市使数据逻辑关系简化、清晰,检索效率大为提高。
——数据接口与报表。接口是通过ESB总线建立数据服务接口,便于其他单位的应用对共享数据库和归档数据库内的数据进行访问和调用。主要包括三类接口:移动平台接口、短彩信接口和数据读写接口。其他应用可通过数据读写接口进行安全的数据访问和写入。任何信息化系统的建设都离不开对数据的分析,传统的报表开发组件或手工实现报表的模式已经远远不能适应快速变化的分析需求,往往是为了满足分析需求需要投入大量的时间和人力成本。这就迫切需要一种新型的报表开发工具来满足大量的、灵活变化的、复杂关联的报表开发需求,需要一个统一的开发和服务引擎来为高校的报表业务提供支撑(见第6章)。

学校数据中心与业务系统建设常常采用两种方案(见图3-3),一种方式是数据中心+独立的业务系统;另一种方式是数据中心(大数据)+整合的业务系统模块(大平台),即业务系统模块和数据中心形成一个统一的大数据共享与业务平台。学校级数据中心虽然还称不上“大数据”(数据项并不复杂、数据总量也不大),但基于“数据中心”建设“大平台”,从长远来看完全可以支持学校业务的“大应用”和“大合作”。
图3-3 学校数据中心的两种建设方案
两种建设方案各有利弊,第一种方式,数据中心主要进行数据的统计分析;各独立的业务系统支持各业务部门的管理信息化,未实现互联互通和协同办公;数据中心的业务数据库、业务系统的业务数据库相互抽取,分别建立、分别维护,通过接口规范达到一致;易建设、难应用。第二种方式,数据中心的数据库既用于统计分析,也用于支持各业务系统数据与业务结合;各职能部门基于数据中心整合的大平台(业务系统模块)实现整体化信息化管理与服务,支持网上协同办公(网上办公大厅);同一套业务数据都存储在同一服务器与同一软件中,统一建库、分别维护、实时更新、互联互通;难建设、易应用(见表3-1)。无论采用何种方式,单位名称和代码、教师姓名和工号、学生姓名和学号是最核心的三个基础数据字段和标识码,这些数据也是准确和唯一的,这就是整合大数据和大平台的基础。对于学校这种并不复杂的业务管理,职能部门的业务系统实际也仅仅是对其业务数据库的增删改查和导入导出操作,整合到数据中心大平台后,依然如此,并不复杂。信息化管理与大数据决策分析是大势所趋,各职能部门有需求驱动、有共识,只要做好了,省时省力、协同办公、科学决策,一定会受到领导、工作人员和师生的欢迎。



数据中心的三个基础数据表(单位、教师、学生),有两个(单位、教师)来自E-HR系统的数据库。对于上述两个方案,还可以采用一种折中的方案,即在E-HR系统内置数据中心模块(见图3-4),这样E-HR系统和数据中心都采用同一台服务器、同一个数据库、同一套表格。由于E-HR系统的核心功能与数据中心的功能一致,都是要对基本信息和业务信息进行增删改查、导入导出和审核确认,而且人事处作为与教职工切身利益更密切的职能部门,E-HR系统支撑的业务可以作为数据中心建设与应用的抓手,更容易让数据中心建起来并用起来。内置的数据中心主要解决数据来源、数据转换、数据存储、数据审核和数据共享问题,包括正式数据库和临时数据库、数据映射与同步、数据录入与审核等基本功能模块。
图3-4 E-HR系统内置数据中心的界面
——临时数据库。无论是独立的数据中心,还是内置的数据中心,首先都要解决数据来源问题。数据来源常常有三种形式:一是个人或职能部门直接填报;二是个人或职能部门批量导入;三是从相关业务系统抽取数据。对于从相关业务系统抽取的数据,有可能与数据中心正式数据库的对象要求不一致,因此,需要先在数据中心建立一个临时数据库,经过数据处理后再进入正式数据库。临时数据库主要通过数据视图的方式从其他业务系统抽取数据,其数据表和对象可以和业务系统的完全一致,而且是实时的最新数据。简而言之,就是临时数据库映射了其他业务系统的数据库,此后,就可以对数据进行查询和导出操作了。
——正式数据库。临时数据库按照规则处理后的数据就可以存入正式数据库,个人或职能部门填报或导入的数据本身就要遵循正式数据库的对象要求,因此,可以直接进入正式数据库。对正式数据库,可以进行增删改查和导入导出操作,E-HR系统的其他业务模块和职能部门的其他业务系统,共享和的调用的数据也主要源自正式数据库。这样,数据中心就有临时和正式两套数据库,这两套数据库的表格和对象可能不完全一样,都可以在页面自定义。
——数据映射和同步。由于临时数据库可能来源自不同的业务系统,因此,需要对数据来源自定义,确定数据来源业务系统名称、数据库类型、驱动、数据库链接、用户名和密码。由于临时数据库和正式数据库的数据表和对象可能不一致,因此,需要对两个数据库的数据表和对象建立映射关系,确立匹配对象和转换方式。由于两个数据库的数据可能不一致,因此,还需要根据映射规则进行同步操作。在数据同步时,系统会根据自定义的规则进行初步查重和格式校验。经过系统自动化处理的数据,都将进入到正式数据库。
——数据录入与审核。在这个模块,支持个人或职能部门通过填报和导入的方式,直接在正式数据库录入数据。对于来自个人、职能部门、临时数据库的数据,都需要经过个人、学院、职能部门和人事处审校和确认后,才能成为真正可以用的数据。只要数据发生变化,都需要重新进行审校和确认,但可以跳过个人或学院的环节。对数据的校验,需要建立一定的规则后,由系统自动化处理。对于数据的查重,需要在系统支持下由人工确认。数据中心建设还有一个难点是对一些成果和业务的参与角色的处理,这就需要采用数据子集的方式来处理,最终根据需要整合成一条记录或生成多条记录。由此,最终形成了一个数据覆盖范围广、来源多样化、个人和职能部门都参与、操作简单、灵活自定义的数据中心。需要说明的是,数据中心只是对结果数据的管理,不涉及业务办理,但可以为业务办理提供数据源。由于业务办理产生的数据仍然存储在各自的业务系统,需要通过映射、同步、审核的方式才进入正式数据库,这个过程可以是自动化和实时的。由于很多职能部门的业务办理就是对业务数据的增删改查和导入导出,因此,无论是独立的数据中心,还是内置的数据中心,实际上就是一个基于正式数据库的通用业务系统,可以开放服务职能部门、学院和教职工等。