重庆中烟在既往的信息化建设过程中形成了大量生产经营及专业业务应用成果,同时也累积了大量的企业数据资产。目前重庆中烟的应用系统众多,系统管理相对独立,数据存储模式分散,横向的数据整合与数据共享、分析应用都是基于单个具体业务需求驱动,难以形成全局整合的、一致的数据视图,也难以对全局数据开展价值挖掘,从规模和效益上都无法真正发挥公司数据资产的价值。
重庆中烟数据中台将基于省级基线版本数据中台建设并结合公司实际情况进行扩展,数据中台相关数据管控能力将基于国家局提供统一省级基线版本数据中台的数据管控能力进行解构建设,省级基线版本数据中台包括信息分类与编码、数据元、数据模型、元数据、主数据、数据指标、数据标签、数据质量、数据服务、数据安全十项数据管控能力,数据消费、数据审计、数据规范三项数据运营能力,数据指标体系、数据标签体系、数据资产地图、数据服务超市四个数据应用中心。行业省级数据中台基线版本将对数据模型和数据字段命名规范进行约束定义,规范数据湖、数据集市等技术架构,具体实施以国家局基线版本和相关指导意见为准,遵循行业数据中台省级基线版推广及拓展要求。
本项目须基于省级基线版本,依据《烟草行业数字中台建设指导意见》实现数据资产的梳理、定义、管控,自行建设重庆中烟本级数据中台。重庆中烟数据中台所具备的数据汇聚整合、数据提纯加工、数据服务可视化、数据价值变现四个核心能力要求如下:
- 数据汇聚整合:数据中台应具备对数据进行整合和完善、提供适用、适配、成熟、完善的一站式大数据平台工具,实现数据采集、交换等任务配置及监控管理能力。
- 数据提纯加工:实现数据资产化,数据中台应联通全域数据,通过建立统一的数据标准和质量体系,建设提纯加工后的标准数据资产体系,以满足企业业务对数据的需求。
- 数据服务可视化:通过数据中台的服务组件能力,提供数据服务生成、发布、监控、管理能力。数据中台应提供便捷、快速的数据服务能力,实现相关人员迅速开发数据应用,支持数据资产场景化能力的快速输出需求;实现数据资产可视化分析能力,提供丰富的分析功能。
- 数据价值变现:数据中台应通过企业数据,提供多业务单元的数据服务能力,实现数据价值变现。例如实现跨主体域访问数据,数据快速复用而不是复制。
重庆中烟双中台包含业务中台和数据中台,业务中台实现企业核心竞争能力的固化与赋能。将企业的核心能力以数字化形式沉淀为各种服务中心。业务中台通过业务板块之间的链接和协同,持续提升业务创新效率,确保关键业务链路的稳定高效和经济性兼顾的思想体系,并突出组织和业务机制,提供企业能够快速、低成本创新的能力;数据中台将实现企业核心数据资产的整合与共享。数据中台通过数据技术,对海量数据进行采集、计算、存储、加工,同时统一标准和口径。在数据统一之后,会形成标准数据,再进行存储,形成大数据资产层,进而为客户提供高效服务。
在数据中台的构建中,首先,构建公司统一数据资源抽取、清洗与初步整合的数据湖,实现数据的统一管理。其次,统一数据服务,针对不同业务需求构建对应的“数据集市”,为前台数据分析应用服务提供整合后的数据基础保障。最后,统一数据实体(如公司、商品、设备等),提供连接识别与标签画像的高效生产能力,让数据融通而非以孤岛形式存在。数据中台的设计与实施工作,包括数据中台设计和数据中台实施两部分工作内容,其中,数据模型、数据字段命名规范,数据湖、数据集市技术架构等具体实施内容以行业省级数据中台基线版本和相关指导意见为准。
1 数据中台设计工作
该内容包括数据中台架构设计、数据湖与数据集市模型设计。
1.1 数据中台架构设计
数据中台作为重庆中烟数字化转型的重要赋能平台,一方面需要承接公司数据管理与应用的需求,另一方面也将为中烟公司的管理与业务提供不同类型的数据服务,如数据报表服务、数据集成服务、大数据分析服务等。结合上述数据中台定位,本次项目将基于阿里云原生中台组件设计重庆中烟数据中台的集成架构、分层架构,以及数据分析框架和数据服务模式。
1.2 数据湖与数据集市模型设计
数据湖是存储企业管理和业务原始数据的大型数据仓库,其中的数据可供存取、处理、分析及传输使用。基于数据资产化管理的要求和数据分析应用的需求,在行业数字中台基线版本的数据模型与数据字段命名规范基础上进行拓展优化,将采用星型模型、雪花模型、关系型表单和宽表结构,确保数据的唯一性和统一性。基于综合管理分析需求,设计支持业务分析开发的数据集市,拉通数据关联,整合相关数据,确保相关应用主题的设计与建设工作。数据模型设计主要以维度建模理论为基础,按照事实表、维度表的方式进行数据存储。数据模型设计要遵循高内聚和低耦合、核心模型与拓展模型分离两项基本原则。
高内聚和低耦合。从数据业务特性、访问特性、计算特性等方面来考虑:将业务相近或者相关的数据、粒度相同数据设计为一个逻辑或者物理模型;将高概率同时访问的数据放一起,将低概率同时访问的数据分开存储,针对计算依赖的数据产出时间是否相近,计算是否能同时产出等原则确定组合在一起还是拆分。
核心模型与拓展模型分离。建立核心模型与扩展模型体系,核心模型包括的字段支持常用核心的业务,扩展模型包括的字段支持个性化或是少量应用的需要,必要时让核心模型与扩展模型做关联,不能让扩展字段过度侵入核心模型,破坏了核心模型的架构简洁性与可维护性。
以客户创建业务的售前流程维度模型设计为例,在数据湖中设计时将分为客户基本信息表、线索表(事实表)和维度表。其中客户基本信息表维护客户主数据信息,维度表包括销售信息表、店铺信息表、跟进表/约见表/订单表等的维度上卷表。以此实现客户信息和业务信息的全面管理与灵活组合应用。
2 数据中台实施工作
该内容包括基础组件部署、数据湖与数据集市开发。
2.1 基础组件部署工作
将选择适用于重庆中烟既有阿里云平台的数据商业软件组件,在重庆中烟阿里私有云平台上进行标准化部署,并复用已采购的阿里云平台数据组件,搭建基础的数据中台软件平台,为数据分析服务提供数据抽取工具、数据存储工具、数据计算工具、分析展现工具和数据资产管理工具。
本项目的数据中台组件将遵循行业数据开发平台、数据构建平台、数据总线等工具,通过对数据的开发和处理实现数据的资产化,在形成数据资产后统一整合,对数据资产进行统一管理,并通过 API 的方式为公司各个业务和应用提供对应的数据服务,以实现数据的价值化。
2.2 数据湖与数据集市开发工作
根据重庆中烟内外部数据源,要求对结构化和非结构化的海量实时数据与批量数据的采集、传输到数据中台计算存储层,搭建重庆中烟统一的数据湖。
- 数据采集对象:包括重庆中烟内部数据(企业战略管控数据、物资采购数据、仓储物流数据、生产制造数据、卷烟营销数据、技术研发数据、财务数据、人力资源数据等);行业内部数据(行业下行数据、工商企业数据、工工企业间协同数据等);行业外部数据(互联网市场数据、消费者行为数据、互联网涉烟数据等)。
- 数据传输方式:包括增量数据传输、日志数据传输、实时数据同步、文件数据传输、手工数据录入等。遵循相关数据标准和规范,抽取数据并进行清洗、汇总、加工,将数据按数据类型、业务领域、共享范围和加工程度分为垂直数据中心、公共数据中心和萃取数据中心等多类层级,共同组成重庆中烟统一的数据湖,以此进行统一的数据资产管理,作为数据分析应用和数据共享应用的数据基础。
- 数据采集与传输范围:包括公司原有系统数据进行同步、迁移、采集与传输;公司在建或新建系统数据的同步采集与传输;因新建而需要替代的应用系统历史数据的迁移采集与传输;手工数据录入采集与传输。
- 数据采集与传输质量:对于重要数据元素要从标准规范化维度、业务过程、指标定义、业务限定等方面,保证口径、算法、命名等的唯一性,从数据集成过程中杜绝指标二义性的产生。对于业务数据等数据元素,要充分利用数据中台建设组件的各项功能,明确数据质量校核规范,落实规则校验和数据容灾自定义机制,实现数据高质量同步。
本项目将遵循相关数据标准和规范,抽取数据并进行清洗、汇总、加工,形成对应的业务数据集市(包括垂直数据集市和萃取数据集市),即从维度逻辑表汇总过渡到事实逻辑表,用于支持前端分析应用服务工作。
本系列文章摘取自公开发售的项目招标文件,该项目(纯软件)招标控制价逾 1300 万元,最后德勤公司以 1100 万元中标,分享在此仅供技术交流。