作者:王达山
来源:《中国金融电脑》 2016年第3期
中国人民银行成都分行 王达山
随着社交网络、电子商务和云计算的兴起, 音频、
视频、图像、网络点击流、互联网交易、日志等多种数
据源生成了大规模、多元化、复杂、长期的包括结构化、
半结构化和非结构化的分布式数据集,被称为“大数据”。
对国内银行业来说, 大数据并不是全新概念。银行具备
实施大数据战略的基本条件:一是数据量大、种类多,
银行不仅拥有所有客户基本信息和具体资金交易等结构
化数据, 还拥有客服音频、网点视频等非结构化数据;
二是拥有处理传统海量结构化数据的大量实践经验,具
备向大数据分析跨越的基础。银行数据特征和数据处理
要求基本符合大数据概念与特征, 银行业已经进入大数
据时代。不过,当前银行业在数据分析和利用上存在不
足,数据分散在各个业务系统中,数据量虽为天量,但
多数为沉默数据,这些数据隐含了大量客户需求或产品
偏好信息。银行业对结构化数据利用有限, 对非结构化
数据的收集、分析则更缺少基本的处理机制和系统做法。
商业银行实现发展模式转型和金融创新等都需要充分利
用大数据技术。新形势下, 商业银行应加快推进大数据
体系建设步伐,挖掘信息价值,促成传统业务发展经营
管理模式的彻底转型, 形成信息化时代新的竞争优势。
一、 商业银行大数据来源
1. 传统数据来源现状
银行拥有传统的所有客户的账户和资金收付交易等
结构化数据, 包括银行核心交易、基金、银行理财、黄
金、第三方存管、支付宝等多个维度的金融交易数据,
还拥有客服音频、网点视频、网上银行记录、电子商城
交易等非结构化数据。商业银行还需要外部的社会化数
据, 才能获得更为完整的客户全貌, 避免因客户信息不
全面导致错误认知。
大数据时代,搜索引擎、社交网络、物联网、移动
互联网、云计算等新兴信息技术改变了传统的信息产生、
传播、加工利用的方式,特别是基于互联网技术和移动
支付技术的互联网金融打破了信息不对称和物理区域壁
垒,形成了联网机构相对平等的关系。商业银行要打破传
统数据源的边界,改变过去自然的、被动的社会经济信
息收集中心角色, 以开放的方式与客户平等交流, 主动收
集客户信息;要更加注重社交媒体等新型数据来源,通
过各种渠道获取尽可能多的客户信息,并从这些数据中
挖掘出更多的价值。比如在各类媒体、社交网站中发布
的涉及客户投诉和产品评价信息数据, 银行可以通过此类
数据改进服务质量与客户体验,通过现有客户及其人际
社会网络或业务网络,发现更多具有价值的潜在客户, 拓
展销售渠道;要对收集的非结构化客户信息与数据仓库
中的结构化客户信息进行整合分析, 打造全面客户视图。
2. 拓展数据采集渠道
(1)整合新的客户接触渠道,充分利用社交网络
的作用,增强对客户的了解和互动。注重新媒体客服的
发展,利用论坛、聊天工具、微博、博客等网络工具将
其打造成为与电话客服并行的重要服务渠道,获取客户
的需求和客户关系网络。
(2)与大数据企业加强合作互利。完整和综合的
大数据注定难以被某一家企业、机构或政府部门所独自
掌控,银行可与电信、电商、社交网络等互联网公司大
数据平台开展合作,实现数据和信息的共享和利用,全
面整合客户有效信息,将金融服务与移动网络、电子商
务、社交网络等完美融合。事实上,已经有不少银行开
始了这方面的布局。建行的电子商务平台“善融商务”
正式上线。交行打造的电子商务平台“交博汇”也开始
向客户开放。在为客户提供增值服务的同时获得客户的
动态经营信息,成为银行共同的驱动力。
(3)开展社区等小微银行和行内电子商城或合作
电子商城线上线下结合模式,形成区域金融服务和信息
采集节点。一方面服务老人和非热衷于新媒体的人员,
另一方面提供移动金融线上线下服务据点,便于采集客
户生活等社会化信息,减少统计样本偏差。
(4)将金融服务向虚拟化方向发展。通过移动互
联网、全息仿真技术等科技手段,打造虚拟的渠道向客
户提供业务服务。银行业务流程中的各类单据、凭证等
将以影像等文件的形式出现,通过网络进行处理,从而
提高处理的便利性和效率,形成金融数据的洪流。
二、大数据平台建设
商业银行应构建应用大数据的统一平台,实现数据
仓储和分析平台,实现透明访问、无缝的数据移动和统
一的管理运作视图。比如IBM 公司的InfoSphere 大数
据分析平台、天睿公司的Teradata 统一数据环境就是典
型的大数据平台。
在建设大数据平台的时候,应对大数据的存储、管
理、分析和使用方面有所考虑,才能对大数据进行高效
整合和分析,进而获取大数据蕴含的价值信息。传统的
数据中心架构已不能满足日益涌现的大数据高扩展性需
要,现有的数据存储技术很难满足大数据的需求,存储
能力的增长远远赶不上数据的增长,设计更合理的数据
分层存储管理结构已成为关键。商业银行大数据包含行
业链条上内外部结构化与非结构化的数据,如何区分和
管理这些数据,实现高效数据整合,与链条上的其他企
业进行数据和信息的交换;以及由于各行业的数据标准
和格式存在差异,如何逐渐统一数据标准以便进行更方
便的数据交换和融合是当前面临的巨大挑战。
1. 虚拟化数据中心
由于大数据应用对存储能力需求的无限性和高扩展
性要求,云计算成为构建面向大数据的最佳方案。虚拟
化是数据中心实现云计算的一个重要基础,它的优势在
于能将所有可用的包括存储、网络带宽等在内的资源以
资源池的方式组成一个单一的整合视图,利用统一计算、存储等系统,分别构建计算和存储等资源池,实现数据
中心对资源的整合管理,对整体系统运行环境进行统一
监管和动态分配,可以充分利用整体平台的优势,实现
存储、分析、备份多位一体。
根据商业银行行业链条上内外部结构化与非结构化
的数据类型划分数据种类,在虚拟化数据中心以数据种
类为维度建设多元多态数据仓库,实现主要交易系统、
外围系统、外部相关和社交媒体等新型数据入仓管理。
按来源,数据可分为传统的商业银行内部系统数据、主
动采集的银行相关的社交等新媒体数据、金融行为链条
上非行内环节数据、战略合作或采购的外部等数据。按
类型,数据可分为结构化数据、半结构化数据和非结构
化数据。按应用类型,数据可分为交易数据、交互数据
和处理数据。交易数据的应用特点是多为简单读写操作,
访问频繁,数据增长快,要求支持事务特性;大量交互
数据的应用特点是实时,商业银行在面对客户时必须实
时地从大数据仓库提取有用的信息对客户进行精准营
销;处理数据的应用特点是面向海量数据分析,操作复
杂,追求数据分析的高效率,但不要求支持事务特性。
2. 数据治理
数据因交互连接而产生复杂性,包括数据类型复杂
性、数据结构复杂性和数据内在模式复杂性。多个产生
途径造成类型增多,生成方式的多样性导致了结构的复
杂性,数据之间的相互作用关系,导致内在模式指数级
增长。大数据通常是高维的,存在数据高度稀疏和维度
灾难问题,有必要对数据进行标准化、层次化管理,并
在确保数据质量的情况下进行数据清洗和融合。
(1) 数据标准化
首先需要明确数据表示方法,针对涉及的数据统一
建立数据标准,从数据多个维度的属性进行标准化,一
般包括业务、技术和管理等属性。业务属性是指与数据
标准的业务规定、业务口径密切相关的各类特性,具体
包括业务定义和规则、值域等。技术属性是指与数据标
准的系统实现、技术口径密切相关的各类特性,具体包
括数据类别、数据格式和代码编码规则等。管理属性是
指与数据标准的管理信息、管理口径密切相关的各类特
性,具体包括标准要求与相关标准关系等。商业银行需
要对涉及的所有数据种类进行标准化处理,并就链条上
相关外部数据采用协商或通用标准处理,提高外部数据
流入的清洁度。
(2)数据清洗与整合
由于现实世界数据的多源性、异质性和采集数据的
一些人工错误,导致数据还是有噪音、冗余和缺失的。
如何有效地衡量数据质量?第九届国际数据工程会议的
文献对衡量数据质量定义了4 个指标:一致性、正确性、
完整性和最小性。数据清洗建立在数据质量标准之上,
清洗和提炼过程必须包含如下几个条件:检测并去除数
据中明显不一致和错误,和数据转换相结合,应该有对
应的描述语言来指定数据转换和数据清洗。对于数据清洗,业界已经开发了很多数据抽取、转换和提取工具
(ETL tool)。
数据不融合便无法发挥大数据的价值,需要构建统
一的数据格式,融合多源数据信息。商业银行一直重视
传统业务结构化数据的高效管理,并用已整合的数据集
市挖掘客户的价值和行为规律开展营销,在多系统相关
数据融合方面已有成熟的经验。但非结构化数据有很多
格式,包括文本、文档、图像、视频等,蕴含了丰富的
知识,但数据组织凌乱,包含很多的无用信息和噪音,
其异构和可变性质给数据分析和挖掘工作带来一定的困
难。如何高质量整合非结构化等异质数据,是商业银行
大数据整合工作的难点,现有的研究方向包括相关整合
的理论和技术、错误自动检测与修复的理论和技术以及
低质量上的数据近似计算理论等。
(3 )数据分层
根据数据分布和数据流转的逻辑框架,确定数据在
各层之间的分布结构和流转方式,对数据层次划分后,
制定各个层次之间的流转规范。根据数据来源和用途,
对数据进行四层划分:数据产生层、数据交换层、数据
整合层和数据应用层。
数据产生层是指数据形成的分层,数据在该层被创
建、更新、删除。数据产生方式包括行内业务系统产生、
手工补录产生以及从行外获取。数据类型包括结构化数
据和非结构化数据。数据产生层的批量源数据通过文本
方式或数据库直连方式向数据交换层提供。
数据交换层是指负责数据进行交换传输的分层,将
从数据产生层获取的原始数据进行校验、转换,生成结
果文件,根据业务要求同步到其他应用系统,或加载到
数据整合层。
数据整合层是指存储所有结构化和非结构化数据的
分层,按照数据应用目的整合数据,为后续的查询、分
析和数据挖掘做好准备,为管理和决策提供依据。根据
数据存储方式、存储时间、数据应用目的的不同,数据
整合层又被细分为数据仓库、操作型数据存储、数据集
市、归档数据等逻辑区域。
数据应用层是指对整合后的数据按照业务专题进行
组织准备,对数据进行深度的分析,并对数据处理的结
果进行展现的分层。
3. 数据提取
提取数据仓库中的主要信息包括数据统计与查询和
数据可视化与服务化,展示给决策者或其他数据使用者,
在分析业务数据的基础上,建立统一的机构、条线、产品、
客户、渠道、客户经理等数据分析维度,构建产品交易
数据集市、客户管理数据集市和风险管理数据集市等。
优化数据的加工、展现和使用方式,开发数据仓库灵活
查询工具,便于用户方便、快速地查找数据、获取信息。
按总账、报表、客户关系管理等系统类别提取包含业务
分布、数据统计等信息的“数据地图”,便于数据用户
有针对性地查询所需数据,作为制定经营规划和营销策
略的依据。
三、大数据挖掘与应用
1. 商业银行数据挖掘分析
数据背后的共性问题是关系网络,包括因果关系和
相互关系。对数量巨大的数据作统计性的搜索、比较、
分析、聚类和分类等分析归纳,是基于历史数据的静态
分析,找出数据中隐藏的相互关系网,一般用支持度、
可信度和兴趣度等参数反应相关性,继承了统计学的一
些特点,但无法检验逻辑上的因果关系。客户的行为模
式更多的是基于因果关系或者偏好而做出产品选择或更
满意于某种服务,如何用好静态的历史数据,动态地挖
掘数据在时间与空间上因果与相互关系,洞察社会化客
户金融行为机理,综合传统客户信用评价,提供给决策
者充分有效的信息,建立小微企业的网络信贷决策引擎,
实现基于大数据的金融产品创新等,是商业银行抓住大
数据发展机遇的关键问题。
2. 大数据挖掘模型
大数据的不断涌现,说明任何所采集到的数据集合
都是不断进化的,所蕴含的信息可能是不完备的。商业
银行要充分利用好小数据时代数据挖掘模型和结果,输
入不断进化的大数据,针对不同的挖掘目标调整和优化
数据挖掘模型。假设挖掘目标G,涉及的数据类型集合
有n(t) 个,每个数据集合为以时间和空间(地域)为维
度的矩阵,分别为t 是时间,s 是空间,挖掘目标与挖
掘数据的关系为:
G(t,s)=f(data1(t,s),data2(t,s),...datan(t,s))
各数据集合涉及到学科领域的知识,目标G 是各领
域知识的应用导向。由于数据是进化的,挖掘的模型应
该也满足进化要求,因此,模型进化主要为修正或调整
原有结果,并增加新涌现的数据类型对模型的影响。
这可能是一个数据高度稀疏的矩阵,可选关键数据
集合对模型进行优化。如果针对G,如有传统挖掘模型
假设为GO,则GO 是进化初始值,并作为参照标准。
这可能导致模型结果与传统挖掘结果南辕北辙,因为信
息是不完备的,某一有因果关系的数据因子的出现,可
能造成完全相反的结果。
3. 挖掘模型应用
(1)个人客户数据营销挖掘
智能应用包括基于知识的发现与预测功能。目前,
多数银行普遍把大堂的个人业务营销,如何提高客户的
贡献程度作为数据挖掘的具体目标。后台推送现有的
客户余额等数据给大堂管理人员,大堂管理人员会根据
客户的现场情况采取大堂人员认为的对应产品的营销策
略,并没有充分利用大数据来挖掘客户的金融贡献潜能。
商业银行能采集到的内部客户数据包括客户存款余额情
况、贷款情况、理财与基金等购买情况、风险自评估情况、
柜台交易情况、网银与手机银行等各渠道客户活跃度情
况、客户经理营销沟通等情况;外部数据包括金融链条
环节线上线下消费情况以及各新型社交媒体言论与朋友
圈情况,并尝试从搜索引擎等其他渠道获取客户的兴趣
爱好和生活习惯等个人偏向数据,应该根据这些数据(内
部金融行为数据、电子商务数据、社交数据等),采用
金融、心理和社会行为等学科知识建模判断客户的金融
行为倾向,预测短时间内的消费和交易需求,实现精准
营销,并将此次的营销情况记入数据仓库,对下次的营
销建立数据基础。
(2)小微企业网络信贷数据挖掘
对小微企业网络信贷数据的挖掘要着眼于“平台金
融”客户的订单、应收应付账款等信息汇总归集,掌握
客户行为特征,创建客户交易与行为分析模型,并纳入
信贷决策引擎,统一对申请人进行综合信用评价与差异
化风险评估,批量拓展网络融资业务,在提高信贷审批
效率的同时,对网络信贷风险进行全方位防控。
4. 数据应用
通过全面挖掘商业银行内外部数据, 商业银行能更
好地了解客户的行为特征, 优化运营流程, 指导商业银
行进行业务创新, 或为经营管理提供全面及时的决策支
持信息。一是可以获得更为完整的客户全貌和客户群体,
并能够通过现有客户及其人际社会网络或业务网络, 发
现更多具有价值的潜在客户, 并对其展开精准营销。二
是通过整合结构化和半结构化的交易数据、非结构化数
据及交互数据可以进行全面的模式识别、分析, 能够帮
助银行实现事前风险预警、事中风险控制, 建立动态的、
可靠的信用系统对各种交易风险进行识别, 有效地防范
和控制风险。三是促进银行进行产品创新,使银行更好
地了解客户的消费习惯、行为特征、客户群体及个体网
络行为模式, 并充分利用这些信息可以为客户制定个性
化、智能化的服务模式, 设计开发出更贴近用户需求的
新产品。四是传统商业银行的决策模式依赖于样本数据
分析和高管层经验,而全量数据挖掘分析使得分析结果
更具客观性,能尽可能早地发现业务和管理领域的风险
和机会, 为业务发展和风险防范提供重要决策依据。
因篇幅问题不能全部显示,请点此查看更多更全内容