(12)发明专利申请
(10)申请公布号 CN 111563133 A(43)申请公布日 2020.08.21
(21)申请号 202010372789.9(22)申请日 2020.05.06
(71)申请人 支付宝(杭州)信息技术有限公司
地址 310000 浙江省杭州市西湖区西溪路
556号8层B段801-11(72)发明人 刘小刚
(74)专利代理机构 成都七星天知识产权代理有
限公司 51253
代理人 杨永梅(51)Int.Cl.
G06F 16/28(2019.01)G06F 16/2457(2019.01)G06K 9/62(2006.01)
权利要求书2页 说明书12页 附图4页
(54)发明名称
一种基于实体关系进行数据融合的方法及系统
(57)摘要
本说明书实施例公开了一种基于实体关系进行数据融合的方法及系统,所述方法包括:确定待融合实体的数据标识,得到待融合实体与所述数据标识的对应关系;所述待融合实体包括企业或自然人;获取待查询实体,基于所述待融合实体与所述数据标识的对应关系、以及所述待查询实体,确定所述待查询实体的关联信息;其中,所述确定待融合实体的数据标识包括:确定与所述待融合实体的相似性满足第一预设条件的相似实体,当所述相似实体具有数据标识时,将所述相似实体的数据标识作为所述待融合实体的数据标识。
CN 111563133 ACN 111563133 A
权 利 要 求 书
1/2页
1.一种基于实体关系进行数据融合的方法,包括:确定待融合实体的数据标识,得到待融合实体与所述数据标识的对应关系;所述待融合实体包括企业或自然人;
获取待查询实体,基于所述待融合实体与所述数据标识的对应关系、以及所述待查询实体,确定所述待查询实体的关联信息;
其中,所述确定待融合实体的数据标识包括:
确定与所述待融合实体的相似性满足第一预设条件的相似实体,当所述相似实体具有数据标识时,将所述相似实体的数据标识作为所述待融合实体的数据标识。
2.如权利要求1所述的方法,所述确定待融合实体的数据标识包括:
获取所述待融合实体与第一实体之间的一层或多层关系中每一层的关系权重;所述第一实体与所述待融合实体之间相似度满足第二预设条件;所述关系权重代表所述关系的密切程度;
基于所述一层或多层关系中每一层的关系权重,确定所述待融合实体与所述第一实体之间的关系权重;
判断所述待融合实体与所述第一实体之间的关系权重是否大于阈值,是则将所述第一实体作为所述相似实体,并将所述第一实体的数据标识作为所述待融合实体的数据标识。
3.如权利要求1所述的方法,所述确定待融合实体的数据标识包括:基于所述待融合实体和第一实体各自的地址信息,获取地址相似度;所述第一实体与所述待融合实体之间的相似度满足第二预设条件;
当所述地址相似度满足第三预设条件时,将所述第一实体作为所述相似实体,并将所述第一实体的数据标识作为所述待融合实体的数据标识;
所述地址相似度根据以下方式的一种或多种获取:根据所述地址信息的位置坐标间的距离获取;根据所述地址信息中的地址文本的相似度获取。4.如权利要求1所述的方法,所述确定待融合实体的数据标识包括:
基于判别模型确定是否以第一实体的数据标识作为所述待融合实体的数据标识;所述第一实体与所述待融合实体之间的相似度满足第二预设条件;其中,所述判别模型的输入包括:所述待融合实体和所述第一实体的至少一个相关特征。
5.如权利要求4所述的方法,所述至少一个相关特征包括:与所述待融合实体存在一层或多层关系的关联实体、与所述第一实体存在一层或多层关系的关联实体、所述一层或多层关系中每一层的关系权重、所述待融合实体的相关信息、所述第一实体的相关信息;其中,所述关系权重代表所述关系的密切程度。
6.一种基于实体关系进行数据融合的系统,包括:数据标识确定模块,用于确定待融合实体的数据标识,得到待融合实体与所述数据标识的对应关系;所述待融合实体包括企业或自然人;
查询模块,用于获取待查询实体,基于所述待融合实体与所述数据标识的对应关系、以及所述待查询实体,确定所述待查询实体的关联信息;
其中,所述数据标识确定模块用于:
确定与所述待融合实体的相似性满足第一预设条件的相似实体,当所述相似实体具有
2
CN 111563133 A
权 利 要 求 书
2/2页
数据标识时,将所述相似实体的数据标识作为所述待融合实体的数据标识。
7.如权利要求6所述的系统,所述数据标识确定模块进一步用于:
获取所述待融合实体与第一实体之间的一层或多层关系中每一层的关系权重;所述第一实体与所述待融合实体之间相似度满足第二预设条件;所述关系权重代表所述关系的密切程度;
基于所述一层或多层关系中每一层的关系权重,确定所述待融合实体与所述第一实体之间的关系权重;
判断所述待融合实体与所述第一实体之间的关系权重是否大于阈值,是则将所述第一实体作为所述相似实体,并将所述第一实体的数据标识作为所述待融合实体的数据标识。
8.如权利要求6所述的系统,所述数据标识确定模块进一步用于:基于所述待融合实体和第一实体各自的地址信息,获取地址相似度;所述第一实体与所述待融合实体之间的相似度满足第二预设条件;
当所述地址相似度满足第三预设条件时,将所述第一实体作为所述相似实体,并将所述第一实体的数据标识作为所述待融合实体的数据标识;
所述地址相似度根据以下方式的一种或多种获取:根据所述地址信息的位置坐标间的距离获取;根据所述地址信息中的地址文本的相似度获取。9.如权利要求6所述的系统,所述数据标识确定模块进一步用于:
基于判别模型确定是否以第一实体的数据标识作为所述待融合实体的数据标识;所述第一实体与所述待融合实体之间的相似度满足第二预设条件;
其中,所述判别模型的输入包括:所述待融合实体和所述第一实体的至少一个相关特征。
10.如权利要求9所述的系统,所述至少一个相关特征包括:与所述待融合实体存在一层或多层关系的关联实体、与所述第一实体存在一层或多层关系的关联实体、所述一层或多层关系中每一层的关系权重、所述待融合实体的相关信息、所述第一实体的相关信息;其中,所述关系权重代表所述关系的密切程度。
11.一种基于实体关系进行数据融合的装置,包括至少一个存储介质和至少一个处理器,所述至少一个存储介质用于存储计算机指令;所述至少一个处理器用于执行所述计算机指令以实现如权利要求1~5任一项所述的方法。
3
CN 111563133 A
说 明 书
一种基于实体关系进行数据融合的方法及系统
1/12页
技术领域
[0001]本说明书实施例涉及计算机技术领域,特别涉及一种基于实体关系进行数据融合的方法及系统。
背景技术
[0002]企业关联关系是指基于数据源整合的与企业相关的信息。例如,企业与其有直接或间接关系的企业之间的关联信息、或者企业中自然人和自然人之间的关联关系。[0003]目前,企业关联关系可以被应用于各种行业,例如应用于金融行业,利用企业关联关系挖掘出与高金融风险企业关联的企业和自然人,识别其犯罪团伙。因此,为提升企业关联关系的丰富度和完整度,本说明书提出一种基于实体关系进行数据融合的方法及系统。发明内容
[0004]本说明书实施例的一个方面提供一种基于实体关系进行数据融合的方法,所述方法包括:确定待融合实体的数据标识,得到待融合实体与所述数据标识的对应关系;所述待融合实体包括企业或自然人;获取待查询实体,基于所述待融合实体与所述数据标识的对应关系、以及所述待查询实体,确定所述待查询实体的关联信息;其中,所述确定待融合实体的数据标识包括:确定与所述待融合实体的相似性满足第一预设条件的相似实体,当所述相似实体具有数据标识时,将所述相似实体的数据标识作为所述待融合实体的数据标识。
[0005]本说明书实施例的一个方面提供一种基于实体关系进行数据融合的系统,所述系统包括:数据标识确定模块,用于确定待融合实体的数据标识,得到待融合实体与所述数据标识的对应关系;所述待融合实体包括企业或自然人;查询模块,用于获取待查询实体,基于所述待融合实体与所述数据标识的对应关系、以及所述待查询实体,确定所述待查询实体的关联信息;其中,所述数据标识确定模块用于:确定与所述待融合实体的相似性满足第一预设条件的相似实体,当所述相似实体具有数据标识时,将所述相似实体的数据标识作为所述待融合实体的数据标识。
[0006]本说明书实施例的一个方面提供一种基于实体关系进行数据融合的装置,包括至少一个存储介质和至少一个处理器,所述至少一个存储介质用于存储计算机指令;所述至少一个处理器用于执行所述计算机指令实现如上所述的方法。
附图说明
[0007]本说明书将以示例性实施例的方式进一步描述,这些示例性实施例将通过附图进行详细描述。这些实施例并非限制性的,在这些实施例中,相同的编号表示相同的结构,其中:
[0008]图1是根据本说明书的一些实施例所示的基于实体关系进行数据融合的系统的应用场景图;
4
CN 111563133 A[0009]
说 明 书
2/12页
图2是根据本说明书的一些实施例所示的基于实体关系进行数据融合的方法的流
程图;
图3是根据本说明书的一些实施例所示的确定待融合实体的数据标识的流程图;
[0011]图4是根据本说明书的一些实施例所示的待融合实体和相似实体之间的关系权重的示意图;
[0012]图5是根据本说明书的一些实施例所示的确定待融合实体的数据标识的另一流程图;
[0013]图6是根据本说明书的一些实施例所示的确定待融合实体的数据标识的另一流程图;
[0014]图7A是根据本说明书的一些实施例所示的基于待融合实体的数据标识进行数据融合的示意图;以及
[0015]图7B是根据本说明书的一些实施例所示的基于待融合实体的数据标识进行数据融合的另一示意图。
具体实施方式
[0016]为了更清楚地说明本说明书实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地,下面描述中的附图仅仅是本说明书的一些示例或实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图将本说明书应用于其它类似情景。除非从语言环境中显而易见或另做说明,图中相同标号代表相同结构或操作。[0017]应当理解,本说明书中所使用的“系统”、“装置”、“单元”和/或“模组”是用于区分不同级别的不同组件、元件、部件、部分或装配的一种方法。然而,如果其他词语可实现相同的目的,则可通过其他表达来替换所述词语。[0018]如本说明书和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”仅提示包括已明确标识的步骤和元素,而这些步骤和元素不构成一个排它性的罗列,方法或者设备也可能包含其它的步骤或元素。
[0019]本说明书中使用了流程图用来说明根据本说明书的实施例的系统所执行的操作。应当理解的是,前面或后面操作不一定按照顺序来精确地执行。相反,可以按照倒序或同时处理各个步骤。同时,也可以将其他操作添加到这些过程中,或从这些过程移除某一步或数步操作。
[0020]图1是根据本说明书的一些实施例所示的基于实体关系进行数据融合的系统的应用场景示意图。
[0021]基于实体关系进行数据融合的系统100可以应用于公共数据查询平台,例如,应用于企业或自然人数据查询平台。示例的,查询平台可以用于查询待查询企业的股权架构、法人信息、法律信息或招聘信息等多种信息。[0022]如图1所示,本说明书所涉及的应用场景可以包括网络110、存储设备120、用户终端130和计算系统140。[0023]用户终端130可以是带有数据获取、存储和/或发送功能的设备。在一些实施例中,
5
[0010]
CN 111563133 A
说 明 书
3/12页
用户终端130的使用者可以是服务用户、查询者等。在一些实施例中,用户终端130可以包括但不限于移动设备130-1、平板电脑130-2、笔记本电脑130-3等或其任意组合。示例性的移动设备130-1可以包括但不限于智能手机、个人数码助理(Personal Digital Assistance,PDA)、掌上游戏机、智能手表、可穿戴设备、虚拟显示设备、显示增强设备等或其任意组合。[0024]在一些实施例中,用户终端130可以将获取到的数据发送至计算系统140。例如,用户终端130获取的数据可以是用户在用户终端130输入的待查询实体,其中,待查询实体可以是自然人或企业。在一些实施例中,用户终端130还可以接收计算系统140返回的查询数据。例如,计算系统140基于融合后的数据确定的待查询实体的查询结果,如,待查询实体的企业关系数据等。
[0025]计算系统140可用于处理与基于实体关系进行数据融合过程中相关联的信息和/或数据,来执行在本说明书揭示的一个或者多个功能。在一些实施例中,计算系统140可以用于确定待融合实体的数据标识,得到待融合实体与数据标识的对应关系。在一些实施例中,计算系统140可以获取待查询实体,基于待融合实体与数据标识的对应关系、以及待查询实体,确定待查询实体的关联信息。[0026]在一些实施例中,计算系统140可以包括一个或多个处理引擎(例如,单核心处理引擎或多核心处理器)。仅作为范例,计算系统140可以包括中央处理器(CPU)、特定应用集成电路(ASIC)、专用指令集处理器(ASIP)、图像处理器(GPU)、物理运算处理单元(PPU)、数字信号处理器(DSP)、现场可程序门阵列(FPGA)、可程序逻辑装置(PLD)、控制器、微控制器单元、精简指令集计算机(RISC)、微处理器等中的一种或多种组合。[0027]存储设备120可以存储数据和/或指令。在一些实施例中,存储设备120可以存储大量实体的相关信息,实体可以是企业或自然人。在一些实施例中,存储设备120可以存储自有数据。在一些实施例中,存储设备120可以存储计算系统140生成的数据。例如,待融合实体与数据标识的对应关系;又例如,基于待融合实体的数据标识,对待融合实体的数据及自有数据融合后的数据。在一些实施例中,存储设备120可以存储供计算系统140执行或使用的数据和/或指令,计算系统140可以通过执行或使用所述数据和/或指令以实现本说明书中的示例性方法。在一些实施例中,存储设备150可以是计算系统140的一部分。在一些实施例中,存储设备120可以包括大容量存储器、可移动存储器、易失性读写存储器、只读存储器(ROM)等或其任意组合。在一些实施例中,存储设备120可以在云平台上实现。仅作为示例,所述云平台可以包括私有云、公共云、混合云、社区云、分布云、内部云、多层云等或其任意组合。
[0028]网络110可以连接系统的各组成部分和/或连接系统与外部资源部分。网络110使得各组成部分之间,以及与系统之外其他部分之间可以进行通讯,促进数据和/或信息的交换。在一些实施例中,网络110可以是有线网络或无线网络中的任意一种或多种。例如,网络110可以包括电缆网络、光纤网络、电信网络、互联网、局域网络(LAN)、广域网络(WAN)、无线局域网络(WLAN)、城域网(MAN)、公共交换电话网络(PSTN)、蓝牙网络、紫蜂网络(ZigBee)、近场通信(NFC)、设备内总线、设备内线路、线缆连接等或其任意组合。各部分之间的网络连接可以是采用上述一种方式,也可以是采取多种方式。在一些实施例中,网络可以是点对点的、共享的、中心式的等各种拓扑结构或者多种拓扑结构的组合。在一些实施例中,网络110可以包括一个或以上网络接入点。例如,网络110可以包括有线或无线网络接入点,例如基
6
CN 111563133 A
说 明 书
4/12页
站和/或网络交换点110-1、110-2、…,通过这些进出点系统100的一个或多个组件可连接到网络110上以交换数据和/或信息。[0029]在一些实施例中,该系统100中可以包括数据标识确定模块和查询模块。[0030]在一些实施例中,数据标识确定模块可以用于确定待融合实体的数据标识,得到待融合实体与所述数据标识的对应关系;所述待融合实体包括企业或自然人。在一些实施例中,所述数据标识确定模块用于:确定与所述待融合实体的相似性满足第一预设条件的相似实体,当所述相似实体具有数据标识时,将所述相似实体的数据标识作为所述待融合实体的数据标识。
[0031]在一些实施例中,所述数据标识确定模块进一步用于:获取所述待融合实体与第一实体之间的一层或多层关系中每一层的关系权重;所述第一实体与所述待融合实体之间相似度满足第二预设条件;所述关系权重代表所述关系的密切程度;基于所述一层或多层关系中每一层的关系权重,确定所述待融合实体与所述第一实体之间的关系权重;判断所述待融合实体与所述第一实体之间的关系权重是否大于阈值,是则将所述第一实体作为所述相似实体,并将所述第一实体的数据标识作为所述待融合实体的数据标识。[0032]在一些实施例中,所述数据标识确定模块进一步用于:基于所述待融合实体和第一实体各自的地址信息,获取地址相似度;所述第一实体与所述待融合实体之间的相似度满足第二预设条件;当所述地址相似度满足第三预设条件时,将所述第一实体作为所述相似实体,并将所述第一实体的数据标识作为所述待融合实体的数据标识;所述地址相似度根据以下方式的一种或多种获取:根据所述地址信息的位置坐标间的距离获取;根据所述地址信息中的地址文本的相似度获取。[0033]在一些实施例中,所述数据标识确定模块进一步用于:基于判别模型确定是否以第一实体的数据标识作为所述待融合实体的数据标识;所述第一实体与所述待融合实体之间的相似度满足第二预设条件;其中,所述判别模型的输入包括:所述待融合实体和所述第一实体的至少一个相关特征。[0034]在一些实施例中,所述至少一个相关特征包括:与所述待融合实体存在一层或多层关系的关联实体、与所述第一实体存在一层或多层关系的关联实体、所述一层或多层关系中每一层的关系权重、所述待融合实体的相关信息、所述第一实体的相关信息;其中,所述关系权重代表所述关系的密切程度。[0035]在一些实施例中,查询模块可以用于获取待查询实体,基于所述待融合实体与所述数据标识的对应关系、以及所述待查询实体,确定所述待查询实体的关联信息。更多细节参见图2-图7及其相关描述,此处不再赘述。[0036]应当理解,基于实体关系进行数据融合的系统及其模块可以利用各种方式来实现。例如,在一些实施例中,系统及其模块可以通过硬件、软件或者软件和硬件的结合来实现。其中,硬件部分可以利用专用逻辑来实现;软件部分则可以存储在存储器中,由适当的指令执行系统,例如微处理器或者专用设计硬件来执行。本领域技术人员可以理解上述的方法和系统可以使用计算机可执行指令和/或包含在处理器控制代码中来实现,例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本说明书的系统及其模块不仅可以有诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门
7
CN 111563133 A
说 明 书
5/12页
阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现,也可以用例如由各种类型的处理器所执行的软件实现,还可以由上述硬件电路和软件的结合(例如,固件)来实现。[0037]需要注意的是,以上对于基于实体关系进行数据融合的系统及其模块的描述,仅为描述方便,并不能把本说明书限制在所举实施例范围之内。可以理解,对于本领域的技术人员来说,在了解该系统的原理后,可能在不背离这一原理的情况下,对各个模块进行任意组合,或者构成子系统与其他模块连接。例如,基于实体关系进行数据融合的系统中披露的数据标识确定模块和查询模块可以是一个系统中的不同模块,也可以是一个模块实现上述的两个模块的功能。又例如,基于实体关系进行数据融合的系统中各个模块可以共用一个存储模块,各个模块也可以分别具有各自的存储模块。诸如此类的变形,均在本说明书的保护范围之内。
[0038]图2是根据本说明书的一些实施例所示的基于实体关系进行数据融合的方法的示例性流程图。该方法200包括:[0039]步骤202,确定待融合实体的数据标识,得到待融合实体与所述数据标识的对应关系;所述待融合实体包括企业或自然人。在一些实施例中,步骤202可以由数据标识确定模块执行。
[0040]待融合实体可以是指需要被添加或者被融合的实体。待融合实体的属性可以是企业或自然人。可以理解,待融合实体可以是需要与自有数据进行融合的实体,自有数据可以是预先整理好的企业关系数据(如,股东关系数据、和/或高管关系数据等)。自有数据的企业关系数据中可以包含待融合实体,也可以不包含待融合实体。例如,某数据库中的自有数据为企业a的股东有企业b、企业c和自然人a,系统通过网络爬虫技术或从相关机构(例如数据分析公司)等方式得到了企业b和企业d的相关信息,企业b和企业d均为待融合实体。[0041]在一些实施例中,获取待融合实体的同时可以获取待融合实体的相关信息,其中,相关信息可以是企业或者自然人的全量信息数据,例如,若待融合实体为企业,则实体的相关信息包括但不限于:企业的数据标识、企业的名称、工商营业执照、组织机构代码证号、税务登记证号、统一社会信用代码、股东信息、投资信息、以及法律诉讼信息等。[0042]在一些实施例中,在获取待融合实体之后,可以对待融合实体的相关信息进行预处理,预处理包含但不限于规范化、归一化等处理,例如,将名称的格式统一化,如,统一成中文名称等。
[0043]数据标识是指用于区分不同实体的标识,可以理解,实体的数据标识具有唯一性,同一个实体,数据标识相同,不同的实体,数据标识不同。例如,自然人a和自然人b的数据标识不同,企业a和企业b的数据标识不同。在一些实施例中,数据标识可以是实体的身份信息,例如,企业的组织机构代码证号,数据标识也可以是对实体的身份信息进行编码的结果,例如,对企业的组织结构代码证号、企业名称等进行哈希等编码的编码结果。[0044]如前所述,可以通过网络爬虫技术等方式获取待融合实体的相关信息。若获取的待融合实体的相关信息中包含该实体的数据标识,可以直接读取或者通过接口的方式获取待融合数据及其数据标识。[0045]如前所述,自有数据是预先整理好的数据,可以理解,自有数据中的实体携带有对应的数据标识。在一些实施例中,当自有数据中包含待融合实体时,若自有数据中待融合实体的数据标识与直接获取的待融合实体的标识数据不一致时,数据标识确定模块可以推断
8
CN 111563133 A
说 明 书
6/12页
该实体的标识数据,并用推断的结果替代原来获取的或者自有数据中已有的数据标识,实现数据标识的归一化。例如,自有数据中待融合实体“自然人A”的数据标识“ID1”,直接获取的待融合实体“自然人A”对应的数据标识“ID2”,则需要重新推断自有数据中待融合实体“自然人A”以及直接获取的待融合实体“自然人A”的数据标识,若经过推断两个“自然人A”的数据标识相同,均为“ID1”,则这两个“自然人A”为同一个自然人,且用“ID1”替换直接获取的待融合实体“自然人A”的数据标识“ID2”,通过该方式,可以实现“自然人”数据标识的唯一化。
[0046]若获取的待融合实体的数据中不包含该实体的数据标识,数据标识确定模块可以推断该实体的数据标识。例如,可以将与待融合实体的相似性满足第一预设条件的相似实体的数据标识作为待融合实体的数据标识。[0047]相似实体是指与待融合实体之间的相似度满足第一预设条件的实体。在一些实施例中,相似实体与待融合实体之间的属性相同,例如,均为企业,或均为自然人。其中,第一预设条件可以自定义,可以是基于实体的相关信息的相似度或重合度等设定的条件。[0048]在一些实施例中,第一预设条件可以包括但不限于以下几种中的一种或多种的任意组合:企业名称或自然人名字的语义相似度满足条件、地址相似度满足条件、关系权重满足条件,以及其他信息的相似度或重合度等满足条件等。其中,其他关于关系权重、地址相似度等,以及基于相似实体确定待融合实体的数据标识的更多细节参见图4、图5、图6及其相关描述,此处不再赘述。[0049]确定待融合实体的数据标识之后,可以得到待融合实体与数据标识的对应关系。对应关系中至少包含待融合实体的名称或其他相关信息、待融合实体的数据标识,以及两者的映射关系。例如,待融合实体“自然人A”对应数据标识“ID1”;待融合实体“自然人B”对应数据标识“ID2”。[0050]进一步地,基于上述对应关系可以对待融合实体的相关信息与自有数据进行融合,例如,将待融合实体的相关信息融合添加到自有数据中与待融合实体的数据标识相同的实体的相关信息中。如图7A所示,以“实体(数据标识)”的形式进行示意,若自有数据为企业A(Q1)的股东包括企业B(Q2)和自然人C(ID3),即企业B(Q2)的相关信息(简称第一相关信息)为企业B(Q2)为企业A(Q1)的股东;待融合实体包含自然人A(ID1)和企业B(Q2),且相关信息为自然人A(ID1)为企业B(Q2)的股东(简称第二相关信息)。因为待融合数据和自有数据中存在相同企业B且数据标识也相同,均为Q2,因此将第二相关信息融合到第一相关信息中,即增加企业B(Q2)的股东信息,融合后的数据变为:企业A的股东包括企业B(Q2)、自然人C(ID3),企业B(Q2)的股东包含自然人A(ID1)。从图7A可以看出,融合后关系维度增加了。[0051]如前所述,对于获取的待融合实体的数据标识和自有数据中待融合实体的数据标识不一致时,可以通过重新推断确定待融合实体的数据标识,从而实现待融合实体的数据标识唯一化。在一些实施例种,对应关系中可以包含待融合实体的推断前的数据标识(简称“旧数据标识”)和推断后的数据标识(简称“新数据标识”)。例如,直接获取的待融合实体“企业B”的旧数据标识和新数据标识均为“Q2”;自有数据中待融合实体“企业B”的旧数据标识为“Q2’”,新数据标识为“Q2”,则对应关系可以为:“企业B”对应新数据标识“Q2”和旧数据标识“Q2’”。
[0052]进一步地,基于对应关系可以对待融合实体的相关信息与自有数据进行融合,例
9
CN 111563133 A
说 明 书
7/12页
如,将待融合实体的相关信息融合添加到:自有数据中与新数据标识存在对应关系的旧数据标识所代表的实体的相关信息中。如图7B所示,以“实体(数据标识)”的形式进行示意,若自有数据为企业A(Q1)的股东包括企业B(Q2’)和自然人C(ID3),即企业B(Q2’)的相关信息(简称第一相关信息)为企业B(Q2’)为企业A(Q1)的股东;待融合实体包含自然人A(ID1)和企业B(Q2),且相关信息为自然人A(ID1)为企业B(Q2)的股东(简称第二相关信息)。因为对应关系:企业B对应新数据标识Q2和旧数据标识Q2’,因此,可以将第二相关信息融合到第一相关信息融合中,即增加企业B(Q2)的股东信息,融合后的数据变为:企业A的股东包括企业B(Q2)、自然人C(ID3),企业B(Q2)的股东包含自然人A(ID1)。[0053]上述实施例实现了:(1)如前所述,数据标识具有唯一性,同一个实体,数据标识相同。当自有数据中待融合实体的数据标识与获取的数据标识不一致时,会重新推断数据标识并进行替换,进一步保证实体的数据标识的唯一性,不会出现一对多的情况;(2)通过数据标识,确定自有数据中是否存在待融合实体,若存在,则将待融合数据的相关信息融合至自有数据中,即,基于数据标识进行数据融合,可以保证融合的正确性,不会因为实体的相关信息(例如,名称、组织机构代码等)发生变更而导致融合错误等;(3)基于数据标识进行数据融合,数据融合的操作性和延展性强,即,只需数据标识一致,即可进行融合。[0054]步骤204,获取待查询实体,基于所述待融合实体与所述数据标识的对应关系、以及所述待查询实体,确定所述待查询实体的关联信息。在一些实施例中,该步骤204可以由查询模块执行。
[0055]待查询实体可以是需要获取其关联信息的任何实体。例如,自然人或企业。在一些实施例中,查询模块可以从用户终端获取待查询实体。例如,用户在用户终端手动输入或者语音输入待查询实体。在一些实施例中,查询模块还可以通过读取存储的数据、调用相关接口或其他方式获取待查询实体。[0056]在一些实施例中,关联信息可以是指与待查询实体关联的企业关系数据。例如,待查询实体为企业C,则企业C的关联信息可以包括企业C的股东数据和/或高管数据等。又例如,待查询实体为自然人A,则自然人A的关联信息可以包括其持股企业、其就职企业或者与其同为股东关系的其余自然人等。[0057]在一些实施例中,查询模块可以基于待融合实体与数据标识的对应关系、以及待查询实体,确定待查询实体的关联关系。[0058]如步骤202所述,获得待融合实体的数据标识之后,可以基于对应关系对自有数据和待融合实体的数据进行融合。可以理解,若融合后的数据中包含待查询实体,查询模块可以从融合后的数据中确定待查询实体的关联关系。相比于基于融合前的数据而言,基于融合后的数据确定的关联关系更加丰富。继续以图7A和7B为例若待查询实体为企业B,若基于融合后的数据查询企业B的关联信息,关联信息为企业B为:企业B为企业A的股东,若基于融合后的数据查询企业B的关联信息,关联信息为:企业B为企业A的股东,且自然人A为企业B的股东。
[0059]图3是根据本说明书的一些实施例所示的确定待融合实体的数据标识的流程图。同时,为了更加清楚、完整的演绎本说明书一些实施例所示的确定待融合实体的数据标识的过程,现以图4为例进行阐述。其中,图4所示的待融合实体和第一实体的关系权重仅仅只是示意性举例,并不应将其作为本说明书内容的限制。
10
CN 111563133 A[0060]
说 明 书
8/12页
步骤302,获取所述待融合实体与所述第一实体之间的一层或多层关系中每一层
的关系权重;所述第一实体与所述待融合实体之间相似度满足第二预设条件;所述关系权重代表所述关系的密切程度。在一些实施例中,该步骤302可以由数据标识确定模块执行。[0061]第一实体是指与待融合实体之间的相似度满足第二预设条件的实体。在一些实施例中,第二预设条件可以是名称的语义相似度大于预设阈值。例如,待融合实体为自然人“张三”,自然人“zhangsan”和自然人“张三”(此时,可能是同名不同人)可以为第一实体。第二预设条件还可以是实体的其他信息的相似度满足条件,本实施例不做限制。[0062]在一些实施例中,可以从数据库(例如,存储设备120)中获取第一实体,该数据库中包含大量的实体及实体的数据标识。可以理解,获取的第一实体的同时可以获得其数据标识。可以通过常用手段获取大量实体及其数据标识,并存储于数据库中,例如,可以从数据分析公司、公共网站或其他公共数据库中获取第一实体及其相关信息,并基于获取相关信息确定其数据标识,如,若第一实体为企业,可以将企业的组织机构代码作为企业的数据标识或者对组织结构代码进行哈希编码作为企业的数据标识。[0063]在一些实施例中,待融合实体与第一实体之间存在一层或多层关系。其中,关系可以是任意可以描述的关系,如,利益关系、归属关系、转账关系、业务关系等。示例的,待融合实体为企业,关系可以是指企业控股股东、实际控制人、董事、监事、高级管理人员与企业之间的关系,以及可能与企业存在利益转移的其他关系。[0064]一层关系是指待融合实体与第一实体直接相关。例如,待融合实体为企业A,第一实体为企业B,企业A是企业B的股东,则第一实体企业B和待融合实体企业A通过一层关系直接关联。
[0065]多层关系是指第一实体与待融合实体并非直接相关,而是通过一个或一个以上的其它实体产生间接关系。以图4为例,待融合实体A和第一实体C之间存在多层关系,具体的,待融合实体与第一实体可以通过中间实体B1产生间接关系,也可以通过中间实体B2产生间接关系,还可以通过中间实体B31和B32产生间接关系。当以中间实体B1或B2产生间接关系时,待融合实体A和第一实体C之间存在两层直接关系,分别为A与B1的直接关系,以及B1与C的直接关系。
[0066]在一些实施例中,可以根据关系类型确定关系权重,关系权重代表关系的密切程度。例如,可以根据预设规则确定每个关系的关系权重。示例的,夫妻关系的关系权重为0.1,投资或被投资(即,股东关系)关系权重为0.5,法人关系的关系权重为0.8。[0067]进一步地,可以确定待融合实体和第一实体之间一层层或多层关系中每一层的关系权重。如图4所示,以待融合实体A与第一实体C之间存在中间实体B1为例,中间实体B1为待融合实体A法人,两者之间的关系权重为0.8;中间实体B32与第一实体C为夫妻关系,两者之间的关系权重为0.1,因此,待融合实体A与第一实体C之间存在两层关系,且关系权重分别为0.8和0.1。[0068]步骤304,基于所述一层或多层关系中每一层的关系权重,确定所述待融合实体与所述第一实体之间的关系权重。在一些实施例中,该步骤302可以由数据标识确定模块执行。
[0069]在一些实施例中,数据标识确定模块可以对第一实体与待融合实体之间一层或多层关系中每一层的关系权重进行运算或加权运算(例如,加权求积、加权平均、加权方差
11
CN 111563133 A
说 明 书
9/12页
等),确定待融合实体和第一实体之间的关系权重。[0070]以图4为例,待融合实体A与第一实体C之间的关系权重可以为:w=(0.1+0.8+0.5+0.8+0.5+0.5+0.5)/7;待融合实体A与第一实体C之间的关系权重也可以为:w=(0.8*0.1+0.5*0.8+0.5*0.5*0.5)/3。可以理解,确定待融合实体和第一实体之间的关系权重的算法可以进行任意变形,本实施例不做限制。[0071]在一些实施例中,也可以通过第一实体与待融合实体之间一层或多层关系中某几层,确定待融合实体和第一实体之间的关系权重。如图4所示,以中间实体B1建立的间接关系对应的关系权重,作为待融合实体和第一实体之间的关系权重,或者将三种间接关系对应的关系权重中,最大值作为待融合实体和第一实体之间的关系权重。[0072]步骤306,判断所述待融合实体与所述第一实体之间的关系权重是否大于阈值,是则将所述第一实体作为所述相似实体,并将所述第一实体的数据标识作为所述待融合实体的数据标识作为所述待融合实体的数据标识。在一些实施例中,该步骤302可以由数据标识确定模块执行。
[0073]在一些实施例中,阈值可以根据实际需求进行具体设置。例如,1.2或1.5等。本说明书并不对此进行限定。[0074]如前所述,获取第一实体的同时,可以获取其数据标识,因此,可以将与待融合实体的关系权重大于阈值的第一实体的数据标识,作为待融合实体的数据标识。
[0075]图5是根据本说明书的一些实施例所示的确定待融合实体的数据标识的另一流程图。
[0076]步骤502,基于所述待融合实体和所述第一实体各自的地址信息,获取地址相似度;所述第一实体与所述待融合实体之间相似度满足第二预设条件。在一些实施例中,该步骤502可以由数据标识确定模块执行。[0077]第一实体是与待融合实体之间相似度满足第二预设条件的实体。第一实体的更多细节参见步骤402,此处不再赘述。[0078]在一些实施例中,待融合实体和第一实体各自的地址信息可以是指与实体关联的地理位置信息。例如,待融合实体和第一实体为自然人,则其地址信息可以包括但不限于所在企业地址、快递收货地址、邮件收发地址、以及外卖取餐地址等。在一些实施例中,所在企业地址可以包括但不限于企业的注册地址或经营地址等。[0079]在一些实施例中,地址相似度可以是表征待融合实体与第一实体为同一实体的可能性。一般地,地址相似度越大,则表明待融合实体与第一实体为同一实体的可能性越大。反之,亦然。
[0080]在一些实施例中,地址相似度可以根据地址信息的位置坐标间的距离获取。可以理解的,地址信息的位置坐标间的距离可以是指地理位置坐标间的距离。在一些实施例中,距离与地址相似度成负相关,即,距离越大,相似度越小。[0081]在一些实施例中,地址相似度可以根据所述地址信息中的地址文本的相似度获取。在一些实施例中,可以计算地址文本的文本相似度获得地址相似度。在一些实施例中,文本相似度可以是地址文本之间的向量的距离。其中,距离与相似度负相关,即距离越大,相似度越小。在一些实施例中,距离可以包括但不限于余弦距离、欧式距离、曼哈顿距离、马氏距离或闵可夫斯基距离等。
12
CN 111563133 A[0082]
说 明 书
10/12页
步骤504,当所述地址相似度满足第三预设条件时,将所述第一实体作为所述相似
实体,并将所述第一实体的数据标识作为所述待融合实体的所述数据标识。在一些实施例中,该步骤504可以由数据标识确定模块执行。[0083]在一些实施例中,第三预设条件可以距离小阈值,也可以是地址的文本相似度大于阈值。在一些实施例中,阈值和第三预设条件可以根据实际需求进行具体设置,本说明书并不对此做任何限定。
[0084]图6是根据本说明书的一些实施例所示的确定待融合实体的数据标识的另一流程图。
[0085]如图6所示,在一些实施例中,数据标识确定模块还可以基于判别模型确定是否以第一实体的数据标识作为待融合实体的数据标识。具体的,基于判别模型判断第一实体与待融合实体是否为同一个实体,进一步的,基于判别模型的结果确定待融合实体的数据标识,即,若待融合实体与第一实体为同一个实体,则将第一实体的数据标识作为待融合实体的数据标识。
[0086]在一些实施例中,判别模型可以是预先训练好的机器学习模型。训练好的判别模型可以基于输入的待融合实体和第一实体的至少一个相关特征,确定是否以第一实体的数据标识作为待融合实体的数据标识。其中,判别模型可以采用神经网络模型,例如Bi-LSTM、BERT、textCNN等。
[0087]在一些实施例中,至少一个相关特征包括:与待融合实体存在一层或多层关系的关联实体、与第一实体存在一层或多层关系的关联实体、该一层或多层关系中每一层的关系权重、待融合实体的相关信息、第一实体的相关信息。其中,关系权重见图4及其相关描述,此处不在赘述。
[0088]在一些实施例中,相关信息可以是指实体的地址信息、联系方式信息或其他任意相关信息。例如邮箱、联系电话等。[0089]在一些实施例中,可以基于多个带有标签的样本数据训练得到判别模型。其中,每个样本数据包括一个有数据标识的实体和一个无数据标识的实体,以及各自的相关特征。在一些实施例中,标签可以用于表征样本数据中的两个实体是否为同一个实体。具体的,可以基于多个样本数据迭代更新初始判别模型的参数,以使模型的损失函数满足预设条件,例如,损失函数收敛,或损失函数值小于预设值。当损失函数满足预设条件时模型训练完成,得到训练好的判别模型。
[0090]本说明书实施例还提供一种基于实体关系进行数据融合的装置,包括至少一个存储介质和至少一个处理器,所述至少一个存储介质用于存储计算机指令;所述至少一个处理器用于执行所述计算机指令实现前述的基于实体关系进行数据融合的方法。[0091]上文已对基本概念做了描述,显然,对于本领域技术人员来说,上述详细披露仅仅作为示例,而并不构成对本说明书的限定。虽然此处并没有明确说明,本领域技术人员可能会对本说明书进行各种修改、改进和修正。该类修改、改进和修正在本说明书中被建议,所以该类修改、改进、修正仍属于本说明书示范实施例的精神和范围。[0092]同时,本说明书使用了特定词语来描述本说明书的实施例。如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本说明书至少一个实施例相关的某一特征、结构或特点。因此,应强调并注意的是,本说明书中在不同位置两次或多次提及的“一实施例”或“一
13
CN 111563133 A
说 明 书
11/12页
个实施例”或“一个替代性实施例”并不一定是指同一实施例。此外,本说明书的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。[0093]此外,本领域技术人员可以理解,本说明书的各方面可以通过若干具有可专利性的种类或情况进行说明和描述,包括任何新的和有用的工序、机器、产品或物质的组合,或对他们的任何新的和有用的改进。相应地,本说明书的各个方面可以完全由硬件执行、可以完全由软件(包括固件、常驻软件、微码等)执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为“数据块”、“模块”、“引擎”、“单元”、“组件”或“系统”。此外,本说明书的各方面可能表现为位于一个或多个计算机可读介质中的计算机产品,该产品包括计算机可读程序编码。
[0094]计算机存储介质可能包含一个内含有计算机程序编码的传播数据信号,例如在基带上或作为载波的一部分。该传播信号可能有多种表现形式,包括电磁形式、光形式等,或合适的组合形式。计算机存储介质可以是除计算机可读存储介质之外的任何计算机可读介质,该介质可以通过连接至一个指令执行系统、装置或设备以实现通讯、传播或传输供使用的程序。位于计算机存储介质上的程序编码可以通过任何合适的介质进行传播,包括无线电、电缆、光纤电缆、RF、或类似介质,或任何上述介质的组合。
[0095]本说明书各部分操作所需的计算机程序编码可以用任意一种或多种程序语言编写,包括面向对象编程语言如Java、Scala、Smalltalk、Eiffel、JADE、Emerald、C++、C#、VB.NET、Python等,常规程序化编程语言如C语言、Visual Basic、Fortran2003、Perl、COBOL2002、PHP、ABAP,动态编程语言如Python、Ruby和Groovy,或其他编程语言等。该程序编码可以完全在用户计算机上运行、或作为独立的软件包在用户计算机上运行、或部分在用户计算机上运行部分在远程计算机运行、或完全在远程计算机或处理设备上运行。在后种情况下,远程计算机可以通过任何网络形式与用户计算机连接,比如局域网(LAN)或广域网(WAN),或连接至外部计算机(例如通过因特网),或在云计算环境中,或作为服务使用如软件即服务(SaaS)。[0096]此外,除非权利要求中明确说明,本说明书所述处理元素和序列的顺序、数字字母的使用、或其他名称的使用,并非用于限定本说明书流程和方法的顺序。尽管上述披露中通过各种示例讨论了一些目前认为有用的发明实施例,但应当理解的是,该类细节仅起到说明的目的,附加的权利要求并不仅限于披露的实施例,相反,权利要求旨在覆盖所有符合本说明书实施例实质和范围的修正和等价组合。例如,虽然以上所描述的系统组件可以通过硬件设备实现,但是也可以只通过软件的解决方案得以实现,如在现有的处理设备或移动设备上安装所描述的系统。[0097]同理,应当注意的是,为了简化本说明书披露的表述,从而帮助对一个或多个发明实施例的理解,前文对本说明书实施例的描述中,有时会将多种特征归并至一个实施例、附图或对其的描述中。但是,这种披露方法并不意味着本说明书对象所需要的特征比权利要求中提及的特征多。实际上,实施例的特征要少于上述披露的单个实施例的全部特征。[0098]一些实施例中使用了描述成分、属性数量的数字,应当理解的是,此类用于实施例描述的数字,在一些示例中使用了修饰词“大约”、“近似”或“大体上”来修饰。除非另外说明,“大约”、“近似”或“大体上”表明所述数字允许有±20%的变化。相应地,在一些实施例中,说明书和权利要求中使用的数值参数均为近似值,该近似值根据个别实施例所需特点
14
CN 111563133 A
说 明 书
12/12页
可以发生改变。在一些实施例中,数值参数应考虑规定的有效数位并采用一般位数保留的方法。尽管本说明书一些实施例中用于确认其范围广度的数值域和参数为近似值,在具体实施例中,此类数值的设定在可行范围内尽可能精确。[0099]针对本说明书引用的每个专利、专利申请、专利申请公开物和其他材料,如文章、书籍、说明书、出版物、文档等,特此将其全部内容并入本说明书作为参考。与本说明书内容不一致或产生冲突的申请历史文件除外,对本说明书权利要求最广范围有限制的文件(当前或之后附加于本说明书中的)也除外。需要说明的是,如果本说明书附属材料中的描述、定义、和/或术语的使用与本说明书所述内容有不一致或冲突的地方,以本说明书的描述、定义和/或术语的使用为准。[0100]最后,应当理解的是,本说明书中所述实施例仅用以说明本说明书实施例的原则。其他的变形也可能属于本说明书的范围。因此,作为示例而非限制,本说明书实施例的替代配置可视为与本说明书的教导一致。相应地,本说明书的实施例不仅限于本说明书明确介绍和描述的实施例。
15
CN 111563133 A
说 明 书 附 图
1/4页
图1
图2
16
CN 111563133 A
说 明 书 附 图
2/4页
图3
图4
17
CN 111563133 A
说 明 书 附 图
3/4页
图5
图6
18
CN 111563133 A
说 明 书 附 图
4/4页
图7A
图7B
19
因篇幅问题不能全部显示,请点此查看更多更全内容