一种多模态场景特定情景的识别方法[发明专利]

2022-09-24 来源：年旅网

(19)中华人民共和国国家知识产权局

(12)发明专利申请

(10)申请公布号 CN 112183442 A(43)申请公布日 2021.01.05

(21)申请号 202011094713.0(22)申请日 2020.10.14

(71)申请人上海宝钿科技产业发展有限公司

地址 200940 上海市宝山区双城路803弄11

号1602A-3368室(72)发明人徐黎敏　周晨　

(74)专利代理机构上海塔科专利代理事务所

(普通合伙) 31380

代理人耿恩华(51)Int.Cl.

G06K 9/00(2006.01)G06K 9/62(2006.01)G06N 3/04(2006.01)

权利要求书1页说明书3页附图1页

(54)发明名称

一种多模态场景特定情景的识别方法(57)摘要

本发明涉及场景识别技术领域，具体公开了一种多模态场景特定情景的识别方法，包括以下步骤：S1、输入视频样本；S2、对视频样本中的场景元素进行分析，并对场景元素进行分类；S3、通过采集端获得监控视频，对监控视频提取特征元素；S4、对步骤S3中所提取的特征元素进行分析处理；S5、根据步骤S4的分析结果与步骤S2中分类结果进行比对，确定各元素具体信息；S6、输出场景；本发明所提供的场景识别方法，先利用视频样本，获取足够多的场景元素，并以此作为后续识别场景的基础，最后对识别到的场景进行输出；方法步骤简单，识别准确率高，且识别场景广，适宜于推广使用，具有十分广阔的应用前景。

CN 112183442 ACN 112183442 A

权　利　要　求　书

1/1页

1.一种多模态场景特定情景的识别方法，其特征在于：包括以下步骤：S1、输入视频样本；S2、对视频样本中的场景元素进行分析，并对场景元素进行分类；S3、通过采集端获得监控视频，对监控视频提取特征元素；S4、对步骤S3中所提取的特征元素进行分析处理；S5、根据步骤S4的分析结果与步骤S2中分类结果进行比对，确定各元素具体信息；S6、输出场景。

2.根据权利要求1所述的一种多模态场景特定情景的识别方法，其特征在于：所述步骤S1中，输入的视频样本的长度为10s～15s，输入的视频样本数量不少于50组。

3.根据权利要求1所述的一种多模态场景特定情景的识别方法，其特征在于：所述步骤S2中，搭建神经网络，并进行深度学习，对场景元素分类；场景元素包括但不限于人物、动物、环境、天气、移动物品、静止物品、文字、声音以及动作。

4.根据权利要求1所述的一种多模态场景特定情景的识别方法，其特征在于：所述步骤S3中，使用的采集端为监控摄像头，监控摄像头与视频处理端通过网络连接，完成视频的输送，并分解视频提取视频的特征元素。

5.根据权利要求1所述的一种多模态场景特定情景的识别方法，其特征在于：所述步骤S3中，对监控视频进行分解，根据步骤S2中的分类提取特征元素。

6.根据权利要求1所述的一种多模态场景特定情景的识别方法，其特征在于：所述步骤S4中，对所提取的特征元素进行处理，减少特征元素画面中干扰物的存在，所述干扰物具体包括但不限于场景光影干扰、信号波动干扰以及物体直接遮挡干扰。

7.根据权利要求1所述的一种多模态场景特定情景的识别方法，其特征在于：所述步骤S5中，针对人物能够识别出性别、肤色、年龄段，针对动物的识别能够识别出动物的种类，针对环境的识别能够识别出乡村、城市自然元素，针对天气能够识别出雨雪阴晴，针对移动物品、静止物品能够识别出物品类型，针对文字、声音、动作能够识别出相应内容。

8.根据权利要求1所述的一种多模态场景特定情景的识别方法，其特征在于：所述步骤S5中还设置有步骤S51：针对步骤S5中无法识别的元素类型，进行上报处理，人工确定，并添加到步骤S2的分类中。

9.根据权利要求1所述的一种多模态场景特定情景的识别方法，其特征在于：所述步骤S6中，对分析后的场景元素进行整合，整合后输出，完成识别过程。

CN 112183442 A

说　明　书

一种多模态场景特定情景的识别方法

1/3页

技术领域

[0001]本发明涉及场景识别技术领域，具体为一种多模态场景特定情景的识别方法。背景技术

[0002]场景识别利用特定的算法，对场景进行识别和分析的技术，广泛应用在视频分类、人机交互、安防监控等领域。

[0003]现有的场景识别技术识别效果较差，且准确率较为低下，识别过程较为复杂，不利于推广。

发明内容

[0004]本发明的目的在于提供一种多模态场景特定情景的识别方法，以解决上述背景技术中提出的问题。

[0005]为实现上述目的，本发明提供如下技术方案：一种多模态场景特定情景的识别方法，包括以下步骤：[0006]S1、输入视频样本；[0007]S2、对视频样本中的场景元素进行分析，并对场景元素进行分类；[0008]S3、通过采集端获得监控视频，对监控视频提取特征元素；[0009]S4、对步骤S3中所提取的特征元素进行分析处理；[0010]S5、根据步骤S4的分析结果与步骤S2中分类结果进行比对，确定各元素具体信息；[0011]S6、输出场景。[0012]优选的，所述步骤S1中，输入的视频样本的长度为10s～15s，输入的视频样本数量不少于50组。

[0013]优选的，所述步骤S2中，搭建神经网络，并进行深度学习，对场景元素分类；场景元素包括但不限于人物、动物、环境、天气、移动物品、静止物品、文字、声音以及动作。[0014]优选的，所述步骤S3中，使用的采集端为监控摄像头，监控摄像头与视频处理端通过网络连接，完成视频的输送，并分解视频提取视频的特征元素。[0015]优选的，所述步骤S3中，对监控视频进行分解，并根据步骤S2中的分类提取特征元素。

[0016]优选的，所述步骤S4中，对所提取的特征元素进行处理，减少特征元素画面中干扰物的存在，所述干扰物具体包括但不限于场景光影干扰、信号波动干扰以及物体直接遮挡干扰。

[0017]优选的，所述步骤S5中，针对人物能够识别出性别、肤色、年龄段，针对动物的识别能够识别出动物的种类，针对环境的识别能够识别出乡村、城市自然元素，针对天气能够识别出雨雪阴晴，针对移动物品、静止物品能够识别出物品类型，针对文字、声音、动作能够识别出相应内容。[0018]优选的，所述步骤S5中还设置有步骤S51：针对步骤S5中无法识别的元素类型，进

CN 112183442 A

说　明　书

2/3页

行上报处理，人工确定，并添加到步骤S2的分类中。[0019]优选的，所述步骤S6中，对分析后的场景元素进行整合，整合后输出，完成识别过程。

[0020]与现有技术相比，本发明的有益效果是：本发明所提供的场景识别方法，先利用视频样本，获取足够多的场景元素，并以此作为后续识别场景的基础，最后对识别到的场景进行输出；方法步骤简单，识别准确率高，且识别场景广，适宜于推广使用，具有十分广阔的应用前景。

附图说明

[0021]图1为本发明的流程示意图。

具体实施方式

[0022]下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。[0023]请参阅图1，本发明提供一种技术方案：一种多模态场景特定情景的识别方法，包括以下步骤：[0024]S1、输入视频样本；[0025]S2、对视频样本中的场景元素进行分析，并对场景元素进行分类；[0026]S3、通过采集端获得监控视频，对监控视频提取特征元素；[0027]S4、对步骤S3中所提取的特征元素进行分析处理；[0028]S5、根据步骤S4的分析结果与步骤S2中分类结果进行比对，确定各元素具体信息；[0029]S6、输出场景。[0030]进一步的，所述步骤S1中，输入的视频样本的长度为10s～15s，输入的视频样本数量不少于50组。

[0031]进一步的，所述步骤S2中，搭建神经网络，并进行深度学习，对场景元素分类；场景元素包括但不限于人物、动物、环境、天气、移动物品、静止物品、文字、声音以及动作。[0032]进一步的，所述步骤S3中，使用的采集端为监控摄像头，监控摄像头与视频处理端通过网络连接，完成视频的输送，并分解视频提取视频的特征元素。[0033]进一步的，所述步骤S3中，对监控视频进行分解，并根据步骤S2中的分类提取特征元素。

[0034]进一步的，所述步骤S4中，对所提取的特征元素进行处理，减少特征元素画面中干扰物的存在，所述干扰物具体包括但不限于场景光影干扰、信号波动干扰以及物体直接遮挡干扰。

[0035]进一步的，所述步骤S5中，针对人物能够识别出性别、肤色、年龄段，针对动物的识别能够识别出动物的种类，针对环境的识别能够识别出乡村、城市自然元素，针对天气能够识别出雨雪阴晴，针对移动物品、静止物品能够识别出物品类型，针对文字、声音、动作能够识别出相应内容。

CN 112183442 A[0036]

说　明　书

3/3页

进一步的，所述步骤S5中还设置有步骤S51：针对步骤S5中无法识别的元素类型，

进行上报处理，人工确定，并添加到步骤S2的分类中。[0037]进一步的，所述步骤S6中，对分析后的场景元素进行整合，整合后输出，完成识别过程。

[0038]工作原理：在步骤S1中，获取足够多的视频样本，具体数量为60～80组，且视频样本的长度为10s～15s，用以搭建神经网络，并进行深度学习，便于步骤S2中提取特征元素；在步骤S2中，所提取的特征元素具体指的是人物、动物、环境、天气、移动物品、静止物品、文字、声音以及动作中的一种或多种，或者额外的元素类型；步骤S3中，通过采集端的摄像头获取视频画面，并通过网络输送到处理端中，之后按照步骤S2中的类型提取元素；步骤S4，对提取的特征元素进行防干扰处理，减少干扰元素的影响；步骤S5，对各元素的具体信息进行识别，例如人物具体识别出性别、肤色、年龄段，动物具体识别出种类，其余元素也是识别出具体元素的信息；同时，针对步骤S5中无法识别的元素类型，采取步骤S51，进行上报处理，人工确定，并添加到步骤S2的分类中，作为后续识别的基准；步骤S6，对分析后的场景元素进行整合，整合后输出，完成识别过程。

[0039]尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

CN 112183442 A

说　明　书　附　图

1/1页

图1

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文

全部栏目

一种多模态场景特定情景的识别方法[发明专利]