图像搜索方法、装置、终端设备及存储介质与流程

文档序号:19943675发布日期:2020-02-14 23:33
图像搜索方法、装置、终端设备及存储介质与流程

本申请涉及图像搜索技术领域,更具体地,涉及一种图像搜索方法、装置、终端设备及存储介质。



背景技术:

随着现代通信技术和多媒体技术的广泛应用和互联网广泛普及,数字图像的数量出现了巨量的增长。面对如此海量的图像数据,如何快速且准确在医学、交通、购物等领域进行图像检索,这是近20年来研究的热点。现有的图像搜索的方式不够智能,搜索方式单一,缺乏趣味性或是灵活性,需要人工操作多。



技术实现要素:

鉴于上述问题,本申请提出了一种图像搜索方法、装置、终端设备及存储介质,以解决上述问题。

第一方面,本申请实施例提供了一种图像搜索方法,该方法包括:获取在人机交互界面输入的语音信息;提取所述语音信息中的多个语音特征数据,所述多个语音特征数据对应用户不同的搜索需求;搜索与所述多个语音特征数据分别对应的图像;获取用户的表情信息;获取所述与所述多个语音特征数据分别对应的图像与所述表情信息的匹配度;输出与最高的所述匹配度对应的图像。

进一步的,所述获取所述与所述多个语音特征数据分别对应的图像与所述表情信息的匹配度,包括:提取与所述表情信息关联的情感特征;对所述情感特征进行识别,确定用户的搜索意图;依据所述搜索意图确定所述多个语音特征数据分别对应的图像与所述表情信息的匹配度,所述匹配度越高的图像与所述搜索意图越接近。

进一步的,所述对所述情感特征进行识别,确定用户的搜索意图,包括:通过预设的情感识别模型对所述情感特征进行识别,确定用户的搜索意图,所述情感识别模型预先学习得到有用户的情感特征与对应的搜索意图之间的对应关系。

进一步的,所述输出与最高的所述匹配度对应的图像之前,还包括:获取用户搜索过程中的环境参数;若所述环境参数满足指定条件,输出与最低的所述匹配度对应的图像;若所述环境参数不满足指定条件,执行所述输出与最高的所述匹配度对应的图像。

进一步的,所述多个语音特征数据至少包括所述语音信息的音色、音调、音量、音素、发音速度、总的时长中的一项。

进一步的,所述获取所述与所述多个语音特征数据分别对应的图像与所述表情信息的匹配度,包括:获取与所述语音信息的音色、音调、音量、音素、发音速度和/或总的时长分别对应的图像与所述表情信息的匹配度。

进一步的,所述方法还包括:按照所述匹配度的大小依次输出对应的所述与所述语音信息的音色、音调、音量、音素、发音速度和/或总的时长分别对应的图像。

进一步的,在输出与最高的所述匹配度对应的图像的过程中,所述方法还包括:获取用户的姿态信息;识别与所述姿态信息对应的选择指令;将与所述选择指令对应的图像作为目标图像进行输出。

第二方面,本申请实施例提供了一种图像搜索装置,该装置包括:第一获取模块,用于获取在人机交互界面输入的语音信息;数据提取模块,用于提取所述语音信息中的多个语音特征数据,所述多个语音特征数据对应用户不同的搜索需求;搜索模块,用于搜索与所述多个语音特征数据分别对应的图像;第二获取模块,用于获取用户的表情信息;第三获取模块,用于获取所述与所述多个语音特征数据分别对应的图像与所述表情信息的匹配度;输出模块,用于输出与最高的所述匹配度对应的图像。

进一步的,所述第三获取模块具体可以用于提取与所述表情信息关联的情感特征;对所述情感特征进行识别,确定用户的搜索意图;依据所述搜索意图确定所述多个语音特征数据分别对应的图像与所述表情信息的匹配度,所述匹配度越高的图像与所述搜索意图越接近。其中,所述对所述情感特征进行识别,确定用户的搜索意图,包括:通过预设的情感识别模型对所述情感特征进行识别,确定用户的搜索意图,所述情感识别模型预先学习得到有用户的情感特征与对应的搜索意图之间的对应关系。

进一步的,所述装置还可以包括环境参数检测单元,所述环境参数检测单元可以用于在输出与最高的所述匹配度对应的图像之前,获取用户搜索过程中的环境参数;若所述环境参数满足指定条件,输出与最低的所述匹配度对应的图像;若所述环境参数不满足指定条件,执行所述输出与最高的所述匹配度对应的图像。

进一步的,所述多个语音特征数据至少包括所述语音信息的音色、音调、音量、音素、发音速度、总的时长中的一项。

进一步的,所述第三获取模块具体可以用于获取与所述语音信息的音色、音调、音量、音素、发音速度和/或总的时长分别对应的图像与所述表情信息的匹配度。

进一步的,所述装置还可以包括第二输出单元,所述第二输出单元可以用于按照所述匹配度的大小依次输出对应的所述与所述语音信息的音色、音调、音量、音素、发音速度和/或总的时长分别对应的图像。

进一步的,所述装置还可以包括指令识别单元,所述指令识别单元可以用于在输出与最高的所述匹配度对应的图像的过程中,获取用户的姿态信息;识别与所述姿态信息对应的选择指令;将与所述选择指令对应的图像作为目标图像进行输出。

第三方面,本申请实施例提供了一种终端设备,其包括:存储器;一个或多个处理器,与存储器耦接;一个或多个程序,其中,一个或多个应用程序被存储在存储器中并被配置为由一个或多个处理器执行,一个或多个程序配置用于执行如上述第一方面所述的方法。

第四方面,本申请实施例提供了一种计算机可读取存储介质,该计算机可读取存储介质中存储有程序代码,该程序代码可被处理器调用执行如上述第一方面所述的方法。

本申请实施例提供了一种图像搜索方法、装置、终端设备及存储介质。本方法通过获取在人机交互界面输入的语音信息,继而提取语音信息中的多个语音特征数据,多个语音特征数据对应用户不同的搜索需求,再搜索与多个语音特征数据分别对应的图像,然后获取用户的表情信息,再获取与多个语音特征数据分别对应的图像与表情信息的匹配度,最后输出与最高的匹配度对应的图像。通过上述方式实现了在获取了对应用户不同的搜索需求的多个语音特征数据所分别对应的图像的情况下,输出多个语音特征数据分别对应的图像中,与用户的表情信息的匹配度最高的图像,通过借助表情实现智能搜索符合用户的搜索需求,同时免除了搜索过程中的人为操作,进而提升了搜索方式的趣味性与多样性。

附图说明

为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1示出了一种适用于本申请实施例的应用环境示意图。

图2示出了本申请一实施例提供的图像搜索方法的方法流程图。

图3示出了本申请另一实施例提供的图像搜索方法的方法流程图。

图4示出了本申请又一实施例提供的图像搜索方法的方法流程图。

图5示出了本申请再一实施例提供的图像搜索方法的方法流程图。

图6示出了本申请实施例提供的图像搜索装置的结构框图。

图7示出了本申请实施例的用于执行根据本申请实施例的图像搜索方法的终端设备的结构框图。

图8示出了本申请实施例的用于保存或者携带实现根据本申请实施例的图像搜索方法的程序代码的存储单元。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

近年来,随着移动互联网、大数据、云计算、传感器等技术的加速突破和广泛应用,人工智能的发展也进入了一个崭新的阶段。而智能语音搜索技术作为人工智能产业链上的关键一环以及ai(artificialintelligence,人工智能)应用最成熟的技术之一,在营销客服、智能家居、智能车载、智能穿戴、智能搜索等领域都有着迅猛发展。例如,智能图像搜索。

作为一种方式,可以通过对用户输入的搜索语音进行语音识别,以将搜索语音转换成文字,并分析出其中的关键字,然后根据关键字搜索相匹配的搜索结果或者根据关键字在问答系统的数据库中查询对应的问答结果,并将搜索结果以图片、动画或视频等形式展现给用户。然而,在利用语音进行图像搜索时,通常会出现因语音内容识别度不高导致搜索变慢且搜索结果不准确。

发明人在研究中发现,可结合用户的说话习惯,通过提取用户的语音信息中的多个语音特征数据,再搜索与多个语音特征数据分别对应的图像,然后获取用户的表情信息,再获取与多个语音特征数据分别对应的图像与表情信息的匹配度,最后输出与最高的匹配度对应的图像,可以实现输出多个语音特征数据分别对应的图像中,与用户的表情信息的匹配度最高的图像,通过借助表情实现智能搜索符合用户的搜索需求,同时免除了搜索过程中的人为操作,进而提升了搜索方式的趣味性与多样性。因此提出了本申请实施例中的图像搜索方法、装置、终端设备及存储介质。

为了便于更好的理解本申请实施例提供的图像搜索方法、装置、终端设备及存储介质,下面先对适用于本申请实施例的应用环境进行描述。

请参阅图1,图1示出了一种适用于本申请实施例的应用环境示意图。本申请实施例提供的图像搜索方法可以应用于如图1所示的多态交互系统100。多态交互系统100包括终端设备101以及服务器102,服务器102与终端设备101通信连接。其中,服务器102可以是传统服务器,也可以是云端服务器,在此不作具体限定。

其中,终端设备101可以是具有显示屏且支持数据输入的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机、台式计算机和可穿戴式电子设备等。具体的,数据输入可以是基于终端设备101上具有的语音模块输入语音、字符输入模块输入字符等。终端设备101设置有摄像头,摄像头可设置于终端设备101配有显示屏的一面,可选的,终端设备101的摄像头也可设置于终端设备101背离显示屏的一面。需要说明的是,通过摄像头可采集用户的图像数据,图像数据中包括用户的姿态信息,以辅助用于准确识别用户的搜索意图。

其中,终端设备101上可以安装有客户端应用程序,用户可以基于客户端应用程序(例如app、微信小程序等)与服务器102进行通信。具体的,服务器102上安装有对应的服务端应用程序,用户可以基于客户端应用程序在服务器102注册一个用户帐号,并基于该用户帐号与服务器102进行通信,例如用户在客户端应用程序登录用户帐号,并基于该用户帐号通过客户端应用程序进行输入,可以输入文字信息、语音数据或图像数据等等,客户端应用程序接收到用户输入的信息后,可以将该信息发送至服务器102,使得服务器102可以接收该信息并进行处理及存储,服务器102还可以接收该信息并根据该信息返回一个对应的输出信息至终端设备101。

在一些实施方式中,对用户输入的信息进行处理的装置也可以设置于终端设备101上,使得终端设备101无需依赖与服务器102建立通信即可实现与用户的交互,此时多态交互系统100可以只包括终端设备101。

上述的应用环境仅为方便理解所作的示例,可以理解的是,本申请实施例不仅局限于上述应用环境。

下面将通过具体实施例对本申请实施例提供的图像搜索方法、装置、终端设备及存储介质进行详细说明。

如图2所示,示出了本申请一实施例提供的图像搜索方法的方法流程图。本实施例提供的图像搜索方法可以应用于具有显示屏或其他图像输出装置的终端设备,终端设备可以是智能手机、平板电脑、穿戴式智能终端等电子设备。

在具体的实施例中,图像搜索方法可应用于如图6所示的搜索装置500以及图7所示的终端设备101。下面将针对图2所示的流程进行详细的阐述。上述的图像搜索方法具体地可以包括以下步骤:

步骤s110:获取在人机交互界面输入的语音信息。

需要说明的是,本实施例中,语音信息具体可以包括语音所属的语言(例如,可以是普通话、四川话、河南话、山东话、上海话、粤语等)、语种(例如,可以是英语、德语、法语、俄语、韩国话、日本话等)、以及语音信息所表征的用户行为的具体内容(例如,用于搜索图像的语音信息)等。不同用户的语音信息可以不同。

作为一种方式,可以获取用户通过人机交互界面实时输入的语音信息。可选的,可以是用户在人机交互界面通过终端设备的语音输入功能输入的语音信息。例如,在一个具体的应用场景中,可以通过终端设备中安装的语音助手、语音sdk(softwaredevelopmentkit,软件开发工具包)或是语音识别引擎应用程序等采集用户输入的语音信息。可选的,该种方式下的语音信息可以是当前通过终端设备的人机交互界面与终端设备进行交互的用户的语音信息,或者可以是用户在通过终端设备进行通话过程中获取到的用户的语音信息。

作为另一种方式,可以在终端设备的人机交互界面设置语音信息的选择控件,用户通过该控件可以选择导入预先存储的语音信息作为在人机交互界面输入的语音信息。其中,预先存储的语音信息可以是用户通过终端设备的语音录制功能预先录入的语音信息(例如,预先录入的一句话、一段话或音频等),或者可以是用户历史搜索记录中缓存的语音信息,或者是用户从网络上下载的语音信息(例如,从抖音app上下载保存的某段用户感兴趣的语音信息),或者也可以是用户通过语音处理软件将自己的语音信息与用户感兴趣的某位艺人、网络用户的语音进行合成后的语音信息等,对于语音信息的格式、内容以及来源不作限定。

可选的,对于获取到的用户的语音信息,终端设备可以将这些语音信息进行存储,继而判断语音信息中是否包括用于图像搜索的关键字,其中,用于图像搜索的关键字可以预先定义,以便于终端设备可以通过识别语音信息中是否包括预先定义的图像搜索关键字,进而将对应的语音信息加入待搜索图像队列。

可选的,为了进一步的减少数据冗余,终端设备也可以在获取了用户的语音信息的情况下,判断语音信息是否用于图像搜索,若是用于图像搜索,那么可以获取对应的语音信息并将这些语音信息作为在人机交互界面输入的语音信息;而若该语音信息不是用于图像搜索,那么将舍弃这些语音信息,或者提示用户重新输入语音信息。可选的,可以通过判断语音信息中是否包括预先定义的图像搜索关键字来判断语音信息是否用于图像搜索。可以理解的是,若包括,那么可以判定语音信息是用于图像搜索;而若不包括,那么可以判定语音信息不是用于图像搜索。

作为一种实施方式,终端设备可以实时监测安装的搜索类应用程序的搜索指令是否被触发。可选的,若监测到搜索指令被触发,那么为了减少长时间获取语音信息带来的功耗问题,可以在监测到搜索类应用程序的搜索指令被触发时,开始获取用户在人机交互界面输入的语音信息。

步骤s120:提取所述语音信息中的多个语音特征数据。

语音,即语言的物质外壳,是语言的外部形式,是最直接地记录人的思维活动的符号体系。它是人的发音器官发出的具有一定社会意义的声音。语音的物理基础主要有音高、音强、音长、音色,这也是构成语音的四要素。音高指声波频率,即每秒钟振动次数的多少;音强指声波振幅的大小;音长指声波振动持续时间的长短,也称为"时长";音色指声音的特色和本质,也称作"音质"。人的发音器官及其活动情况是语音的生理基础。人的发音器官分3部分:(1)呼吸器官,包括肺、气管和支气管。肺是呼吸器官的中心,是产生语音动力的基础。(2)喉头和声带,它们是发音的振颤体。(3)口腔、咽腔、鼻腔,它们都是发音的共鸣器。

可以理解的是,语音是具有生理属性的,即它是由人的生理发音器官发出来的。那么不同的用户的生理属性存在差异,即不同用户所发出的语音不同。那么,作为一种方式,可以对用户的语音信息中的语音特征数据进行提取,进而基于语音特征数据搜索符合用户搜索意图的图像。其中,本申请实施例中的语音信息可以包括多个语音特征数据,多个语音特征数据对应用户不同的搜索需求。可选的,多个语音特征数据可以至少包括语音信息的音高、音强(等同于音量)、音长、音色、音调(即语音声音频率的高低)、音素(根据语音的自然属性划分出来的最小语音单位,依据音节里的发音动作来分析,一个动作构成一个音素)、发音速度(表征用户发音的快慢)、总的时长(表征用户的说话时长)中的一项。可选的,实际实现时可以包括更多或更少的语音特征数据,在此不一一例举,且不作为限定。

可以理解的是,不同用户的生理属性不同,那么不同用户的语音信息所包括的多个语音特征数据可以不同。

需要说明的是,本实施例中,多个语音特征数据对应用户不同的搜索需求。

需要说明的是,对于同一用户,在不同情绪下说出的语音信息的多个语音特征数据可以不同。例如,一个人情绪激动时语音信息的音强高、发音速度快、说话时长较长,而情绪低落时语音信息的音强低、发音速度慢、说话时长较短等。可选的,若同一用户采用不同的语言或语种进行说话时,所对应的语音信息的多个语音特征数据也可以不同。例如,用户用英文表达“这周末如果不下雨,我们去爬山”,与用户用中文表达“这周末如果不下雨,我们去爬山”时,由于语言特性,以及发音速度的调整,与用户的语音信息对应的多个语音特征数据可以不同。

作为一种方式,可以将获取到的语音信息送入特征提取模块进行特征提取,再用预先训练得到的声学模型与语言模型对所提取得到的语音特征进行解码,可以得到语音信息的多个语音特征数据。通过提取语音信息中的多个语音特征数据,可以实现基于语音特征数据搜索符合用户的搜索意图的图像数据,满足了用户的个性化搜索需求,从而提升个性化用户体验。

步骤s130:搜索与所述多个语音特征数据分别对应的图像。

作为一种方式,在提取了语音信息中的多个语音特征数据的情况下,可以对每一类语音特征数据分别构建索引,此处索引可以理解为用于唯一确定单个语音特征数据的搜索标识,继而开启多线程并行搜索与多个语音特征数据分别对应的图像。

需要说明的是,多个语音特征数据的索引可以预先构建,且语音信息的不同的语音特征数据,与用户的搜索意图对应的图像搜索结果的对应关系以及对应规则等可以预先设定。例如,假设与用户的搜索意图对应的图像搜索结果为“餐巾纸”,那么如果只是将搜索结果进行简单排列展示给用户,会给用户带来选择困扰;另外,若将搜索结果按照销量、价格高低、搜索热度等惯有的排列方式将搜索结果展示给用户,会显得过于机械化,且有一定的商业广告效应(例如,有些排列靠前的搜索结果的销量可能是利用特定手段刷出来的),不能真正贴合于用户的搜索意图,展示与用户的搜索意图相关度高的图像搜索结果。

作为一种方式,可以将多个语音特征数据中的“音高、音强、音长、音色、音调、音素、发音速度、总的时长”分别与“餐巾纸”中“搜索热度高的餐巾纸”、“品牌知名度高的餐巾纸”、“纸张厚度较厚的餐巾纸”、“外形包装美观、设计感强的餐巾纸”、“价格相对较高的餐巾纸”、“体积小、便携带的餐巾纸”、“材质最好的餐巾纸”、“婴幼儿适用的餐巾纸”进行对应,那么在搜索与多个语音特征数据分别对应的图像时,可以分别搜索出满足各类餐巾纸的定义规则的图像,从而帮助用户根据搜索结果选择符合用户搜索意图的餐巾纸。

需要说明的是,关于多个语音特征数据和与用户的搜索意图对应的各类图像搜索结果的对应关系以及对应规则可以按照实际需求进行设定。且在实际应用时,在必要的情况下也可以将不同的语音特征数据和与用户的搜索意图对应的相同的图像搜索结果进行对应,具体对应关系以及对应规则的设定方式可以不作限定。

需要说明的是,本申请实施例中搜索得到的图像可以包括但不限于图片、视频、动画、广告等内容或它们之间的任意组合,具体内容以及格式不作限定。

通过开启多线程并行搜索与多个语音特征数据分别对应的图像可以提升搜索速度,且可以提升搜索的趣味性。

步骤s140:获取用户的表情信息。

可选的,用户的表情信息可以包括与用户的各种情绪(包括喜、怒、哀、乐)分别对应的表情信息。其中,每一种情绪可以对应多种表情,例如,对于情绪“喜”,对应的表情可以包括“微笑、大笑、憨笑、咧嘴笑、哈哈大笑”等,对于情绪“怒”,对应的表情可以包括“皱眉、怒目而视”等,在此不一一例举。

可以理解的是,用户的情绪是时刻变化的,如果用户在进行搜索的过程中,前后情绪相对变化比较大,在这种情况下若还是将与用户的语音信息对应的图像搜索结果展示给用户可能会达不到用户的搜索预期。因而,作为一种改善上述问题的方式,本申请实施例中在搜索出了与语音信息的多个语音特征数据分别对应的图像之后,可以继续获取用户的表情信息,以便于通过识别用户的表情展示与用户当前的情绪匹配的图像给用户,增强用户友好体验。

作为一种方式,可以通过终端设备的摄像头采集用户的人脸信息,再通过预设的人脸识别模型识别用户的脸部表情,得到用户的表情信息。其中,预设的人脸识别模型可以是根据用户的大量的脸部特征数据样本训练得到的,属于用户专用的人脸识别模型;可选的,也可以是通过大量用户的脸部表情特征数据训练得到的脸部识别模型。

通过获取用户的表情信息,以便于可以输出与用户当前的情绪对应的图像搜索结果,提升用户友好体验。

步骤s150:获取所述与所述多个语音特征数据分别对应的图像与所述表情信息的匹配度。

作为一种方式,可以预先建立表情信息与不同类型的图像搜索结果之间的匹配关系,以便于可以获取多个语音特征数据分别对应的图像与表情信息的匹配度来获取最佳的图像搜索结果进行输出。

其中,表情信息与不同类型的图像搜索结果之间的对应关系可以有多种设定方式。

作为一种实施方式,可以先判断用户的表情信息是否是正面的表情信息(其中,正面的表情信息可以理解为正常情况下用户会有的情绪对应的表情,例如喜怒哀乐等情绪)。相对应的,如果用户因精神异常或者是情绪失控的状态下可能会有负面的表情信息(例如,狂笑,哭笑不停等)。作为一种方式,若表情信息为正面的表情信息,可以设定与多个语音特征数据分别对应的图像中,与用户的情绪直接对应的图像搜索结果用来获取与多个语音特征数据分别对应的图像与表情信息的匹配度。例如,假设用户的表情为高兴时,可以设定为图像的颜色越鲜明,图像与用户的表情信息的匹配度越高。

例如,在一个具体的应用场景中,假设用户的搜索意图为“大海”,多个语音特征数据分别为“音调”、“音色”以及“音高”,其中,“音调”对应的是“阳光普照的大海”,“音色”对应的是“微微细雨中的大海”,“音高”对应的是“灰蒙蒙的大海”。可选的,若识别到用户的表情为“微笑”,那么可以判定用户的情绪为“喜”,在这种方式下,若预先设定的表情信息与不同类型的图像搜索结果之间的对应关系为“图像的颜色越鲜明,图像与用户的表情信息的匹配度越高”,那么可以得出与“音调”对应的“阳光普照的大海”为与用户当前的表情信息匹配度最高的图像。

可选的,若识别到用户的表情为“皱眉”,那么可以判定用户的情绪为“怒”,在这种方式下,若预先设定的表情信息与不同类型的图像搜索结果之间的对应关系为“图像的颜色越暗,图像与用户的表情信息的匹配度越高”,那么可以得出与“音高”对应的“灰蒙蒙的大海”为与用户当前的表情信息匹配度最高的图像。

作为另一种方式,若表情信息为负面的表情信息,可以设定与多个语音特征数据分别对应的图像中,与用户的情绪间接对应的图像搜索结果用来获取与多个语音特征数据分别对应的图像与表情信息的匹配度。

例如,在一个具体的应用场景中,继续以上述示例为例,假设识别到用户的表情为“大哭”,在这种方式下,为了不继续扩大用户的负面情绪,可以将在与用户的表情信息相反的图像搜索结果中,获取与多个语音特征数据分别对应的图像与表情信息的匹配度。例如,若识别到用户的表情为“大哭”,那么可以判定用户的情绪为“悲”,在这种方式下,若预先设定的表情信息与不同类型的图像搜索结果之间的对应关系为“图像的颜色越明亮,图像与用户的表情信息的匹配度越高”,那么可以得出与“音调”对应的“阳光普照的大海”为与用户当前的表情信息匹配度最高的图像。

通过获取与多个语音特征数据分别对应的图像与表情信息的匹配度,可以实现查找与用户的表情信息匹配的搜索结果,提升搜索的智慧性能。

步骤s160:输出与最高的所述匹配度对应的图像。

作为一种方式,在获取了不同情况下,与多个语音特征数据分别对应的图像与表情信息的匹配度之后,可以输出与最高的匹配度对应的图像,可以实现搜索得出与用户的语音特征对应并且符合用户的情绪特征的图像,提升了搜索的趣味性。

本实施例提供的图像搜索方法,通过获取在人机交互界面输入的语音信息,继而提取语音信息中的多个语音特征数据,多个语音特征数据对应用户不同的搜索需求,再搜索与多个语音特征数据分别对应的图像,然后获取用户的表情信息,再获取与多个语音特征数据分别对应的图像与表情信息的匹配度,最后输出与最高的匹配度对应的图像。通过上述方式实现了在获取了对应用户不同的搜索需求的多个语音特征数据所分别对应的图像的情况下,输出多个语音特征数据分别对应的图像中,与用户的表情信息的匹配度最高的图像,通过借助表情实现智能搜索符合用户的搜索需求,同时免除了搜索过程中的人为操作,进而提升了搜索方式的趣味性与多样性。

如图3所示,示出了本申请另一实施例提供的图像搜索方法的方法流程图,所述方法包括:

步骤s210:获取在人机交互界面输入的语音信息。

步骤s220:提取所述语音信息中的多个语音特征数据。

步骤s230:搜索与所述多个语音特征数据分别对应的图像。

步骤s240:获取用户的表情信息。

步骤s250:提取与所述表情信息关联的情感特征。

作为一种方式,可以预先构建表情信息与情感特征之间的关联关系,可选的,可以是用户自定义的方式来进行构建,也可以是从网络上获取不同情感特征与对应的表情信息。示例性的,可以将用户的各类情感特征与关联的表情信息进行对应存储,例如,对于情感特征“高兴”,可以存储的与其关联的表情信息可以包括“咧嘴笑、张大嘴笑、开怀大笑、仰头笑”等,对于情感特征“难过”,可以存储的与其关联的表情信息可以包括“发呆、哭泣、眼角下垂”等,在此不一一例举。

在获取了用户的表情信息后,可以根据预先存储的情感特征与用户的表情信息之间的对应关系,通过人脸识别模型识别出与用户的表情信息关联的情感特征。

需要说明的是,对于用户的一些表情信息,若识别不出对应的情感特征的情况下,可以将与用户当前的表情信息相近的情感特征作为与用户的表情信息关联的情感特征;可选的,也可以通过人脸识别算法识别用户的面部特征,进而根据面部特征分析出用户当前可能的表情信息,进而将与该表情信息相近或相类似的情感特征作为与其关联的情感特征。

作为一种方式,对于用户的一句语音信息,可以包括多个语音特征数据,而用户在说该句语音信息个过程中的情绪(此处也可以理解为表情)可能是变化的,那么在这种方式下,一句语音信息可以包括多个分别与对应的表情信息关联的情感特征。

作为另一种方式,用户的语音信息中也可以包括与用户的表情信息关联的一个或多个相类似的情感特征。

步骤s260:对所述情感特征进行识别,确定用户的搜索意图。

作为一种方式,可以通过预设的情感识别模型对与用户的表情信息关联的情感特征进行识别,确定用户的搜索意图。其中,预设的情感识别模型预先学习得到有用户的情感特征与对应的搜索意图之间的对应关系。

例如,在一个具体的应用场景中,假设用户说了句“刚刚天上出现了彩虹,那么现在的大海也一定是波光粼粼的很美丽吧”,若用户在说这句话的过程中,说道“大海”二字的时候,脸上洋溢着开心愉悦的表情,那么可以将“大海”确定为用户的搜索意图。

其中,需要说明的是,若用户的语音信息中包括多种情感特征的情况下,可结合用户说话的语境,判断出用户当前最需要搜索的物体作为用户的搜索意图。

步骤s270:依据所述搜索意图确定所述多个语音特征数据分别对应的图像与所述表情信息的匹配度。

作为一种方式,在确定了用户的搜索意图之后,可以根据用户的搜索意图确定多个语音特征数据分别对应的图像与表情信息的匹配度,匹配度越高的图像与搜索意图越接近。其中,可以根据多个语音特征数据分别对应的图像与搜索意图的相关度来获取这些图像与表情信息的匹配度。

例如,以上述示例为例,假设用户的语音信息包括的语音特征数据为“音色、音调、音素”,用户的搜索意图为“大海”,与该句语音信息对应的其他图像包括“天空”、“彩虹”,其中,“大海”为与语音特征数据“音调”对应的图像,“天空”为与语音特征数据“音色”对应的图像,“彩虹”为与语音特征数据“音素”对应的图像。假设用户在说“刚刚天上出现了彩虹,那么现在的大海也一定是波光粼粼的很美丽吧”这句语音信息时,说到“彩虹”时,脸上露出愉悦的表情,而说到其他内容时表情很平淡,那么在该种方式下,获取语音特征数据“音色、音调、音素”分别对应的图像与表情信息的匹配度时,可以得到多个语音特征数据与表情信息的匹配度的关系从大到小可以表示为“音素>音色>音调”。

可选的,在实际应用的过程中,多个语音特征数据对应的图像与表情信息的匹配度可以用数值进行表示,也可以用排列次序(例如由大到小或者由小到大等)进行排序,具体表示方式不作限定。

步骤s280:获取用户搜索过程中的环境参数。

需要说明的是,由于社会的快速发展以及现代人工作与生活压力的提升,一些用户可能会存在走极端的倾向(例如,残害他人或社会,或者自残等),而作为一种友好智能化的搜索方式,假设用户搜索一些涉及暴力、恐怖等敏感物品的图像时,为了降低可能的危害性,在这种方式下,可以在用户进行搜索的过程中,获取用户搜索过程中的环境参数。

其中,环境参数可以理解为用户搜索时的周围环境(例如,是否是在危险的区域,包括悬崖边或者是房屋的天台等),或者是用户的搜索意图的适用环境(例如,假设用户的搜索意图为“砍刀”,那么可能其适用的环境为“抢劫”,存在危险性)。

作为一种方式,可以通过终端设备的近距离红外探测功能、定位功能、智能情景识别功能以及拍照功能等识别出用户搜索过程中的周围环境。

步骤s290:判断所述环境参数是否满足指定条件。

可选的,指定条件可以包括用户的搜索场景是非正常的生活场景(即非暴力与不文明的场景),或者说用户的搜索意图存在违法违纪的可能。

作为一种方式,可以判断用户搜索过程中的物理环境参数是否是正常的生活场景来判断环境参数是否满足指定条件。可选的,也可以判断用户搜索过程中的搜索意图是否符合法律法规等来判断环境参数是否满足指定条件。

步骤s291:输出与最低的所述匹配度对应的图像。

作为一种方式,若环境参数满足指定条件,那么可以输出与最低的匹配度对应的图像。例如,假设用户的语音信息的语音特征数据对应的图像搜索结果为“匕首、水果刀、棉花糖、多肉植物”,那么若判定环境参数满足指定条件时,将向用户输出“多肉植物或是棉花糖”的图像(假设在该种情况下,“多肉植物或是棉花糖”与表情信息的匹配度最低)。可以实现有效防止用户制造或陷入危险的境地。

步骤s292:执行所述输出与最高的所述匹配度对应的图像。

作为另一种方式,若环境参数不满足指定条件,那么将按照前述实施例中的描述,即输出与最高的匹配度对应的图像,具体内容可以参考前述实施例中的描述,在此不再赘述。

本实施例提供的图像搜索方法,实现了在获取了对应用户不同的搜索需求的多个语音特征数据所分别对应的图像的情况下,结合用户的语音信息对应的情感特征,以及用户搜索过程中的环境参数,输出多个语音特征数据分别对应的图像中,与当前的搜索场景适配的匹配度的图像,通过借助表情实现智能搜索符合用户的搜索需求,丰富了搜索过程且提升了搜索的趣味性。

如图4所示,示出了本申请又一实施例提供的图像搜索方法的方法流程图,所述方法包括:

步骤s310:获取在人机交互界面输入的语音信息。

步骤s320:提取所述语音信息中的多个语音特征数据。

步骤s330:分别搜索与所述语音信息的音色、音调、音素、发音速度和/或总的时长对应的图像。

作为一种方式,若提取得到的多个语音特征数据分别包括:音色、音调、音素、发音速度和/或总的时长,那么可以直接分别搜索与语音信息的音色、音调、音素、发音速度和/或总的时长对应的图像。

步骤s340:获取用户的表情信息。

步骤s350:获取与所述语音信息的音色、音调、音量、音素、发音速度和/或总的时长分别对应的图像与所述表情信息的匹配度。

可选的,本实施例中,在获取了用户的表情信息之后,可以根据多个语音特征数据分别对应的图像与表情信息的相关度,来获取与语音信息的音色、音调、音量、音素、发音速度和/或总的时长分别对应的图像与表情信息的匹配度。

例如,在一个具体的应用场景中,假设用户的语音信息为“中午吃的水果中,感觉榴莲最香、苹果很脆、橘子比较甜、芒果不是很软、柿子还有点酸涩、李子嘛还是太酸...啦”,假设语音特征数据中:音色对应的图像为“榴莲”,音调对应的图像为“苹果”,音量对应的图像为“橘子”,音素对应的图像为“芒果”,发音速度对应的图像为“柿子”,总的时长对应的图像为“李子”。那么,在该种情况下,假设用户在说该句语音信息的时候,一开始咧嘴笑,后来是微微笑,再后来是苦笑、哭笑,那么可以获取与语音信息的音色、音调、音量、音素、发音速度和/或总的时长分别对应的图像与表情信息的匹配度分别为:榴莲>苹果>橘子>芒果>柿子>李子。

步骤s360:按照所述匹配度的大小依次输出对应的所述与所述语音信息的音色、音调、音量、音素、发音速度和/或总的时长分别对应的图像。

可选的,在获取了与语音信息的音色、音调、音量、音素、发音速度和/或总的时长分别对应的图像与所述表情信息的匹配度之后,可以按照匹配度的大小依次输出对应的与语音信息的音色、音调、音量、音素、发音速度和/或总的时长分别对应的图像,可以实现按照用户的语音特征与用户搜索过程中的环境特征输出与用户的搜索意图匹配的图像,增强搜索的趣味性。

本实施例提供的图像搜索方法,实现了在获取了对应用户不同的搜索需求的多个语音特征数据所分别对应的图像的情况下,按照多个语音特征数据分别对应的图像与表情信息的匹配度输出对应的图像,免除了搜索过程中的人为操作,进而提升了搜索方式的趣味性与多样性。

如图5所示,示出了本申请再一实施例提供的图像搜索方法的方法流程图,所述方法包括:

步骤s410:获取在人机交互界面输入的语音信息。

步骤s420:提取所述语音信息中的多个语音特征数据。

步骤s430:搜索与所述多个语音特征数据分别对应的图像。

步骤s440:获取用户的表情信息。

步骤s450:获取所述与所述多个语音特征数据分别对应的图像与所述表情信息的匹配度。

步骤s460:获取用户的姿态信息。

其中,姿态信息可以包括用户的手势以及姿势等。作为一种方式,可以通过通过终端设备的图像采集功能采集包括用户姿态信息的图像数据,进而对图像数据进行动作识别获取用户的姿态信息。可以理解的是,在用户进行搜索的过程中,可能会辅以一些手势或动作比划的方式,可以帮助明确用户的搜索意图。

步骤s470:识别与所述姿态信息对应的选择指令。

作为一种方式,对于搜索得到的与用户的语音信息的多个语音特征数据分别对应的图像,将会按照这些图像与表情信息的匹配度来进行输出,而若用户通过手势选择或触控了某些(可以是一个或多个)图像的情况下,可以识别用户的姿态信息对应的选择指令,即识别用户的姿态信息所作用的图像。

可选的,可以对每一个图像搜索结果设置一个复选框按钮,以便于可以通过识别复选框是否被选择来识别与姿态信息对应的选择指令。其中,若检测到复选框被触发,那么可以将复选框所对应的图像作为与姿态信息对应的选择指令。

步骤s480:将与所述选择指令对应的图像作为目标图像进行输出。

作为一种方式,在识别出用户的姿态信息对应的选择指令后,可以将与选择指令对应的图像作为目标图像进行输出。其中,目标图像可以理解为用户所选择的一个或多个图像。可选的,若用户选择的图像为一个,那么将该图像作为目标图像进行输出;若用户所选择的图像为多个,那么将按照这多个图像作为目标图像,且按照各自与表情信息的匹配度的先后顺序进行输出。

本实施例提供的图像搜索方法,实现了在获取了对应用户不同的搜索需求的多个语音特征数据所分别对应的图像的情况下,结合用户的姿态信息,输出与用户的姿态信息对应的选择指令所选择的图像,提升了搜索过程中的灵活性与自主选择性,提升个性化用户体验。

如图6所示,示出了本申请实施例提供的图像搜索装置500的结构框图,所述装置500运行于具有显示屏或其他音频或图像输出装置的终端设备,终端设备可以是智能手机、平板电脑、穿戴式智能终端等电子设备,所述装置500包括:

第一获取模块510,用于获取在人机交互界面输入的语音信息。

数据提取模块520,用于提取所述语音信息中的多个语音特征数据,所述多个语音特征数据对应用户不同的搜索需求。

可选的,所述多个语音特征数据至少包括所述语音信息的音色、音调、音量、音素、发音速度、总的时长中的一项。

搜索模块530,用于搜索与所述多个语音特征数据分别对应的图像。

第二获取模块540,用于获取用户的表情信息。

第三获取模块550,用于获取所述与所述多个语音特征数据分别对应的图像与所述表情信息的匹配度。

作为一种方式,所述第三获取模块550具体可以用于提取与所述表情信息关联的情感特征;对所述情感特征进行识别,确定用户的搜索意图;依据所述搜索意图确定所述多个语音特征数据分别对应的图像与所述表情信息的匹配度,所述匹配度越高的图像与所述搜索意图越接近。其中,所述对所述情感特征进行识别,确定用户的搜索意图,包括:通过预设的情感识别模型对所述情感特征进行识别,确定用户的搜索意图,所述情感识别模型预先学习得到有用户的情感特征与对应的搜索意图之间的对应关系。

作为另一种方式,所述第三获取模块550具体可以用于获取与所述语音信息的音色、音调、音量、音素、发音速度和/或总的时长分别对应的图像与所述表情信息的匹配度。

输出模块560,用于输出与最高的所述匹配度对应的图像。

可选的,所述装置还可以包括环境参数检测单元,所述环境参数检测单元可以用于在输出与最高的所述匹配度对应的图像之前,获取用户搜索过程中的环境参数;若所述环境参数满足指定条件,输出与最低的所述匹配度对应的图像;若所述环境参数不满足指定条件,执行所述输出与最高的所述匹配度对应的图像。

可选的,所述装置还可以包括第二输出单元,所述第二输出单元可以用于按照所述匹配度的大小依次输出对应的所述与所述语音信息的音色、音调、音量、音素、发音速度和/或总的时长分别对应的图像。

可选的,所述装置还可以包括指令识别单元,所述指令识别单元可以用于在输出与最高的所述匹配度对应的图像的过程中,获取用户的姿态信息;识别与所述姿态信息对应的选择指令;将与所述选择指令对应的图像作为目标图像进行输出。

本实施例提供的图像搜索装置,通过获取在人机交互界面输入的语音信息,继而提取语音信息中的多个语音特征数据,多个语音特征数据对应用户不同的搜索需求,再搜索与多个语音特征数据分别对应的图像,然后获取用户的表情信息,再获取与多个语音特征数据分别对应的图像与表情信息的匹配度,最后输出与最高的匹配度对应的图像。通过上述方式实现了在获取了对应用户不同的搜索需求的多个语音特征数据所分别对应的图像的情况下,输出多个语音特征数据分别对应的图像中,与用户的表情信息的匹配度最高的图像,通过借助表情实现智能搜索符合用户的搜索需求,同时免除了搜索过程中的人为操作,进而提升了搜索方式的趣味性与多样性。

本申请实施例提供的图像搜索装置用于实现前述方法实施例中相应的图像搜索方法,并具有相应的方法实施例的有益效果,在此不再赘述。

所属领域的技术人员可以清楚地了解到,本申请实施例提供的图像搜索装置能够实现前述方法实施例中的各个过程,为描述的方便和简洁,上述描述装置和模块的具体工作过程,可以参阅前述方法实施例中的对应过程,在此不再赘述。

在本申请所提供的实施例中,所显示或讨论的模块相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。

另外,在本申请实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。

请参阅图7,其示出了本申请实施例提供的一种终端设备101的结构框图。该终端设备101可以是智能手机、平板电脑、电子书等能够运行应用程序的终端设备。本申请中的终端设备101可以包括一个或多个如下部件:处理器1012、存储器1014以及一个或多个应用程序,其中一个或多个应用程序可以被存储在存储器1014中并被配置为由一个或多个处理器1012执行,一个或多个程序配置用于执行如前述方法实施例所描述的方法。

处理器1012可以包括一个或者多个处理核。处理器1012利用各种接口和线路连接整个终端设备101内的各个部分,通过运行或执行存储在存储器1014内的指令、程序、代码集或指令集,以及调用存储在存储器1014内的数据,执行终端设备101的各种功能和处理数据。可选地,处理器1012可以采用数字信号处理(digitalsignalprocessing,dsp)、现场可编程门阵列(field-programmablegatearray,fpga)、可编程逻辑阵列(programmablelogicarray,pla)中的至少一种硬件形式来实现。处理器1012可集成中央处理器(centralprocessingunit,cpu)、图像处理器(graphicsprocessingunit,gpu)和调制解调器等中的一种或几种的组合。其中,cpu主要处理操作系统、用户界面和应用程序等;gpu用于负责显示内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器1012中,单独通过一块通信芯片进行实现。

存储器1014可以包括随机存储器(randomaccessmemory,ram),也可以包括只读存储器(read-onlymemory)。存储器1014可用于存储指令、程序、代码、代码集或指令集。存储器1014可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等。存储数据区还可以存储终端设备101在使用中所创建的数据(比如电话本、音视频数据、聊天记录数据)等。

请参阅图8,其示出了本申请实施例提供的一种计算机可读存储介质的结构框图。该计算机可读存储介质600中存储有程序代码,所述程序代码可被处理器调用执行上述方法实施例中所描述的方法。

计算机可读存储介质600可以是诸如闪存、eeprom(电可擦除可编程只读存储器)、eprom、硬盘或者rom之类的电子存储器。可选地,计算机可读存储介质600包括非易失性计算机可读介质(non-transitorycomputer-readablestoragemedium)。计算机可读存储介质600具有执行上述方法中的任何方法步骤的程序代码610的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码610可以例如以适当形式进行压缩。

综上所述,本申请实施例提供的图像搜索方法、装置、终端设备及存储介质,通过获取在人机交互界面输入的语音信息,继而提取语音信息中的多个语音特征数据,多个语音特征数据对应用户不同的搜索需求,再搜索与多个语音特征数据分别对应的图像,然后获取用户的表情信息,再获取与多个语音特征数据分别对应的图像与表情信息的匹配度,最后输出与最高的匹配度对应的图像。通过上述方式实现了在获取了对应用户不同的搜索需求的多个语音特征数据所分别对应的图像的情况下,输出多个语音特征数据分别对应的图像中,与用户的表情信息的匹配度最高的图像,通过借助表情实现智能搜索符合用户的搜索需求,同时免除了搜索过程中的人为操作,进而提升了搜索方式的趣味性与多样性。

最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

再多了解一些
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1
北京赛车pk10稳定计划