1. 电声门图和语音相结合的情感识别研究
语音情感交互是智能人机交互领域的重要研究方向。在语音情感分类器设计、语音情感特征提取、语音情感数据库等方面取得了一系列研究成果,特别是结合电声门图的鲁棒的语音情感识别研究。
基于深度学习对提取深层情感特征来识别语音情感展开研究,构造了卷积神经网络和长短时记忆(CNN-LSTM)网络,如图所示。分别从语音和logmel谱图中学习局部和全局情感相关特征,实验结果表明,所设计的网络在语音情感识别方面取得了很好的效果,特别是在选定的数据库上,2D-CNN-LSTM网络的识别效果优于传统方法、深层信念网络(DBN)和CNN。该内容发表在BIOMEDICAL SIGNAL PROCESSING AND CONTROL杂志,被引用356次,为高被引论文(该学术领域同一出版年最优秀的 前1% 之列)。
为改善实际应用环境噪声的干扰,结合电声门图和语音进行情感识别研究。电声门图是由电极采集的声带振动信息,反映声调变化,富含情感信息,并且是电信号不受噪声影响。提出了一种鲁棒的音素分割算法,使得在强噪声环境下能够准确检测语音信号(成果发表在TALP)。该成果应用于高噪声环境下语音分离以及语音合成。
2. 人脸表情识别关键问题研究
阴影和数据冗余是长期制约人脸表情识别的主要因素,申请人多年从事人脸表情识别研究,在人脸图像阴影区域处理、人脸图像特征降维,以及图像的量子表示等方面取得了一系列创新性研究成果。
针对阴影,提出了一种基于核范数的局部保持投影方法,以及一种不借助3D信息的人脸光照补偿方法,发表SCIE论文4篇,总被引41次 )。
在人脸表情特征降维方面,提出了一种多线性空间判别分析(MSDA)方法,该方法同时考虑高维张量数据的局部结构和非局部结构,与多线性主成分分析(MPCA)和张量局部保持投影(TLPP)方法相比,MSDA具有更好的灵活性,更能够保持高维流形的结果信息。本部分内容发表在本领域TOP期刊IEEE TRANSACTIONS ON IMAGE PROCESSING(TIP),被引16次。
3. 医学信号采集处理
某预研项目“**生命体征监测技术研究”,研制一体化生命体征监测服。体征监测服重270克,通过蓝牙将体温、血压、血氧、心电、脉搏波等生理参数实时传输到手机端,并根据机器学习算法实时监测疲劳及负伤状况。
在结肠息肉语义分割任务中提出了带有局部信息的引导式自注意力网络模型,使用深度监督获取高层次语义分割输出,借助引导式注意力机制引导自注意力网络关注于更有价值的信息,从而减少边界的误判。同时网络引入了局部-全局模块,帮助网络关注局部细节并减少了空间压缩带来的信息损失。网络在五个公开息肉分割数据集上实现了最佳的分割性能。