主要负责语音AI相关项目的开发。
1. 语音中的敏感词的检索与定位。
2.关键词检索技术的文献查询,分析关键词检索算法的实现整体流程。
项目思路:这里采用的深度学习训练模型,有DNN,CNN,Basic LSTM, LSTM,GRU,CRNN,DS-CNN。比较训练结果选取最优模型作为敏感词数据训练模型,进行下一步的关键词检索算法对比。当前数据采用公开的英文关键词为基础进行训练,整个算法融会贯通之后。进行中文数据的建立和替代。若算法对英文关键词检索效果达到要求,就用中文数据进行直接替代,若是结果不好,要研究中文和英文的语法/语音建模的差别。以上是整个项目的方案,而且风险最低。
3. 鸣笛、炸街车、警车报警响声、消防车紧急响声、救护车紧急响声、等其他车辆行驶的响声等路上行车分类
4.主讲《AI技术解析》公开课
近10年来,一直在做语音的相关开发,包括:
1.研究与语音相关的处理和算法:包括:语音分析、合成、识别、增强、变调(变声)、去噪,分类,打标,切割,分离,etc., 音频的相关处理:基于机器学习,深度学习的音频分类,音频检索,音频数据挖掘,情感识别,etc.。
2.研究自然语言处理(NLP),语音文字转写,文本处理(过滤,聚类,分类,检索,TDT(话题检索与跟踪)),智能聊天机器人,etc.。
3.研究用于智能耳机的音效处理:主要研发有声场定位技术,音乐中语音消除,虚拟3D(声源定位),环境混响,语音转换(变调)技术,参数均衡处理,噪声去除等音效处理。
近3年来主要的自主、独立完成的项目:
基于语音广播节目的智能音频推荐:项目包含了音频分类、检索、切割算法及相关代码实现的评估等一系列的语音处理。(用到机器学习和深度学习)
2.智能外呼的未接通电话分类 (8类,机器学习算法SVM/KNN/Gradient Boosting/Random Forest/Extract Forest 等,训练最优模型)
3.常用货币的分类,包含各种方言说的货币类型,自动识别为所对应的标签。(机器学习+图像分类算法)
4.深度学习的语音增强&语音增益处理
5.语音分离 & 说话人的分离
6.语音时序分割,及所属说话人打标签
7语音通话质检——静音检测标记、语速检测标记、情感识别标签
8.TTS文字转语音及出现问题处理(提出3步法)这里主要处理短频频拼接出现的各种问题
9.预研了TTS-文字转语音的算法 & 本文处理 & 预研智能聊天机器人 & kaldi语音识别 & 声纹处理。
10.2017年,撰写专利一项。2021年,撰写专利一项。