面向音频检索的音频特征分析方法研究

发布时间:2024-01-29 12:06
  随着互联网技术的发展和手持录像、录音设备的普及,普通用户可以获取的多媒体数据呈现爆炸式增长。为了实现对海量多媒体数据的管理和检索,基于内容的检索技术成为了研究热点。这种检索方法要求用户直接给出反映查询意图的样例,系统从中提取反映内容信息的底层特征后在数据库中搜索相似的样本,因此该方法依赖于具有区分力的特征以及快速的检索算法。本文针对多媒体数据中的音频部分,以基于内容的音频检索为研究目标,以提取底层音频特征为核心研究内容,借鉴人脑对声音的感知方式,探索了基于稀疏表示的多种音频特征,提出了基于倒排索引的音频内容检索算法。本文主要工作及贡献如下:(1)基于人脑对谐波结构的感知特点,提出了一种基于谐波分量的频谱分解方法。设计一个能够在频域表达谐波结构的字典,该字典利用谐波基频、共振峰频率和泛音能量衰减速率等参数描述谐波结构。基于所设计字典,采用匹配追踪算法对信号频谱进行稀疏表示,然后将分解后原子参数的统计特性作为音频特征。16类闭集音效分类实验结果中,提出的谐波分量特征获得64.8%的分类效果,相对MFCC特征和谱特征,分别提升了7.4%和3.9%;与MFCC结合后,分类效果达到66.3%。(...

【文章页数】:144 页

【学位级别】:博士

【文章目录】:
摘要
Abstract
主要缩写对照表
第一章 绪论
    1.1 音频检索的研究意义
    1.2 音频检索的研究现状
        1.2.1 音频特征提取和音效分类的发展现状
        1.2.2 多媒体检索发展现状
    1.3 论文的主要工作及章节安排
第二章 基于谐波分量的音频特征
    2.1 音频的频域特征
    2.2 谐波字典
        2.2.1 人脑对谐波信号的感知
        2.2.2 谐波字典
    2.3 基于匹配追踪的频谱分解
        2.3.1 稀疏表示的基本概念
        2.3.2 稀疏表示的求解算法
        2.3.3 频谱分解
        2.3.4 音频特征的表示
    2.4 实验与结果分析
        2.4.1 数据库和实验平台
        2.4.2 实验及结果分析
    2.5 本章小结
第三章 基于感知子空间的时-频特征提取
    3.1 基于心理声学的感知子空间划分
        3.1.1 人脑对瞬变信号的感知
        3.1.2 基于感知子空间的分解模型
    3.2 感知子空间的数学描述
        3.2.1 谐波子空间的数学定义
        3.2.2 瞬时子空间的数学定义
        3.2.3 残差子空间的数学定义
    3.3 音频信号的分解
        3.3.1 基于匹配追踪的音频信号分解
        3.3.2 音频特征的表示
    3.4 实验与结果分析
        3.4.1 实验设置
        3.4.2 子空间分解实例
        3.4.3 子空间分类效果
        3.4.4 与其他特征比较结果
    3.5 本章小结
第四章 基于系数张量的时-频特征提取
    4.1 张量的概念及其基本运算
        4.1.1 张量的定义
        4.1.2 张量的展开
        4.1.3 张量的运算
        4.1.4 张量的秩
    4.2 张量分解模型
        4.2.1 非负稀疏矩阵分解
        4.2.2 PARAFAC模型
        4.2.3 Tucker模型
    4.3 基于系数张量的音频特征提取
        4.3.1 系数张量
        4.3.2 非负稀疏张量分解
    4.4 计算复杂度分析
    4.5 实验与结果分析
        4.5.1 系数张量实例
        4.5.2 张量分解
        4.5.3 闭集测试结果
        4.5.4 开集测试结果
    4.6 本章小结
第五章 基于倒排索引的音频检索
    5.1 基于不相邻数据窗的说话人分割
        5.1.1 说话人改变检测
        5.1.2 相邻数据窗的方法对噪音的敏感性
        5.1.3 不相邻数据窗
    5.2 基于多层结构的音频分割算法
        5.2.1 基于能量的分割
        5.2.2 基于内容的分割
        5.2.3 基于一阶、二阶统计量的分割
    5.3 基于倒排索引的音频内容检索
        5.3.1 检索算法
        5.3.2 半监督的音频字典和音频字量化
        5.3.3 倒排索引的建立
        5.3.4 基于倒排索引的检索
    5.4 实验与结果分析
        5.4.1 基于不相邻窗的说话人改变检测
        5.4.2 内容检索数据库及实验设置
        5.4.3 查询样本时长和返回结果个数对查询结果的影响
        5.4.4 与其他检索算法的比较结果
    5.5 本章小结
第六章 总结与展望
    研究总结
    后续工作展望
参考文献
攻读博士学位期间取得的研究成果
致谢
附件



本文编号:3888157

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/3888157.html


Copyright(c)文论论文网All Rights Reserved | 网站地图

版权申明:资料由用户60c8d***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱[email protected]