2022年10月31日 (一) 10:26的最新版本

百科首页 | 3D虚拟世界 | 音乐与人工智能 | 人工智能机器人 | 关于我们 | 网站首页

音高与旋律

音高/音调

由声音波形的频率决定，音乐中每个音符都具有一定的音高

音高/音调检测（Pitch Detection）

时域检查
- 过零率法、自相关法（如YIN算法）、最大似然法、自适应滤波器法、超分辨率法
频域检测
- 基于音频帧的短时傅里叶变换（SIFT），周期性信号在基频的整数倍处得到峰值
基于听觉模型检测
- 模拟人类感知音高的生理过程
- 使用耳蜗模型对每一个通道进行独立的自相关运算
- 综合所有通道信息得到相对应的音高

旋律

经过艺术构思按照节奏及和声形成的反映音乐主旨的音符序列

旋律提取（Melody Extraction）

从多声部音乐（Polyphonic Music）信号提取单声部（Monophonic）旋律
应用
- 音乐搜索、抄袭检测、歌唱评价、作曲家风格分析……
典型方法
- 音高重要性法（Pitch-Salience based Melody Extraction）
- 歌声分离法（Singing Separation based Melody Extraction）
- 数据驱动的音符分类法（Data-driven Note Classification）

音乐识谱

识别音乐中每个时刻发声的各个音符并形成乐谱典型方法：

音源分离
- 通常基于矩阵分解技术进行歌声和各种伴奏乐器声音的分离
音符分割
- 在各个音源上进行，寻找每一个音符起始点并分割
音高提取
- 提取每个音符的基频，根据MIDI音符表转换为音符的音名
利用音乐领域知识或规则进行后处理纠错

音乐节奏（Music Rhythm）

音符起始点检测（Note Onset Detection）

检测音乐中某一音符开始的时间
各种音乐节奏分析的预处理步骤
典型方法
- Hard Onset
  - 子带分解
  - 检测各子带能量峰值
  - 合并后挑选结果
- Soft Onset
  - 检测和弦突变点

节拍

某种具有固定时长的音符，通常以四分音符或八分音符为一拍

节拍跟踪（Beat Tracking）

用计算机模拟人们在听音乐时无意识地踮脚或拍手的现象
理解音乐节奏的基础，很多MIR任务的重要步骤
典型方法
- 通常依赖于音符起始点检测、打击乐或其他时间局域化事件检测
- 如果音乐偏重抒情，没有打击乐器或不明显，可采用和弦改变点作为候选节拍点

速度检测（Tempo Detection）

音乐进行的快慢，每分钟多少拍BMP（Beats per Minute）
通常与节拍跟踪同时进行
应用
- 音乐情感分析中的一个重要因素
- 给帕金森病人播放与其走路速度一致的音乐，辅助其恢复
典型方法
- 带通滤波，对每个子带计算其幅度包络线
- 与一组事先定义好的梳状滤波器卷积
- 对所有子带上的能量求和，最高峰值对应于速度

拍子

在小节线划分的相同时间间隔内，按照一定次序重复出现的有规律的强弱变化。如4/4、3/4、2/4等

小节

划分乐句、乐段、整首乐曲的基本单位，在乐谱中用小节线划分

拍子检测（Meter Detection）及小节线检测（Bar line/Measure Detection）

典型方法
- 节拍相似性矩阵
- 节拍跟踪+基于音乐知识的启发式规则

节奏型检测（Music Rhythm）

节奏型
- 在歌曲中反复出现的有一定特征的节奏
应用
- 音乐流派分析、音乐教学……
典型方法
- 基于模板匹配

音乐和声

多声部音乐

复调音乐（Polyphony）
- 公元9世纪到18世纪前半叶，流行于欧洲
- 两条或以上的独立旋律，和谐地结合
主调音乐（Homophony）
- 18世纪后半叶到现在，逐渐取代了复调音乐
- 某一个声部作为主旋律，其他声部以和声或节奏等手法进行陪衬和伴奏
- 和声
  - 主调音乐最重要的要素之一
  - 两个或以上不同的音符按照一定规则同时发声而构成的声音组合

和弦

和声的基本素材，由三个或以上不同的音按照一定音程在纵向结合构成
和弦的连接表示和声的横向运动

和弦识别（Chord Detection）

音频特征
- PCP（Chroma）：在C、#C、D、#D、E、F、#F、G、#G、A、#A、B等12个半音类上与八度无关的谱能量聚集
识别模型
- 模式匹配、隐马尔可夫模型HMM（Hidden Markov Model）、条件随机场CRF（Conditional Random Fields）、支持向量机SVM（Support Vector Machine）、递归神经网络RNN（Recurrent Neural Network）……

调检测（Key Detection）

音名对应于钢琴上真实的键
唱名随着音乐的调（Key）而变化
应用
- 音乐识谱、和弦检测、音乐情感计算、音乐结构分析……
典型方法
- 通过音阶分布来描述对调的感知

生成缩略图出错：无法将缩略图保存到目标地点

常用乐理知识图例：

生成缩略图出错：无法将缩略图保存到目标地点

歌声信息处理（Singing Information Processing）

歌声检测（Vocal/Singing Voice Detection）

判定整首歌曲中哪些部分是歌声，哪些部分是纯乐器伴奏。
典型方法
- 音频分帧
- 提取能够有效区分歌声和伴奏的音频特征
  - MFCC、谱特征、颤音……
- 分类
  - 基于门限方法
  - 基于机器学习的统计分类
- 后处理

歌声分离（Vocal/Singing Voice Separation）

将歌声与背景音乐分离
应用
- 歌手识别、哼唱/歌唱检索、卡拉OK伴奏……
典型方法
- 基于音高推理（Pitch- based inference）获得歌声泛音结构
- 基于矩阵分解技术
  - 独立子空间ISA（Independent Subspace Analysis）、稀疏编码（Sparse Coding）、非负矩阵分解NMF（Non-negative Matrix Factorization）、鲁棒主成分分析RPCA（Robust Principal Component Analysis）……
- 基于计算听觉场景分析CASA（Computational Auditory Scene Analysis）

歌手识别（Singer/Artist Identification）

判断一个歌曲是由集合中的哪些歌手演唱的
应用
- 按歌手分类管理大量歌曲、模仿秀
典型方法
- 框架类似于说话人识别/声纹识别（Speaker/Voiceprint Recognition）
- 歌声与语音之间有巨大差别，更困难

歌声评价（Singing Evaluation）

应用
- 音乐教学、表演、比赛、卡拉OK……
基础评价
- 计算两段歌声各种音频特征如音量、音高、节奏、旋律、颤音等之间的相似度，并给出一个用户表现的总体评分
高级评价
- 感情、音域、声音质量、音色辨识度、歌唱技巧……

音乐搜索（Music Retrieval）

音乐识别（Music Identification）

录制一个音乐片段作为查询，计算音频指纹后与后台指纹库进行匹配，将最相似记录的歌曲名字、词曲作者、演唱者、歌词等元数据返回
基于例子的音频搜索（Example-based Audio/Music Retrieval）
核心
- 音频指纹技术（Audio Figerpriting）
典型方法
- 提取各种时频域音频特征
- 建模后得到音频指纹
- 在指纹库中进行基于相似性的快速匹配和查找

哼唱及歌唱检索（Query by Humming\Singing）

录制一段哼唱或歌唱声音作为查询片段，计算音频特征后在数据库中进行相似性匹配，并按匹配度高低返回结果列表
典型应用
- 卡拉OK
典型方法
- 旋律编码
  - 综合使用音高轮廓、音程、音长、音高变化、音长变化等特征
- 旋律匹配
  - 字符串近似匹配、动态时间规整、编辑距离、隐马尔可夫模型……

多版本音乐识别或翻唱识别（Cover Song Identification）

特点
- 音乐经重新编曲、演唱和演奏后会形成很多版本
- 主旋律基本相同
- 音乐结构、音调、节奏、配器、演唱者性别、语言等都可能发生巨大变化
判断两首音乐是否具有同样的本源
典型方法
- 提取稳定的音乐中高层特征
- 在各个版本的整首音乐或音乐片段间进行匹配

敲击检索（Query by Tapping）

根据输入节拍信息，从数据库中返回按节拍相似度高低排序的音乐列表
没有利用音高信息
典型方法
- 提取音符持续时间向量作为特征
- 归一化处理
- 动态规划对比并排序返回

数字音频水印技术（Audio Watermarking）

数字音频水印技术

在不影响原始音频质量的条件下向其中嵌入具有特定意义且易于提取的信息的技术

鲁棒音频水印（Robus Audio Watermarking）

应用
- 保护版权、广播监控、盗版追踪、内容标注
要求
- 嵌入的水印能够经受各种时频域的音频信号失真及同步失真
典型方法
- 时间域算法、频率域算法、压缩域算法

脆弱/半脆弱音频水印（Fragile/Semi- fragile Audio Watermarking）

应用
- 数字音频作品的真实性和完整性保护
脆弱水印
- 检测宿主数据发生的任何变化
- LSB
半脆弱水印
- 融合鲁棒水印与脆弱水印的特性
- 能够抵抗有损压缩、噪声等常规音频信号失真
- 对剪切、替换、恶意篡改等非法操作敏感

其它MIR领域

音乐情感识别（Music Emotion Recognition）

应用
- 音乐选择、影视制作、音乐推荐、音乐治疗……
情感模型
- Hevner情感模型
- Thayer情感模型
典型方法
- 单标签和多标签分类问题
- 基于arousal和valence（AV）值的二维AV情感空间回归预测

音乐流派/曲风分类（Music Genre Classification）

西方音乐
- 流行、摇滚、爵士、乡村、经典、蓝调、嘻哈、迪斯科……
典型方法
- 特征提取+统计分类
- 根据音乐内容分析比如节奏进行聚类

作曲家分类（Music Composer Classification）

听一段音乐，分析音频数据并识别出相应的作曲家信息
应用
- 音乐理论分析
典型方法
- 音频特征
  - 底层、高层、特征学习
- 统计分类器
  - 决策树（Decision Trees）、SVM……

音乐结构分析（Music Structure Analysis）

把音频流分割为一系列具有音乐意义的时间区域
- 前奏（Intro）、主歌（Verse）、副歌（Chorus/Refrain）、桥段（Bridge）和结尾（Outro）
应用
- 音乐理解、多版本音乐检索CSI、乐句划分、音乐摘要、音频水印
典型方法
- 自相似矩阵（Self-similarity Matrix）
- 递归图（Recurrence Plot）
- 子空间聚类（Subspace Clustering）

音乐摘要/缩略图（Music Summary/Thumbnail）

音乐中可听的最具代表性的音频片段
应用
- 彩铃、浏览、搜索……
典型方法
- 通过初步的结构分析寻找最合适的片段集作为摘要
- 完整的音乐结构分析，副歌+附近乐句

音乐推荐（Music Recommendation）

类型
- 分析用户历史行为，挖掘用户潜在兴趣，发现适合其喜好的个性化音乐并主动推送
- 基于情感的推荐
- 基于场景（如工作、睡觉、运动）的推荐
典型方法
- 协同过滤推荐
  - 用户会倾向于欣赏同自己有相似偏好的用户群所聆听的音乐。冷启动
- 基于内容的推荐技术
  - 根据音乐间的元数据或声学特征的相似性推荐音乐，适用于新系统
- 混合型推荐
  - 多模态数据：几何位置、用户场景、微博等社交媒体、流派、情感、乐器等标签

其他

乐器识别（Instrument Recognition）
音乐标注（Music Annotation/Tagging）
音乐与歌词同步（Synchronization between Music and Lyrics）
自动/算法作曲（Automated/Algorithmic Composition）
歌词识别（Lyrics Recognition）
音乐借用（Music Borrowing）
……

@@ 第1行： / 第1行： @@
+{{TOCright}}
 [[文件:mir.png]]
 =音高与旋律=
@@ 第19行： / 第20行： @@
 ** 音乐搜索、抄袭检测、歌唱评价、作曲家风格分析……
 * 典型方法
-** 音高重要性发（Pitch-Salience based Melody Extraction）
+** 音高重要性法（Pitch-Salience based Melody Extraction）
 ** 歌声分离法（Singing Separation based Melody Extraction）
 ** 数据驱动的音符分类法（Data-driven Note Classification）
 ==音乐识谱==
 识别音乐中每个时刻发声的各个音符并形成乐谱
@@ 第177行： / 第179行： @@
 ==数字音频水印技术==
 在不影响原始音频质量的条件下向其中嵌入具有特定意义且易于提取的信息的技术
+==鲁棒音频水印（Robus Audio Watermarking）==
+* 应用
+** 保护版权、广播监控、盗版追踪、内容标注
+* 要求
+** 嵌入的水印能够经受各种时频域的音频信号失真及同步失真
+* 典型方法
+** 时间域算法、频率域算法、压缩域算法
+==脆弱/半脆弱音频水印（Fragile/Semi- fragile Audio Watermarking）==
+* 应用
+** 数字音频作品的真实性和完整性保护
+* 脆弱水印
+** 检测宿主数据发生的任何变化
+** LSB
+* 半脆弱水印
+** 融合鲁棒水印与脆弱水印的特性
+** 能够抵抗有损压缩、噪声等常规音频信号失真
+** 对剪切、替换、恶意篡改等非法操作敏感
+=其它MIR领域=
+==音乐情感识别（Music Emotion Recognition）==
+* 应用
+** 音乐选择、影视制作、音乐推荐、音乐治疗……
+* 情感模型
+** Hevner情感模型
+** Thayer情感模型
+* 典型方法
+** 单标签和多标签分类问题
+** 基于arousal和valence（AV）值的二维AV情感空间回归预测
+==音乐流派/曲风分类（Music Genre Classification）==
+* 西方音乐
+** 流行、摇滚、爵士、乡村、经典、蓝调、嘻哈、迪斯科……
+* 典型方法
+** 特征提取+统计分类
+** 根据音乐内容分析比如节奏进行聚类
+==作曲家分类（Music Composer Classification）==
+* 听一段音乐，分析音频数据并识别出相应的作曲家信息
+* 应用
+** 音乐理论分析
+* 典型方法
+** 音频特征
+*** 底层、高层、特征学习
+** 统计分类器
+*** 决策树（Decision Trees）、SVM……
+==音乐结构分析（Music Structure Analysis）==
+* 把音频流分割为一系列具有音乐意义的时间区域
+** 前奏（Intro）、主歌（Verse）、副歌（Chorus/Refrain）、桥段（Bridge）和结尾（Outro）
+* 应用
+** 音乐理解、多版本音乐检索CSI、乐句划分、音乐摘要、音频水印
+* 典型方法
+** 自相似矩阵（Self-similarity Matrix）
+** 递归图（Recurrence Plot）
+** 子空间聚类（Subspace Clustering）
+==音乐摘要/缩略图（Music Summary/Thumbnail）==
+* 音乐中可听的最具代表性的音频片段
+* 应用
+** 彩铃、浏览、搜索……
+* 典型方法
+** 通过初步的结构分析寻找最合适的片段集作为摘要
+** 完整的音乐结构分析，副歌+附近乐句
+==音乐推荐（Music Recommendation）==
+* 类型
+** 分析用户历史行为，挖掘用户潜在兴趣，发现适合其喜好的个性化音乐并主动推送
+** 基于情感的推荐
+** 基于场景（如工作、睡觉、运动）的推荐
+* 典型方法
+** 协同过滤推荐
+*** 用户会倾向于欣赏同自己有相似偏好的用户群所聆听的音乐。冷启动
+** 基于内容的推荐技术
+*** 根据音乐间的元数据或声学特征的相似性推荐音乐，适用于新系统
+** 混合型推荐
+*** 多模态数据：几何位置、用户场景、微博等社交媒体、流派、情感、乐器等标签
+==其他==
+* 乐器识别（Instrument Recognition）
+* 音乐标注（Music Annotation/Tagging）
+* 音乐与歌词同步（Synchronization between Music and Lyrics）
+* 自动/算法作曲（Automated/Algorithmic Composition）
+* 歌词识别（Lyrics Recognition）
+* 音乐借用（Music Borrowing）
+* ……

“MIR研究课题”的版本间的差异