查看“MIR研究课题”的源代码

[[文件:mir.png]]
=音高与旋律=
==音高/音调==
由声音波形的频率决定，音乐中每个音符都具有一定的音高
==音高/音调检测（Pitch Detection）==
* 时域检查
** 过零率法、自相关法（如YIN算法）、最大似然法、自适应滤波器法、超分辨率法
* 频域检测
** 基于音频帧的短时傅里叶变换（SIFT），周期性信号在基频的整数倍处得到峰值
* 基于听觉模型检测
** 模拟人类感知音高的生理过程
** 使用耳蜗模型对每一个通道进行独立的自相关运算
** 综合所有通道信息得到相对应的音高
==旋律==
经过艺术构思按照节奏及和声形成的反映音乐主旨的音符序列
==旋律提取（Melody Extraction）==
* 从多声部音乐（Polyphonic Music）信号提取单声部（Monophonic）旋律
* 应用
** 音乐搜索、抄袭检测、歌唱评价、作曲家风格分析……
* 典型方法
** 音高重要性发（Pitch-Salience based Melody Extraction）
** 歌声分离法（Singing Separation based Melody Extraction）
** 数据驱动的音符分类法（Data-driven Note Classification）
==音乐识谱==
识别音乐中每个时刻发声的各个音符并形成乐谱
典型方法：
* 音源分离
** 通常基于矩阵分解技术进行歌声和各种伴奏乐器声音的分离
* 音符分割
** 在各个音源上进行，寻找每一个音符起始点并分割
* 音高提取
** 提取每个音符的基频，根据MIDI音符表转换为音符的音名
* 利用音乐领域知识或规则进行后处理纠错
=音乐节奏（Music Rhythm）=
==音符起始点检测（Note Onset Detection）==
* 检测音乐中某一音符开始的时间
* 各种音乐节奏分析的预处理步骤
* 典型方法
** Hard Onset
*** 子带分解
*** 检测各子带能量峰值
*** 合并后挑选结果
** Soft Onset
*** 检测和弦突变点
==节拍==
某种具有固定时长的音符，通常以四分音符或八分音符为一拍
==节拍跟踪（Beat Tracking）==
* 用计算机模拟人们在听音乐时无意识地踮脚或拍手的现象
* 理解音乐节奏的基础，很多MIR任务的重要步骤
* 典型方法
** 通常依赖于音符起始点检测、打击乐或其他时间局域化事件检测
** 如果音乐偏重抒情，没有打击乐器或不明显，可采用和弦改变点作为候选节拍点
==速度检测（Tempo Detection）==
* 音乐进行的快慢，每分钟多少拍BMP（Beats per Minute）
* 通常与节拍跟踪同时进行
* 应用
** 音乐情感分析中的一个重要因素
** 给帕金森病人播放与其走路速度一致的音乐，辅助其恢复
* 典型方法
** 带通滤波，对每个子带计算其幅度包络线
** 与一组事先定义好的梳状滤波器卷积
** 对所有子带上的能量求和，最高峰值对应于速度
==拍子==
在小节线划分的相同时间间隔内，按照一定次序重复出现的有规律的强弱变化。如4/4、3/4、2/4等
==小节==
划分乐句、乐段、整首乐曲的基本单位，在乐谱中用小节线划分
==拍子检测（Meter Detection）及小节线检测（Bar line/Measure Detection）==
* 典型方法
** 节拍相似性矩阵
** 节拍跟踪+基于音乐知识的启发式规则
==节奏型检测（Music Rhythm）==
* 节奏型
** 在歌曲中反复出现的有一定特征的节奏
* 应用
** 音乐流派分析、音乐教学……
* 典型方法
** 基于模板匹配
=音乐和声=
==多声部音乐==
* 复调音乐（Polyphony）
** 公元9世纪到18世纪前半叶，流行于欧洲
** 两条或以上的独立旋律，和谐地结合
* 主调音乐（Homophony）
** 18世纪后半叶到现在，逐渐取代了复调音乐
** 某一个声部作为主旋律，其他声部以和声或节奏等手法进行陪衬和伴奏
** 和声
*** 主调音乐最重要的要素之一
*** 两个或以上不同的音符按照一定规则同时发声而构成的声音组合
==和弦==
* 和声的基本素材，由三个或以上不同的音按照一定音程在纵向结合构成
* 和弦的连接表示和声的横向运动
==和弦识别（Chord Detection）==
* 音频特征
** PCP（Chroma）：在C、#C、D、#D、E、F、#F、G、#G、A、#A、B等12个半音类上与八度无关的谱能量聚集
* 识别模型
** 模式匹配、隐马尔可夫模型HMM（Hidden Markov Model）、条件随机场CRF（Conditional Random Fields）、支持向量机SVM（Support Vector Machine）、递归神经网络RNN（Recurrent Neural Network）……
==调检测（Key Detection）==
* 音名对应于钢琴上真实的键
* 唱名随着音乐的调（Key）而变化
* 应用
** 音乐识谱、和弦检测、音乐情感计算、音乐结构分析……
* 典型方法
** 通过音阶分布来描述对调的感知
[[文件:范例.jpg]]
常用乐理知识图例：
[[文件:范例.jpg]]
=歌声信息处理（Singing Information Processing）=
==歌声检测（Vocal/Singing Voice Detection）==
* 判定整首歌曲中哪些部分是歌声，哪些部分是纯乐器伴奏。
* 典型方法
** 音频分帧
** 提取能够有效区分歌声和伴奏的音频特征
*** MFCC、谱特征、颤音……
** 分类
*** 基于门限方法
*** 基于机器学习的统计分类
** 后处理
==歌声分离（Vocal/Singing Voice Separation）==
* 将歌声与背景音乐分离
* 应用
** 歌手识别、哼唱/歌唱检索、卡拉OK伴奏……
* 典型方法
** 基于音高推理（Pitch- based inference）获得歌声泛音结构
** 基于矩阵分解技术
*** 独立子空间ISA（Independent Subspace Analysis）、稀疏编码（Sparse Coding）、非负矩阵分解NMF（Non-negative Matrix Factorization）、鲁棒主成分分析RPCA（Robust Principal Component Analysis）……
** 基于计算听觉场景分析CASA（Computational Auditory Scene Analysis）
==歌手识别（Singer/Artist Identification）==
* 判断一个歌曲是由集合中的哪些歌手演唱的
* 应用
** 按歌手分类管理大量歌曲、模仿秀
* 典型方法
** 框架类似于说话人识别/声纹识别（Speaker/Voiceprint Recognition）
** 歌声与语音之间有巨大差别，更困难
==歌声评价（Singing Evaluation）==
* 应用
** 音乐教学、表演、比赛、卡拉OK……
* 基础评价
** 计算两段歌声各种音频特征如音量、音高、节奏、旋律、颤音等之间的相似度，并给出一个用户表现的总体评分
* 高级评价
** 感情、音域、声音质量、音色辨识度、歌唱技巧……
=音乐搜索（Music Retrieval）=
==音乐识别（Music Identification）==
* 录制一个音乐片段作为查询，计算音频指纹后与后台指纹库进行匹配，将最相似记录的歌曲名字、词曲作者、演唱者、歌词等元数据返回
* 基于例子