网站首页 | 百科首页 | 3D虚拟世界 | 音乐与人工智能 | 人工智能机器人 | 知识百科 | 关于我们

Perceptual evaluation of singing quality 2017 APSIPA年度峰会和会议论文

歌曲感知相关评价特征

过去应用过的评价标准

专业音乐教师评价西方古典演唱的12个标准：适当的颤音、共振、颜色/温度、强度、动态范围、有效的呼吸管理、均匀的音程、灵活度、自由的音域、语调的准确性、连音线、措辞。
Oates提出一种歌剧演唱嗓音的听觉－感知评级量表，包括五个感知系数：适当的颤音、响度、音高准确性、音域内的均匀性和张力。

用6个感知系数进行评价，对评估未经训练的歌手最有相关性。

语调准确性
节奏一致性，以适当节奏速度演唱，允许轻微节奏变化
音色亮度
适度的颤音，有规律、平滑的波动频率的音调
动态音域，没有经过努力即可唱出的最高最低音调之间的音域
声音清晰度

过去研究

音调准确性（音高准确性）基准评估

Lal提出一种基于音高的相似度度量方法，用于比较测试演唱片段和参考演唱片段。主要挑战在于可靠和自动的基音估计，基音估计的错误可能导致不正确的自动评分。
Tsai和Lee提出一个用于k歌演唱的自动评估系统。比较测试的MIDI音符与歌曲，计算音高准确度等级。虽然MIDI音符大致代表了演唱的音符序列，但出了稳定的音符，歌唱的声音还包括音高转换、调式和声音音色，这是MIDI所不能表示的。此外在没有背景伴奏时，歌手往往会选择自己感到舒服的音调演唱，这可能与参考歌曲的音调不同。在这种场景下，唱出正确的音符顺序，即使调性换位也不该被罚。

节奏一致性基准评估

还有研究通过对比卡拉OK背景伴奏与测试演唱的音符起始强度来评估节奏。但没有背景伴奏的情况下不能直接应用。且演唱者应可以与参考歌曲有轻微节奏变化，即比参考歌曲节奏略微但一致的快或慢，不应被罚。
Molina和Lin测量了节奏的准确性，而没有惩罚与参考节奏不同的节奏，他们使用动态时间规整（DTW）将测试音高轮廓与参考音高轮廓对齐来评估节奏，通过计算在音高轮廓之间的DTW代价矩阵中直线拟合最优路径的偏差来获得节奏得分。这种直线拟合可能不同于理想的45度直线，反过来不唱了节奏的差异。但使用音高轮廓对齐使节奏评估依赖于音高正确性，若测试歌手走调但节奏正确，评价则不正确。

表达元素（如颤音）评估

表达元素，如合适的颤音，被认为是区分训练有素的歌手和平庸歌手的重要线索。

Nakano计算独立于歌手或旋律的特定特征的声学特征，如颤音特征（音高波动的速度和程度），以在没有参考歌唱的情况下评估歌唱。但在有参考歌声的情况下，颤音的检测和评估也会受到基音估计误差的影响。

音色亮度评估

音色亮度被定义为一个音调的亮度，通常与语音质量有关。歌唱功率比（SPR），即浊音段中2－4khz之间的最高谱峰与0－2khz之间的最高谱峰之比，此前曾被用于区分专业与非专业歌手。清脆的音质，即高SPR是典型的歌剧演唱风格。但对于唱歌课程、卡拉OK以及尤其对于初学者来说并不适合。因而并不考虑将SPR作为自动歌唱评估的参数。

Prasert开发一种更为通用的方法评估歌唱中的语音质量，基于音色特征，如梅尔频率倒谱系数（MFCC）和滤波器组（FBANK），并发现MFCCs表现更好。在研究中将考虑这个方向。

问题

大多数歌唱评估研究都在专利文献中被报道，没有介绍评估方法的基本原理，也没有定性分析的结果验证。相比较而言，这一领域科学研究数量较少。且已知的客观的声学线索仅与歌唱评估的一部分感知参数相关，我们需要一个统一的评估系统，找到所有感知相关参数的适当权重，以获得最终得分。
基于语音质量评估标准PESQ，将音频感知的概念引入，获得一种新的歌唱质量评估方法。

实现

本研究旨在开发一个基于音乐教育工作者推荐的感知相关特征的自动歌唱评估的整体评分框架，克服调性换位和节奏变化挑战，获得歌唱质量的感知评价（PESnQ）分数，与已知基线方法进行比较。歌唱质量的表征和评估方法。歌唱质量通过感知系数来表征，评价则是比较目标与参考歌唱特征之间的距离。

语调准确性

音高是音乐音调的一个主要听觉属性，音符音高被定义为周期波形的基频F0。语调准确性与歌唱的音高正确性直接相关。因而估计可靠的音高轮廓十分重要。有关单音语音信号的基音估计的算法已有很多，如ACF、YIN等，但均需要经过自适应和后处理才能准确地检测出基音。Babacan比较了单声道歌唱的不同基音检测算法，发现针对歌唱的参数设置，如增加F0搜索范围以考虑唱歌的宽音域，以及对基音估计应用后处理，可以获得更好的基音估计。还发现，即使没有后处理，基于自相关的PRAAT基音估计器也能给出最好的语音边界，而基于源－滤波器模型的直接基音估计器在噪声条件下是最鲁棒的算法。改进的基于自相关的估计器YIN实现了基音检测的最佳精度，但需要许多后处理步骤，取决于所分析的音乐类型的属性。
在工作中使用PRAAT的基音估计，通过一个通用的后处理步骤来删除不可靠的基音值。首先使用基音估计值来确定浊音边界，计算所有浊音帧的基音估计值，然后删除由谐波噪声比（HNR）决定的具有低周期性的帧。
HNR表示以dB表示的声学周期性程度。例如，如果信号99%的能量在周期部分，1%是噪声，则HNR为10log10（99/1）=19.95dB。在确定有效的基音帧时，我们删除了周期部分能量<98%的基音帧，即HNR<10log10(98/2)=16.9dB。这个阈值是根据经验设定的。通过只选择浊音段并去除周期低的帧，避免了虚假的F0值，只使用可靠的基音值。
本研究所有的音高值以cents为单位计算，一个半音为100cents。

f(cent)=1200×log2(f(Hz)/440)其中440hz（音高标准音符A4）为基频。

对于音高标准性方面的歌唱质量评估，我们首先通过使用DTW在它们的MFCC向量之间的对齐来对参考和测试歌唱进行时间对齐，补偿参考和测试之间的任何速度差异或速度错误。然后计算参考和测试演唱的基音轮廓之间的DTW距离（pitch_dist）进行评估，这将是语调准确性的指标。但是这个音高轮廓之间的距离对音调换位产生不利影响，因此使用两种不同方法使距离测量对调性换位不敏感。
- 音高导数。参考唱和测试唱的音高轮廓的导数使合成的轮廓独立于键的转换。导数还强调音符之间的过渡，即变化的幅度和持续时间。对于音高向量Pa，N是帧的数量。一个帧的导数△p=pa-pb。pb为基音向量移动一帧。
- 减去音高的中位数。减去音频段的音高值的中位数是另一种使音高轮廓独立于键转置的方法。在这里常使用中位数而非平均值，因为对所有基音值进行平均可能受到不频繁的异常基音值的影响，这是中位数所避免的。
- 我们将认知建模理论应用于这些帧级修改的基音向量，以获得参考和测试演唱之间的基音评估。

节奏一致性

节奏被定义为音乐中规则的重复模式，它与演唱的音符的时间有关。节奏的一致性是指参考和测试演唱之间节奏的相似性。节奏允许有轻微的变化，即与参考歌曲相比均匀地加快或放慢节奏。

Molina提出DTW作为一种自动节奏评估的程序，并对节奏变化作出了解释。他们计算了参考基音轮廓和测试基音轮廓之间的DTW，并分析了DTW代价矩阵中最优路径的形状。45度直线将代表一个相对于参考旋律完美的节奏表现，而角度不为45度的直线将代表在不同的节奏下良好的节奏表现。因此在DTW的代价矩阵的最优路径上拟合一条直线，并计算这条直线拟合的均方根误差（molina_rhythm_pitch_dist）。但是使用音高轮廓对齐测试和参考演唱使得节奏评估依赖于音高正确性。
本文提出一种改进的Molina节奏偏差测量方法。不使用音高轮廓，而是使用13个MFCC特征向量来计算参考歌曲和测试歌曲之间的DTW。
还引入了另一种计算节奏偏差的方法，同时考虑了允许的节奏变化。在32ms长的窗口中为每16ms的参考歌唱计算13个MFCC向量，然后为测试歌唱计算相应的帧率，使得参考和测试中的帧率相同。这样就补偿了参考和测试演唱之间恒定的节奏差异。因此参考和测试中的MFCC向量的数量是相等的。然后我们将认知建模理论应用于这些帧均衡化的MFCC特征向量，以获得参考和测试演唱之间之间的节奏评估。

音质和发声

音色的感知在物理上由声音的谱包络表示，MFCC向量能够很好地表示语音质量。通过计算它们的13个MFCC向量之间的DTW距离来计算参考和测试唱歌音色之间的距离(timbral_dist），代表了两个参数语音质量和发音。

适当的颤音

颤音是唱歌时在稳定的音符上快速的周期性波动。研究发现，颤音的振动范围在5-8Hz之间，幅度在30-150cents之间。
对于一个完全自动化的评估系统，首先检测参考中的颤音部分，然后在测评中找到相应的时间对齐的音高段，最后比较两部分。
另一种方法是比较来自测试和参考的每一帧的颤音特定特征向量、然而对测试中不包含颤音的参考帧不应给分，因而第一步仍然需要检测颤音部分。

音量

音量的动态性反映了歌曲不同部分的相对响度或柔和度。不同歌手演唱同一首歌时，会出现相似的音量随时间变化的模式。大部分歌唱评估专利都将音量纳入系统。
在本系统中，实现了Tsai和Lee的系统所使用的音量特征，即30ms以上的短期对数能量窗口，然后计算该特征在参考和测试之间的DTW距离（volume dist）进行评估。

音高动态范围

计算音频段中最高和最低音高值之间的绝对差值作为音高动态范围的特征。该特征在参考演唱和测试演唱之间的距离是测试演唱范围与参考演唱范围相似度的指标。

用于评估的认知建模

参考文献

文献来自，发布时间文件:Sevaluation.pdf

音乐评测

目录