近日,音乐博主“麦田农夫”通过专业软件进行分析,质疑知名乐队五月天在上海演唱会的音频中部分歌曲为假唱或真假混唱。12月4日,相信音乐公司发表声明称,“五月天在巡回演出中不存在任何假唱行为”,并表示正积极配合相关执法部门开展调查工作。
是否存在假唱,目前还没有官方的调查结果,但网络上关于AI鉴别真假唱的讨论十分热烈。AI是怎样进行鉴别的?结果是否靠谱?声音识别技术目前发展到哪一步了?记者采访了相关人工智能技术专家。
真唱还是假唱,AI鉴定有几招?
“用AI分析假唱,主要是基于声音分析和模式识别技术。”南京图灵人工智能研究院产品研发负责人阚德军介绍,此类分析通常从几个方面入手,比如声音特征匹配、声音波形的分析、背景噪音和杂音的分析,以及呼吸声和其他生理声音的分析等。
频谱波声音语音识别。(视觉中国供图)
从声音特征匹配来看,AI系统会比较现场表演音频和录音棚音频的声音特征,如果音调、节奏、声音纹理等高度相似,那么就很有可能是使用了预录音。
声音波形的分析,基本上也是拿现场表演中声音的波形和录音棚版本或修音版本去比较。没有人的现场表现会毫无瑕疵,所以肯定会有微小的变化,但是录音棚里录制时,演唱中的呼吸声和微小声音波动,通常会被编辑掉。所以,两者如果特别完美贴合的话,很大概率是出现了假唱的情况。
演唱会现场环境复杂,会伴随着背景噪音和杂音,比如观众的喝彩声等。对背影噪音和杂音的分析,就是看看这些声音在现场表演的音频中是否缺失,如果杂音的连续性不够,或者大规模地缺失噪音,假唱的可能性就会更高一点。
再看呼吸声和其他生理声音的分析。现场表演中,歌手的呼吸声和其他生理声音,比如咳嗽、喘气、噎气等,都是正常生理反应,不可避免,这种情况在唱跳歌手身上尤其容易发生。如果整段表演里面完全没有这些声音,假唱的概率就很大。“有些精心处理过的音频也可能掺杂这类声音进去,那就得看这类声音的连续性如何,整体来说,除非音频做得非常精细,不然AI还是能给出一个大方向的判断。” 阚德军说。
用AI鉴定歌手是否假唱,还有“技术流”网友提出嘴型识别、机器学习模型等方法。比如利用视频处理技术,AI分析歌手嘴型与发声是否同步,检测嘴型与声音是否匹配;使用机器学习模型,根据历史数据训练AI识别真唱和假唱的差异,AI受到的训练足够多后就可以鉴定假唱。
对此,上海交通大学计算机系教授、思必驰公司联合创始人俞凯认为,AI进行声音的识别都是基于采集的声音信号,嘴型识别则需要采集图像信号,两者的区别是采集的信号不一样。由于嘴型识别的图像受光线影响较大,所以用来分辨真唱假唱还不是特别成熟。而用新的机器学习算法,的确已经可以达到比较精细的超越人的感知能力去分析声音、图像等。
“高技术”音频,AI也很难识别
“就目前的技术来看,AI有这个能力对假唱进行一定的鉴别,但如果要让它足够准确、达到法律鉴定的水平,那还达不到。”俞凯坦言,假唱真唱,可以通过数据进行一定的分析,但是准确程度还得看能够提供的数据量。
阚德军也认为,Al在分析歌手是否假唱方面具有一定的可靠性和准确性,但并不能保证100%的准确率。在实际应用中,可以作为一个辅助工具。尽管Al在这方面取得了显著进展,但仍有一些限制和挑战:“在嘈杂的现场环境中,识别真唱与假唱可能会受到干扰,影响准确性。目前的Al技术可能无法完全区分非常精心制作的假唱和一段截取的高水平的现场表演。”
歌手的现场表现可能会因情绪、环境和其他因素的影响而有所不同,这些客观原因造成的音质和音准的区别,也会导致出现一些AI以前没有遇到过的情况,技术人员也不可能预见或者穷举所有的未知情况,所以这对AI来说,也是一个挑战。
此外,技术是一把双刃剑。随着科技的进步,在一些场合为了演唱效果,有些歌手会选择调音,且调音技术越来越先进、花费越来越高,因此网络上常有“百万调音师”这样的调侃。
“有些精心制作的调音和假唱音频文件,逼真得很难去分辨,因为AI分析也是通过声音的各种特征和某些技术点去排查,如果音频文件做得足够逼真,特别是一些精心制作的呼吸声等生理现象,目前AI也识别不了。”阚德军打了个比方,就像从视频里抠图,如果逐帧去抠,做得足够完美,大家也可能辨别不出来。
由于AI识别一定是通过一些特征和痕迹去比对,那就意味着可以人为地制造这些特征和痕迹,只是做得高明不高明、逼真不逼真而已。从这点来说,也是对AI的一个挑战,就要看如何“用魔法打败魔法”——因为既然演唱水平可以通过技术“调音”,那么音频也应该能用更厉害的技术手段去量化和比较,有些人耳听不出来的“伪装”,在数据面前也许终究会露出原形。
总体而言,复杂的环境、技术的限制、刻意的“调音”“修音”,都是AI面临的挑战,在分析歌手是否假唱方面,AI具有一定的可靠性和准确性,但无法承诺百分之百的准确率。“目前来说,大多数情况下把它作为一个辅助工具,而非一个决定性的证据。”阚德军说。
AI听音,还能诊断机器和人
不管怎么说,AI对于声音的分辨能力要远高于人耳,因为人是比较主观的,人耳在听声音的时候可能不会特别关注环境音等一些细微的声音,AI则要精细得多,且“一视同仁”,能关注到所有声音类型和细节。
目前,我国已有关于假唱检测的相关专利申请。比如,杭州网易云音乐科技有限公司申请的“假唱检测方法、装置、电子设备及计算机可读存储介质”专利处于公布状态,该专利基于一种眼球特征检测方法,涉及人工智能技术领域。浙江大学申请的“一种基于机器视觉和语音信号处理相结合的假唱检测方法”专利已获授权,该方法对音频信号分帧并提取特征参数,对视频信号每帧处理并提取特征参数,在每个片段上单独分析音频和视频的同步性,以获得真唱或者假唱的结果。
“关于是否假唱的讨论,让AI声音识别应用软件浮出水面,但其实该技术并非为鉴别假唱而研发,它也应用于辅助医疗、智能制造等方面。”阚德军说。
比如关于呼吸声和其他生理声音的分析,在医疗领域的辅助诊疗方面已经有实际应用。有设备可以通过咳嗽的声音来判断、初步筛查是不是得了呼吸道疾病。由于不同病症的咳嗽声纹表现不一,AI需要识别出其中细微的差异,继而分辨出是哪种疾病引发的咳嗽,这种“听音识病”技术十分有难度。当然,该技术也会提醒使用者:“测试结果仅供参考,并不代表最终的结果,请以医学检测手段为准。”
此外,“AI听音”在工业上也有应用,比如在智能制造领域,有企业使用相关技术对发动机等机器的声纹进行检测。通过嵌入式声学识别传感器设备,收集发动机震动的声音的音波,再结合机器学习和频率分析,来判断发动机是否异常,存在什么隐患,是否需要提前保养和维修等。“未来,AI声音识别技术还会有更多的应用场景,可以帮助人类获得更高的生活品质,助力社会更高质量的发展。”阚德军说。
新华日报·交汇点记者 蔡姝雯 张宣