大文库小说网

手机浏览器扫描二维码访问

第24部分(第2页)

当时我们组叫媒体计算组,主要从事多媒体计算,包括图像、视频、及音频的内容分析和检索。我们组的学术领头人是张宏江博士,多媒体分析的先驱之一。由于我还具有一些信号处理和语音处理的背景,而且对音频信号颇感兴趣,于是音频和音乐内容分析及检索便成为我的主要研究方向。

在另一个研究员江灏的工作基础上,我开展了音频分类分割的工作。其主要目标是将一个音频片断(比如影片中的音轨),按照其内容分为语音、音乐、背景声音等等。这是音频分析的第一步。这个项目帮助我很快地熟悉了机器学习和模式识别的算法。

好玩的哼唱搜索

经过一段时间的学习和工作,我逐渐熟悉了研究的方法论。哼唱搜索(query…by…humming)便成为我第一个独立研究项目。在传统的搜索引擎中,大家都习惯于用文本或关键字去搜索歌曲,比如用歌手或者歌名。但是在很多情况下,你有可能忘记了或者根本不知道一首歌的歌手和歌名。那么,还有什么办法把那首歌找出来呢?哼唱搜索便提供了另外一种搜索方式:哼一段旋律,通过旋律匹配把歌找出来。

这个项目的起因其实就是张宏江的一个问话:“能不能简单哼一下就把一首歌给找出来?”“ 挺好玩。”当时第一个感觉就是这个问题很好玩。仔细一想,其实这也是一个现实的问题。比如说我自己(不少人也是)经常记不清歌名,但还能哼两句主旋律。如果我们真能有一个哼唱搜歌的系统,说不定真可能派上用场。同时,这还是一个独立、完整的系统,设计开发这样一个系统对我也是一个有益的锻炼。于是,我和一个实习生由红开始了这个项目。

我们首先翻阅了资料,发现哼唱搜索其实在1995年的ACM多媒体大会上就由Asif Ghias博士(康奈尔大学)等提出并给出了一个解决方法。以后又有些研究员陆续提出了一些改进方法。但是,我们发现以前的方法还是有不少的局限性。比如,旋律本来是一个音符序列,包括每个音符的音高和时长;但在很多方法中,旋律被简化为只包含反映下一个音符相对于上个音符上升、持平、下降的字符串。有些方法为了加快搜索速度,要求只能哼唱歌曲的起始部分。还有些则为了避免哼唱节奏的影响,要求用户使用一个节拍器。这都限制了这些方法的可应用性。我们觉得里面还有许多方面可以提高。

我们把系统分成了三个部分:数据库处理(从音乐中提取旋律),哼唱处理(从哼唱中提取旋律)和旋律匹配。其中的关键问题是旋律表征、旋律提取、和旋律匹配算法。鉴于以前对旋律表征过于简化,除了以前使用的上升下降等量化数据,我们还保持了旋律中每个音符的音高和时长作为更精确的表征。在旋律匹配过程中,我们采用了两步法以加快搜索速度:先用简化旋律作一初选,然后再用音高和时长,通过音高匹配模型和节奏匹配模型,来更精确地寻找相似的音乐。

歌曲大搜索之哼哼也可以 芦烈(2)

经过半年时间的努力,我们终于完成了算法,建立了一个演示系统。算法在测试集上的性能也挺不错:在搜索结果中,前五位内能找到正确歌曲的比率(hit rate)达到了80%。然而,虽然算法取得了不错的结果,回想起来,还是有不少地方可以提高。比如我们所用的开发集及测试集都比较小,这样可能并不能完全反映算法的性能。我们还发现我们在分析哼唱数据将其转化为旋律时,使用了不少启发式规则,一些参数的设置过于局限于开发集而失去了通用性,使得这个系统对某些人工作很好,但对另一些人却不好。而且,要成为一个真正能为大众使用的产品,我们还缺少一个关键触发点:一个好的应用场景。对于最重要的一个应用场景——网络音乐的搜索,哼唱搜索还无法胜任。这是因为目前的算法对 mp3等音频数据还无法有效处理来提取旋律,我们使用的数据库主要基于MIDI 数据。但是不管怎样,这是一个完全从零开始的项目,我在整个过程中,从查阅资料、设计模块、设计算法,到编写代码、数据收集、算法评价及相应改进,都得到了不少的锻炼,对研究方法也更有心得了。

由于其他项目的开展,哼唱搜索暂时告一段落。我想,其实它也是在等待一个更好的机会。

忽现转机

几年后(2006夏)的某一天,搜索技术中心(STC)的开发项目主管谢育涛突然跟我联系,说他正好看到张贴在研究院中有关哼唱搜索的海报,要跟我讨论一下将其用在手机搜索上的可行性。谢育涛主要负责的是手机搜索,那时他正在跟位于深圳的Windows Live Mobile China (WLMC) 做图铃搜索,也就是提供高效算法来搜索手机图片和手机铃声。除了传统的文本搜索之外,他们还在寻求一些与其他搜索产品不同的新功能。哼唱搜索可能是一个好的选择。

为了寻求哼唱搜索手机铃声的可行性,我们同相关的同事进行了多次讨论。最后,我们觉得哼唱搜索和手机铃声下载将是一个完美的结合:

首先,手机铃声的下载是一个相当大的市场。有资料显示2005年全球手机铃声业务达到令人惊讶的50亿美元。

第二,手机作为一个便携式手提设备,用键盘输入文本并不太方便。但是,声音对手机来说却是一个非常自然的输入方式,因为手机本身便是用来做声音交流的。哼唱是声音的一种。

第三,手机铃声通常有多个版本以便用于不同的手机型号,而MIDI版本的手机铃声是最基本的。这样,只要将MIDI同其他格式关联起来,旋律提取便不再是个问题。

第四,通过手机下载手机铃声是个一步式的解决方案。不再需要通过电脑等中介系统。

同时,我们也发现在这个应用场景下,直接使用我们以前的方法效果并不理想。新的问题带来了新的挑战:

第一,在以前系统中,哼唱是通过麦克风录制的,质量比较好。在现在的应用场景下,我们需要用手机录制。同时,我们必须还要考虑到录制时引入的背景噪声(用户可能在大街上使用这个系统),还有由于无线传输而可能引起的信号畸变。

第二,我们将要面对一个大的多的数据库(通常手机铃声库可能包含1…10万首铃声)。这就要求我们更进一步的提高搜索精度和速度。利用一切可以使用的信息,优化旋律模型和节奏模型。同时需要建立一个更大的开发集和测试集,来优化参数选择和性能评价。

当时,由于媒体计算组的重组,我加入了语音组继续从事音频分析和检索的工作。语音组研究项目负责人Frank Seide和语音组带头人宋謌平博士也非常支持这个项目。于是我们?

戊戌变法的另面  无名的裘德  孙子兵法说什么  嫡长孙  隐龙啸天  星河战铠  红尘不寂寞  妖行大唐  灌篮高手之王者海南  千年冥判  古灵精探同人之荣华富贵  相公 从了本帅吧  琅嬛府主 完  无垠进化  我的老公是鬼物  穿越冷宫:倾尽娇柔  中国保镖  安息日  家庭百事通09年第二期  移世寻爱(穿越时空,女变男,生子)  

热门小说推荐
星际工业时代

星际工业时代

新书宇宙乾坤塔已经发布,可以开宰了第一次工业革命,蒸汽机将大英帝国变成了日不落帝国第二次工业革命,内燃机推动历史的车轮,电灯照亮漆黑的夜晚第三次工业革命,互联网将我们的星球变成了地球村大学生秦毅走运获得了科技塔,掀开了星际工业时代,从此以后太阳系变成了我们的后花园我们在太空之中发展农业兴建太空工厂我们在月...

六零俏佳人

六零俏佳人

新书我家夫人又败家了已发求收藏,古代美食文,么么哒前世,盛夏怨恨家人的无情抛弃,为贺家人那群白眼狼付出所有,最后却落了个草席一裹,抛尸荒山的下场!重生回到悲剧尚未开始,盛夏发誓今生不会再将真心错付!哪怕吃树皮啃草根,她也要留在家人身边,同甘共苦!改写命运!一家人同心协力,走上致富的康庄大道!携手冷面男神...

我是至尊

我是至尊

药不成丹只是毒,人不成神终成灰。天道有缺,人间不平,红尘世外,魍魉横行哀尔良善,怒尔不争规则之外,吾来执行。布武天下,屠尽不平手中有刀,心中有情怀中美人,刀下奸雄冷眼红尘,无憾今生。惊天智谋,踏破国仇家恨铁骨柔肠,演绎爱恨情仇绝世神功,屠尽人间不平丹心碧血,谱写兄弟千秋!...

重生最强妖兽

重生最强妖兽

系统流爽文古有黑蟒,百年后化腾蛇,千年后变蛟,万年后化龙,可遨游九天十地,统领六合八荒。三千年前,人族仙尊林昊斩妖无数,却遭逆徒暗算,被人族围攻致死。三千年后,林昊重生于一条黑蟒身上,以妖证道,开启了一段逆天化龙之路。书友群565412325...

阴娘

阴娘

18岁那年,我娘被我爹打死,然后我爹娶了个和我一样大的后娘进门。7天后,我娘爬出棺材,敲开了我父亲的门欢迎关注我的微博大家看的时候记得先登陆(QQ号直接登陆就可以了!)然后点一下封面下面的推荐按钮!加更规则200个钻石加一更!单独打赏两个玉佩加一更!一个皇冠加五更!关键词阴娘最新章节阴娘小说阴娘全文阅读...

每日热搜小说推荐