作为在音频赛道深耕多年的专业级选手,喜马拉雅近些年一直在尝试用技术为内容生产赋能,平台在现有的“UGC + PGC + PUGC”内容生态之外,通过AIGC探索出了内容生产的新路径,喜马拉雅通过行业领先的TTS技术,以AIGC引领长音频行业的内容生产变革,在带动内容生产提效的同时也进一步优化了用户的内容消费体验。
为了对新技术的应用进行探索,喜马拉雅专门成立了智能语音实验室,在语音合成、识别、语音信号处理、编解码以及智能音效方面进行研究和开发。据悉,针对小说的TTS系统和音色选取是喜马拉雅技术的亮点与特色,智能语音实验室借助于喜马拉雅海量有声书内容和众多优秀主播的资源优势,尝试用各式的声音来表达不同的情感、题材,有着更大的试验和发挥空间。
媒体的报道显示,喜马拉雅已申请了20多项语音技术相关专利,其中有10多项TTS语音合成相关专利。2022年,喜马拉雅的两项语音技术成果被世界顶尖学术会议“2022年IEEE国际音频、语音与信号处理会议”收录。喜马拉雅自研的TTS前端文本处理分析模块,已经能够高精度、全自动地对文本进行多音字识别、韵律预测和风格分类,并已开发出可以实现多情感、多风格、多语种声音的TTS技术模型,不仅可以演绎不同情绪的文字,还可以自动区分旁白、对白,并支持英文,极大地丰富了TTS能表达的情感和韵律。
据悉,喜马拉雅研发的TTS技术模型已经广泛被运用于新闻、小说、财经专辑等多种内容的制作中,满足用户多样的需求。比如,喜马拉雅原创TTS音色“喜晓峰”和“枪枪”已被应用于《听秦说》《36氪·氪金大事件》《海清评财经|股票、债券及基金投资的一线参谋》等财经专辑中,受到了听众们的一致好评。
值得关注的是,这些技术有力地提升了部分账号的内容质量以及效率,以“秦朔朋友圈”账号下的《听秦说》专辑为例,该专辑之前更新频率为每周一次,在采用喜马拉雅TTS技术后,实现了每日更新。新京报、环球时报、潇湘晨报、时代周报等众多媒体,利用喜马拉雅的TTS音色上线了超过40张高质量TTS专辑。
目前,喜马拉雅的技术研发进程还在持续,基于自动语音识别技术(ASR)以及对齐算法的AI文稿功能已于近期上线,用户在收听喜马拉雅音频内容的时候,也可以在收听页面同步阅读相应的文字内容,开启“听看一体”的全新体验。
声明:以上内容为本网站转自其它媒体,相关信息仅为传递更多企业信息之目的,不代表本网观点,亦不代表本网站赞同其观点或证实其内容的真实性。投资有风险,需谨慎。