META公司推出的开源的sam audio 模型可以对一段音视频里的声音进行分离,你可以用文字的方式告诉它"只保留人声”,或者点击视频中的某个人,只听他的声音,或者去掉背景噪音。其中有个时间线索提示,
B站有个视频:SAM audio 音频分割一切模型,让AI拥有超级听觉_哔哩哔哩_bilibili
从他的介绍来说,已经是支持实时了RTF=0.7 (这是不是说:1秒的音频,它可以在0.7秒内处理完成)
它的开源的。