-->
为五月的纽约流媒体保留座位吧. 现在注册!

基于机器学习的视频流字幕自动对齐方法

文章特色图片

最初是为了帮助听力受损的人, 隐藏式字幕已经成为观看体验中不可或缺的一部分. 然而, 音频和字幕有轻微的不一致——可能是编辑造成的, ad-insertion, 或者帧率/格式转换——可以完全破坏它的目的. 标题出现的早或晚不仅不能帮助理解,反而会造成混淆. 确保观众的高品质体验, 流媒体视频提供商必须将标题文本与媒体文件中的音频同步. 本文将讨论如何使用自动标题对齐来同步标题, 这种方法的挑战, 以及如何用机器学习来克服这些问题.

自动标题对齐的挑战

自动字幕对齐技术包括使用机器学习将字幕文本与媒体文件中的音频同步. 首先,使用自动语音识别(ASR)创建音频的粗略文本。. 然后,将字幕与转录的文本对齐. 这种方法可以识别和纠正不同类型的对齐问题, 像添加, 删除, 和转变. 添加是指某一音频片段没有字幕的情况. 删除是一种音频片段被编辑掉的情况, 但相应的说明文字没有删除. 移位是最常见的情况,指的是当添加或删除场景时,字幕会移动几秒钟. 这种变化可以很容易地通过将字幕与转录文本对齐来识别.

虽然上面的方法效果很好, asr生成的转录本会带来一些挑战. 其中最主要的是准确性, 哪些会受到背景噪音的影响, 音乐, 以及音调的变化, 球场, 对话的速度. 除了文本准确性之外,自动标题对齐的其他问题包括:

  1. 当对话在短时间内重复时,就有可能出现错位. 作为一个例子,我们将提到两个连续的字幕话语相同的情况.

连续字幕语句

如果由于背景噪声,转录器不能以高置信度生成标题片段1, 然后,相应的音频将最终与第二段对齐, 这将进一步影响相邻段的对齐.

  1. 当标题句一个接一个地对齐时, 独立于他人, 有时,连续字幕的结果会重叠, 而且很难判断哪个标题对齐不正确. 当一个句子的结尾和下一个句子的开头相似时,这种情况经常发生.

连续字幕重叠

如果有背景噪音,“区域”只被转录一次, 这样就很难判断检测到的标题是哪个了.

  1. 同音字e的不匹配.g.,“对”和“写”——在笔录中. 这种不匹配通常会影响对齐算法及其输出.

  2. 不流畅性通常不被ASR模型转录. 因此,在标题中出现的不流畅——而不是在转录中——也使对齐变得困难.

  3. 字幕也可能包含复数,而文本则不包含,反之亦然.

  4. 拼写错误:标题可能有一些拼写错误. 这通常发生在名字上,因为相同的发音可能有不同的拼写. 同样的, 这是在实时环境中生成标题的常见问题,因此包含很多错误.

  5. 语音中具有多种可能表示形式的数字符号. 例如:1995可以读作“1995”,”“一九九五年,或“一千。, 九百年, 九十五.在这种情况下,将字幕与转录文本匹配往往变得很困难.

  6. 符号、缩略语、缩略语的存在.g.: $, @, I ' ve, breakin ', could ' ve)也会导致不匹配.

通过机器学习克服挑战

正确使用机器学习技术可以在一定程度上解决上述问题. 自然语言处理(NLP)可用于文本预处理. NLP能够生成多个数字标记的表示,从而改进匹配.

此外, 标题中的停止词(语言中非常频繁使用的词)可以使用NLP识别, 这些信息可以在对齐标题时使用. 对于英语来说,停顿词包括“is”、“am”、“are”、“the”等. 因为这些词在标题中重复了很多次, 在结盟时,我们可能会倾向于不那么重视他们的存在或不存在.

标题对齐

使文字记录更准确, 包含上下文特定的单词和名称的字典可以提供给基于ml的转录器. 例如, 如果媒体文件是体育评论, 球员的名字和比赛名称可以添加到抄写员字典中, 这将解决名字拼写错误的具体问题.

对于对齐, 可以使用动态规划来克服与对话重复和重叠相关的问题. 标题的顺序对齐侧重于通过找到最佳匹配来仅对齐当前标题, 而使用动态规划的对齐则适用于更大的场景, 因为它关注的是一组标题的整体最佳匹配. 为了使用动态规划进行对齐,首先一个接一个地选择所有标题. 然后,对于每个标题,按匹配分数递减的顺序找到N种可能的对齐方式. 现在, 从这些排列中, 将选择单个标题的最终匹配,以便没有重叠,并且整个块的总对齐分数(表示查找标题的置信度的数字)最高. 为任何单个标题选择的匹配可能不是得分最高的匹配, 但所有选定比赛的分数总和将是最高的. 这样可以确保最优对齐.

处理文本的不准确, 而不是在抄本中找到准确的单词, 可以执行模糊搜索 htein距离 查找单词. 它解决了与拼写错误和同音异义相关的问题. 它还有助于数字标记的匹配. 在这个对齐之后, 如果还有一些字幕没有对齐的话——大部分是音乐, 音频描述, 而噪声则可以通过统计预测来分配时间.

未对齐字幕时间的统计预测

如果仍有未对齐的标题, 它们可以使用具有高置信度分数的周围标题的移位来对齐. 要做到这一点, 人们可以创建连续的未对齐字幕块,并通过时间的统计预测为它们分配时间. 可以有两种类型的文件,一种是包含移位的,另一种是带有漂移的. 移位是音频和字幕的任何片段中的恒定错位. 如果在整个文件中存在这种不对齐,并且以恒定的速率增加或减少, 这叫做漂移.

对于有移位的文件, 只需考虑高置信度对齐的标题,就可以计算出未对齐块周围标题的平均移位. 我们可以使用这种平均移位来给未对齐的块留出时间.

在漂移文件中,在文件末尾的位移会变得非常大. 如果存在一大块未对齐的标题, 然后可以根据已经自信地对齐的部分计算漂移率. 这个漂移率用于给未对齐的段时间. 使用漂移率,可以计算每个未对齐标题的可能偏移.

字幕对齐

对齐过程可以扩展到对齐不同语言的音频和字幕. 考虑这样一个情况,我们试图将英语音频与西班牙语字幕对齐.

在第一关, 我们可以转录英语音频来生成英语文本,然后在英语和西班牙语片段之间进行原始比较. 我们期望部分重叠的大多数部分有轻微的偏差. 如果有一个特别长的片段只存在于其中一种语言中, 它指示需要手工检查的不匹配. 一种先进的方法包括将西班牙语文本翻译成英语,然后进行详细的比较. 但是翻译也有一些缺点, 就像在任何语言中,同一件事都可以有多种表达方式. 字幕中的“hogar”(西班牙语中“家”的意思)有可能被翻译成“房子”,,但音频文件中有“home”. 这将导致不匹配. 因此,为了解决这些问题,可以使用基于ml的语义分析. 它提供了一个分数,根据单词在意义上的联系程度.

结论

字幕是视频点播流媒体服务的重要组成部分. 它们不仅允许OTT服务提供商扩展其覆盖范围,并使全球数百万观众轻松访问流媒体内容, 但从监管的角度来看,它们也已成为强制性的. 为了确保高质量的观看体验,同时遵守地区法规,音频和字幕必须保持一致. 这可以通过利用机器学习的自动校准系统高效且经济地实现. 其结果是一种满足当今全球观众高期望的观看体验,并推动了增长.

[编者注:这是一篇来自 Interra系统. 流媒体接受供应商署名完全基于它们对我们读者的价值.]

流媒体覆盖
免费的
合资格订户
现在就订阅 最新一期 过去的问题
相关文章

媒体行业AI配音的下一步是什么?

安东Dvorkovich, Dubformer的首席执行官和创始人, 他写道,随着最近开发的解决方案将得到广泛应用,人工智能配音将如何极大地改变广播媒体行业. 

视频字幕难题

StreamShark的James Broberg讨论了为什么视频字幕对于视频内容的可访问性和增加观众的理解是必不可少的.

人工智能如何帮助营销人员拥抱热门视频趋势

Cloudinary的Josh Dorward讨论了人工智能如何帮助营销人员拥抱顶级视频趋势.

封闭字幕的完整指南

某些视频的字幕是法律要求的,但这是所有视频的正确做法. 超越道德和可访问性的考虑, 它吸引了更多的观众,并具有明智的商业意义. 以下是今天你需要知道的关于字幕的所有内容.

如何有效地为流媒体视频点播部署自动字幕解决方案

自动语音识别系统解决了当今VOD流媒体行业的关键问题, 使服务提供商能够提高利用语音到文本处理创建的字幕的准确性. 然而,ASR系统并非没有局限性. 通过采用混合方法,将自动标注与交付前的快速人工检查相结合, OTT服务提供商可以提高其VOD流媒体工作流程的准确性并显著提高效率.

AI字幕的缺点

LiveX的科里·本克(Corey Behnke)讨论了人工智能无法做到的对字幕准确性的需求, 特别是在大流行期间,对可及性的需求增加了, 这段视频来自流媒体东部连接2021.

流媒体视频的FCC字幕要求

FCC首席, 残疾权益办事处, Suzy Rosen Singleton分解了FCC字幕要求,因为它们适用于流媒体内容,这是她在2020年流媒体西部连接上的演讲片段.

非公开字幕服务 & 视频字幕服务

IBM Watson的Scott Grizzle谈论实时字幕和IP视频的兴起

流媒体的蒂姆·西格林采访IBM沃森媒体 & 气象高级解决方案经理Scott Grizzle在流媒体东部2019.

视频:asr生成的实时字幕有多可靠?

不是很, VITAC首席营销官约翰·卡波比安科在流媒体西部直播峰会上的演讲片段中说道.

提及的公司及供应商