2023年6月21日
By 蒂姆Siglin 特约编辑, 泰勒Nesler 副主编
捷径

AI - media的Matthew Mello谈AI字幕的演变

蒂姆Siglin，创始执行董事，帮助我流研究基金会, and 特约编辑，流媒体，与技术销售经理马修·梅洛， Ai-Media, 在流媒体东2023的独家采访中讨论人工智能字幕的演变.

Siglin以让Mello谈谈Ai-Media是做什么的开始对话.

梅洛说:“我们为封闭字幕做人工和人工智能的实时转录. “通常用于体育或新闻直播，但也包括任何形式的录制内容.”

“所以当我在现场活动中看到人类成绩单时, 我偶尔注意到的一件事是，事情是按照语音来完成的,西格林说. 因为你听到的是一个单词的一部分, 你想要走在世界的前面, 过了这一关之后, 你没有时间回去改正它. 当我们使用具有一定程度机器学习功能的手机时, 一旦它学会了你正在做的事情, 它会偶尔回去修正. 对我来说，如果我试着输入“Tom”，因为我的名字是Tim，它会不断地把我更正为“Tim”.’ Right. 我不得不说，‘不，真的是汤姆.“但是机器学习(转录)系统会在单词被说出之前拼出来吗?? 还是等到完全理解了单词或者完全理解了上下文, 然后你可以在屏幕上看到?”

梅洛说，他们的人工智能转录有一个上下文学习的元素. “我们拥有的一个好处是，我们有一个基本的字典,他说. “你可以在上面定制你的字典，作为另一个图层. 假设它一直说你的名字是汤姆，而你的名字是蒂姆, 你可以进去说, 千万别说汤姆, 说蒂姆吧.’”

“我曾与一个团队合作，他们开发了一款名为龙的自然语言从几年前开始，”西格林说. “英语中有一个词是‘to, two, too’.在这些系统中通常发生的情况是，如果基本包有一组不同的单词，它的工作效果会更好. 所以它在医学上非常有效, 这对法律来说非常有效, 因为你有很多拉丁语的基础. 在10到15分钟的信息之前，一般的对话都不太管用. 那么，告诉我目前的技术水平是如何改进的. 如果我没有训练系统识别特定的声音, 这个基础库在大型语言模型下是否能很好地工作，让它能够识别某人说话的前几句话, 而不是必须接受培训?”

梅洛说:“新型号越来越好。. “显然，它有很大的词典，但它开始适应[上下文]。. 假设我们正在讨论一场篮球比赛, 一场NBA比赛, 有两支球队在比赛. 它可以开始挑选哪两支球队正在比赛，然后通过当前的花名册，并理解你这样拼写这个球员的名字，因为它是这个球队的一部分. 所以它开始更多地进入这个领域，这是人工智能的一部分.”

西格林说:“所以这是过滤部分在起作用。. “本质上，它说，‘我听到凯尔特人和金州勇士队的比赛，它说，‘哦，这一定是篮球……’”

梅洛说:“它还会把雄鹿大写. “然而在一种情况下, 也许不是，因为你可能在谈论钱, 就像在野外. 所以它开始学习这些东西. 这是最近真正进入自动字幕领域的人工智能部分.”

西格林问道:“你的典型客户在哪里? 是广播，还是流媒体，还是企业市政厅会议之类的?”

梅洛说:“目前我们最大的客户是广播公司. 他指出，他们的产品 LEXI 过去三年一直在新闻广播公司工作. “有一段时间，它遇到了一些困难，比如玩家的名字、标点符号和一些有时会打断上下文的东西. 我们刚刚推出了一个新版本, 我们给LEXI安装了一个新引擎, 哪一款游戏能够更好地获取玩家名字等内容. 当然，标点符号是一个更大的帮助，比如易读性.他举了他们目前谈话的例子, 其中，当一个人接一个人说话时，LEXI会添加换行符，还会做一个字形. “这样就更容易理解上下文和前后关系.”

“所以旧系统的另一个问题是，如果你和我互相交谈, 它不知道该跟随谁,西格林说. “但我认为新的语言模型——因为它可以观察音调之类的东西——实际上可以跟踪多个人的谈话.”

“没错，”梅洛说. “当我插入时，你会看到它断行了……它会断行。, 然后继续你刚才说的话.”

“但如果我们真的是在互相交谈呢??西格林问道.

“这是一个很好的测试!梅洛说。.

“我们应该试试权威人士，”西格林说. “因为我们对这些系统一直存在的问题是，突然之间，它有三个词在一起没有意义, 因为是你和我在说话, 我们并没有说不同的话.”

“它仍然有很大的机会做到这一点, 好像你说了什么, 我说了些什么, 你说些什么, 都在一行里,梅洛说。.

“但这实际上比我们过去所拥有的要好, 从字面上看，它只会说“难以理解”,在那一点上,’”西格林说. “所以你说你已经推出了一个新引擎，它在细微差别和标点符号方面表现得更好. 除了广播，你们认为你们的下一个市场在哪里?”

梅洛说:“最近最令人兴奋的是体育领域. “传统上，体育比赛是由人类解说的. 现在(人工智能)正在找到自己的位置，因为它变得可靠了. 你不用担心安排刽子手因为有时他们不会出现. 现在的准确度非常好，即使(质量)只是比人工抓手低一点, 这是值得的，当你需要它的时候，它就在那里, 它更实惠, 它很容易使用. 所以体育是一个重要因素. 还有其他部门，比如政府，我们现在正在进行大量的研究，以找出最好的前进道路.”

“尤其是多语言，”西格林说. “所以在加拿大，一切都必须用法语和英语, 或者如果你在欧盟，所有的东西都必须同时用多种语言, 这当然也是一个有趣的挑战.”

“有时候你会同时说英语和法语,梅洛说。. “同声传译，所以你不能只把它设置为英语，它需要来回切换. 我最近看到在这方面也取得了一些进展.”

“以前有卫星, 我记得它叫SAP, 这是备用音频频道,西格林说. “在那里你基本上可以切换到法语, 翻到你的英文或德文字幕, 如果同时使用两种语言, 有些人可能不愿意站起来去他们的片场把字幕从英语改成法语，因为他们更愿意听法语. 有没有关于你如何选择他们喜欢在封闭的标题中看到什么的模型?”

“If, 假设, 大部分节目都是英语的, 但你想要法文版的, 你可以用翻译很容易地做到这一点, 把它作为一个单独的轨道,梅洛说。. 所以观众可以决定他们想要英语还是法语字幕. 现在它的新功能是能够自动检测语言. 在飞行中来回翻转.”

了解更多关于人工智能和流媒体的信息 流媒体连接2023.