Discuz! Board

 找回密碼
 立即註冊
搜索
熱搜: 活動 交友 discuz
查看: 2|回復: 0

发布者研究感知团队研究科学家

[複製鏈接]

1

主題

1

帖子

5

積分

新手上路

Rank: 1

積分
5
發表於 2024-5-9 19:16:12 | 顯示全部樓層 |閱讀模式
和多模态视频字幕系统利用视频帧和语音来生成视频的自然语言描述字幕。这些系统是实现构建多模式会话系统的长期目标的垫脚石该系统可以轻松地与用户进行通信同时通过多模式输入流感知环境。与视频理解任务例如视频分类和检索不同视频理解任务的关键挑战在于处理和理解多模态输入视频多模态视频字幕任务还包括生成接地字幕的额外挑战。此任务最广泛采用的方法是使用手动注释的数据联合训练编码器解码器网络。然而由于缺乏大规模的手动注释数据为视频注释接地字幕的任务是劳动密集型的并且在许多情况下是不切实际的。和等先前的研究利用自动语音识别在未标记的视频上预训练模型。

然而此类模型通常无法生成自然语言句子因为它们缺乏解码器因此只有视频编码器被转移到下游任务。在上发表的多模态视频字幕的端到端生成预训练中我们介绍了一种新颖的多模态视频字幕预训练框架。该框架被我们称为多模态视频生成预训练或通过利用未来的话语作为目标文本并制定新颖的双向生成任务联合训练未标记视频的多模态视频编码器和句子解码器。我们证明可以有效地转换为多模式视频字幕在各种基准上取得最先进的结果。此外多模态视频编码器对于多种视频理解任务具有竞争力例如文本视频检索和动作识别。未来话语作为附加文本信号通常多模态视频字幕的每个训练视频剪辑都与两个不同的文本相关联作为多模态输入流的一部分与剪辑对齐的语音转录本以及目标字幕通常是手动的已注释。




编码器学习将文字记录中的信息与视觉内容融合目标标题用于训练解码器进行生成。但是对于未标记的视频每个视频剪辑仅附带的文字记录没有手动注释的目标字幕。此外我们不能对编码器输入和解码器目标使用相同的文本转录本因为目标的生成将变得微不足道。通过利用未来的话语作为附加文本信号并启用编码器和解码器的联合预训练来规避这一挑战。然而训练模型来生成通常不基于输入内容的未来话语并不理想。因此我们应用一种新颖的双向生成损失来加强与输入的连接。双向发电损耗通过制定包括前向和后向生成的双向生成损失可以缓解无根据的文本生成问题。前向生成在给定视觉框架及其相应的转录本的情况下产生未来的话语并允许模型学习将视觉内容与其相应的转录本融合。


回復

使用道具 舉報

您需要登錄後才可以回帖 登錄 | 立即註冊

本版積分規則

Archiver|手機版|自動贊助|z

GMT+8, 2025-2-9 04:15 , Processed in 0.250799 second(s), 18 queries .

抗攻擊 by GameHost X3.4

Copyright © 2001-2021, Tencent Cloud.

快速回復 返回頂部 返回列表
一粒米 | 中興米 | 論壇美工 | 設計 抗ddos | 天堂私服 | ddos | ddos | 防ddos | 防禦ddos | 防ddos主機 | 天堂美工 | 設計 防ddos主機 | 抗ddos主機 | 抗ddos | 抗ddos主機 | 抗攻擊論壇 | 天堂自動贊助 | 免費論壇 | 天堂私服 | 天堂123 | 台南清潔 | 天堂 | 天堂私服 | 免費論壇申請 | 抗ddos | 虛擬主機 | 實體主機 | vps | 網域註冊 | 抗攻擊遊戲主機 | ddos |