ICCV Adobe提出自动生成短视频精彩片段的新方法，准确率提升4%~12%

发布时间：2024-10-20浏览：73

本篇文章给大家谈谈ICCV Adobe提出自动生成短视频精彩片段的新方法，准确率提升4%~12%，以及对应的知识点，文章可能有点长，但是希望大家可以阅读完，增长自己的知识，最重要的是希望对各位有所帮助，可以解决了您的问题，不要忘了收藏本站喔。

Adobe Research 的研究人员提出了一种自动生成人物视频精彩集锦的方法。无需任何人工标注和用户偏好信息即可完成训练，该方法在匹配人工亮点方面优于现有最优方法。注释准确率提高了4% 至12%。

以人为中心的视频是专注于人类执行和表达活动、任务和情感的视频。此类视频对线下和线上个人和共享媒体的快速增长做出了重大贡献。这些视频来自各个领域，例如业余体育和表演、讲座、教程、视频博客(vlog) 以及野餐和假期旅行等个人或团体活动。然而，未经编辑的以人为中心的视频也往往包含大量不相关和无趣的内容，需要对其进行编辑和标记才能有效观看。

是否有可能在不需要人工注释的情况下生成以人为中心的视频的精彩片段？最近，我们提出了一种自动生成人物视频精彩片段的方法。无需任何手动标注和用户偏好信息即可完成训练，该方法在匹配手动标注方面优于现有最优方法。准确率提高了4%到12%。该工作已被ICCV 2021 接受。

论文链接：https://arxiv.org/pdf/2110.01774.pdf

吴刚(gawu@adobe.com),

https://wugangwu.github.io

在本文中，我们提出了一种独立于领域和用户偏好的方法来检测以人为中心的视频中的精彩片段。我们使用基于图形表示的方法来处理视频中多种可观察到的以人为中心的模式，例如姿势和面部。我们使用配备时空图卷积的自动编码器网络来检测基于这些模式的人类活动和交互。我们基于帧的表示来训练我们的网络，从而将不同模态的基于活动和交互的潜在结构表示映射到每个帧的突出得分。我们使用这些分数来计算哪些帧脱颖而出，并将相邻帧组合起来生成摘录。我们在大规模动作数据集AVA-Kinetics 上训练我们的网络，并在四个基准视频集锦数据集上评估网络：DSH、TVSum、PHD 和SumMe。在这些数据集中，与最先进的方法相比，我们在匹配人工注释的亮点方面将平均准确度提高了4%-12%，而无需任何用户偏好信息或对新数据集进行参数调整。

一、简介

以人为中心的视频是专注于人类执行和表达活动、任务和情感的视频[62,50]。此类视频极大地促进了离线和在线个人和共享媒体的快速增长[8]。这些视频来自各个领域，例如业余体育和表演、讲座、教程、视频博客(vlog) 以及野餐和假期旅行等个人或团体活动。然而，未经编辑的以人为中心的视频也往往包含大量不相关和无趣的内容，需要对其进行编辑和标记才能有效浏览[47]。

图1：使用以人为中心的模式检测突出显示的摘录。我们的方法利用多种以人为中心的模式来检测可以在关注人类活动的视频中观察到的亮点，例如身体姿势和面部。我们使用每种模态的2D 或3D 互连点表示来构建时空图表示来计算突出得分。

无论它们假设特定领域的知识还是用户偏好，现有方法都在构成视频的帧或镜头的二维图像空间中工作。最先进的基于图像的网络可以学习丰富的语义特征并捕获图像中各种检测对象之间的相互关系，从而实现有效的高光检测。然而，这些方法并没有明确地模拟人类活动或人类互动，而这些是以人为中心的视频的主要焦点。同时，开发以人为中心的视频方法对于各种任务至关重要，包括表情和情感识别[34, 2, 38]、活动识别[56]、场景理解[50, 32]、人群分析[ 51]、视频超分辨率重建[32]和基于文本的视频捕获[48]。这些方法表明，以人为中心的视频需要通过利用以人为中心的模式（例如姿势和面部）与普通视频分开处理。因此，这证明了将以人为中心的视频理解机制引入亮点检测任务的范围和必要性。

我们开发了一个端到端学习系统，可以检测以人为中心的视频中的亮点，而不需要特定领域的知识、亮点注释或示例。我们的方法利用通过多种感官通道或方式表达的人类活动和交互，包括面部、眼睛、声音、身体姿势和手势[1,38]。我们对所有以人为中心的模式使用基于图的表示，以充分表示每个模式的固有结构，包括各种活动和交互如何随着时间的推移而演变。我们的网络使用时空图卷积从这些基于图的表示中学习，并使用自动编码器架构映射每帧模式以突出显示分数。我们的亮点得分基于视频中所有帧的代表性，通过将连续帧拼接在一起以产生最终摘录而获得。我们的新贡献包括：

使用以人为中心的模式进行突出显示检测。我们的方法识别每个输入视频中的可观察模式，例如姿势和面部，并将它们随着时间的推移和不同人之间的相互关系编码为用于亮点检测的亮点分数。

亮点分数的无注释训练。我们不需要突出评论、示例、用户偏好或特定领域的知识。相反，我们只是使用现成的模式检测技术来检测一种或多种以人为中心的模式来训练我们的突出显示分数。

独立于域和用户的性能。我们训练有素的网络在由以人为中心的视频组成的多个基准数据集上进行评估，并在跨不同领域和用户偏好的亮点检测方面实现了最先进的性能。

我们的方法在基准特定领域视频突出显示(DSH) 数据集[47] 和个人突出显示检测数据集(PHD2) [11] 数据集上匹配人工注释的突出片段时，平均准确度分别为0.64 和0.20。比相应的现有方法高7%和4%（绝对值）。我们还在较小的基准数据集TVSum [46] 和SuMMe [15] 上实现了最先进的性能，在平均精度和平均F 方面比当前最先进的基线方法高出12% 和4% - 分别得分。价值）。即使对于不完全以人类为中心的领域（例如狗展）或对于未检测到足够以人类为中心的模式的视频，我们方法的性能也可以与当前最先进的方法相媲美。

2、相关工作

视频摘要中的显着性检测和相关性问题在计算机视觉、多媒体和相关领域得到了广泛的研究。早期的方法使用各种技术，包括基于视觉内容的聚类、场景转换图、帧的时间方差[59,6,49]以及表示语义信息（例如面部活动）的手工特征[20]。另一方面，最近的方法利用一系列令人印象深刻的深度学习工具和技术来实现亮点检测和视频摘要。

高亮检测。亮点检测的目标是检测视频中感兴趣的时刻或未经编辑的视频的摘录[49,47]。许多方法将此视为监督排名问题，其中突出显示的摘录的排名高于所有其他摘录[47,17,58,18,11,60,19,52]。这些方法假设具有高度可读摘录的人工注释标签的可用性，并训练网络学习与这些标签相关的一般或特定领域的排名指标。另一方面，弱监督和无监督的亮点检测方法通过利用示例或视频元数据消除了标签依赖性。这些样本包括描述特定领域动作的网络图像，例如体操和滑雪[25]。视频元数据包括有关视频类别的信息[57]，或有助于区分未经编辑和编辑的视频的属性，例如持续时间[53]。一些方法还考虑用户偏好来生成个性化亮点[42]。所有这些方法都在每个视频帧的二维图像空间中执行计算，并且不使用以人为中心的模式。

视频总结。视频摘要的主要目标是提供各种格式的简洁视频合成，包括故事情节[24, 54]、关键帧序列[30]、剪辑[15, 64]以及基于用户需求的混合[14]。视频摘要通常被认为是一种无监督子序列估计任务，满足一致性[35]、多样性和代表性[40, 67]。无监督摘要方法建立在几个概念的基础上，例如视觉共现[7]、视频帧和镜头之间的时间相关性[23、36、44、64]、学习类别感知分类器[41]和类别感知特征学习[66、 46]。其他方法采用弱监督方法，使用示例网络图像和视频[24, 22, 4, 43] 以及类别描述[41, 40] 作为先验。然而，其他方法使用监督学习和人工注释摘要，使用子集选择[13]、视觉重要性评分[30, 15]、子模块混合[16, 55] 和时间相关性[63, 64, 65]。尽管我们的目标是亮点检测，但我们的方法受到这些视频摘要方法的启发。特别是，我们确保我们的亮点分数捕获视频中的表示并实现稳健的特征重建。

多模式学习。大量工作集中在多模态动作识别[5,45,33,10] 和情感识别[3,26,61,38,39] 上。这些方法观察并结合多种人类表达模式的线索，包括面部、姿势、语调、眼球运动、手部和身体姿势以及步态。现有方法通常使用点和图来建模观察模式[33,3,38]，使它们适合学习动作和情绪的特征。在我们的工作中，我们利用了这样一个事实：可以根据这些模式来确定以人类为中心的视频的大量摘录。遵循多模式动作和情感识别的最新趋势[33,38]，我们还将视频帧中观察到的模式建模为时空图，并利用它们来学习我们的亮点分数。

3. 多模式高光检测

对于以人为中心的视频，我们的目标是检测视频中有趣的时刻或亮点。本节详细介绍了我们如何通过利用视频中观察到的以人为中心的模式来检测这些亮点。

3.1.人类中心模型

在我们的工作中，我们使用“模式”一词来暗示对人类活动和互动敏感的人类表达渠道，例如面部、眼睛、身体姿势、手、步态[5,38,39]。活动由个人表达和互动组成，包括与其他人、其他有生命和无生命物体的互动，并与各种动作[56,10] 和情绪[2,39] 相关。我们相信人类更喜欢以人类为中心的视频，重点关注这些活动和互动。因此，我们的目标是从网络中观察到的以人为中心的模式中学习。对于每个检测到的人的模态，我们的网络利用不同时间实例的相互关系以及不同人之间的相互关系来检测最具代表性的摘录。

当我们从视频帧的RGB 图像空间表示中提取这些模式时，我们注意到这些模式比一般图像空间表示更好地捕获视频帧的丰富语义信息。图像空间表示基于图像不同部分之间强度差异的变化，而不了解不同部分如何相互作用。另一方面，模式根据其结构提供对交互的洞察，例如，利用手臂和腿的相对运动来表示某些动作，以及利用各种面部标志的相对运动来表示某些表情和情绪。我们构建网络是为了明确考虑每种模式的结构，以及这些结构的演变，包括随时间的活动和交互。

我们考虑从输入视频中观察到M1 的以人为中心的模式。我们假设这些模态是使用标准模态检测和跟踪技术提取的[29,12]，并使用一组2D 或3D 互连点（例如一组2D 面部标志或一组3D 身体关节）表示。姿势。

为了表示每个模式m=1,…，我们构造一个时空图表示Gm={Vm, Em}。 Vm 中的节点代表相应模式的点，Em 中的边代表模式的结构以及该结构如何随时间演变。为了充分捕捉这一点，我们考虑了三种边缘类型：

人内边缘捕获各个人体节点之间的空间关系，例如骨骼和面部标志之间的姿势关节之间的连接器。这些边缘代表每个视频帧的模态的基线结构。

人际边缘连接每个视频帧中不同人的相同节点，例如根到根、头到头。这些边捕获了不同人的节点之间的相互交互。它们为每一对人形成一个二分图，代表每个视频帧上的人类交互。

同时边缘是一个人跨多个视频帧连接的相同节点，例如根到根、头到头。这些边捕捉每个人的节点如何随着时间的推移而演变。它们为每对视频帧形成一个二分图，代表活动和交互随时间的演变。

这些节点的空间位置以及所有这些边的组合使我们的网络能够学习视频中的所有人类活动和交互，并相应地学习亮点分数，而无需任何有关视频领域或用户提供的偏好的先验知识。

3.2.视频帧的代表性

由于我们的目标是在不需要注释或示例的情况下检测视频中的亮点，因此我们的方法与检测视频中的代表性帧一致，类似于视频摘要中所做的工作[36, 14]。虽然检测图像空间中的代表性帧可能有利于检测视频中的感兴趣的时刻[47]，但我们观察到实际上检测以人为中心的模式空间中的代表性帧在以人为中心的模式空间中是有益的。检测中心视频中的感兴趣时刻。

我们将视频帧的代表性定义为某个度量空间中视频与没有该帧的视频之间的差异。差异越大，框架越具有代表性。直观上，一帧的代表性衡量的是它包含的与整个视频相关的信息的比例。我们的亮点检测目标是从视频中检测具有最大代表性的最小帧集。

图2：代表。我们展示了不同视频帧在姿势（左）和地标（右）处计算的不同代表值。我们根据代表性来学习亮点分数。

在我们的工作中，我们测量可观察模式在度量空间中的表示。图2显示了姿态和地标空间中不同代表值的视频帧的示例。我们认为每个视频总共由T 帧和P 个人组成（帧和人较少的视频适当用零填充。因此，对于每个模态m，Vm 总共由NT P 个节点组成，其中N 是每个人的节点数，我们将这些节点组织成一个张量。

，在

指的是每个帧t，D是每个节点的空间维度，最常见的是2或3。

接下来，我们可以突出显示分数

设置为0或1以体现每一帧t的代表性。因此，我们可以将净差值D 写为，突出显示的值写为，

(1)

在

代表哈达玛的结果。现在，我们可以将我们的目标重写为最小化等式1 中的D。

同时，对于每个模式m，也最小化。我们注意到方程的一个简单的解决方案。 1 是选择一个阈值0 T，那么Xm 中最有代表性的顶部的突出得分为1，对于所有其他帧，它的突出得分为0。然而，选择并不简单，需要学习实践中的数据。因此，我们训练基于自动编码器的深度神经网络来学习各种数据的亮点分数。我们还允许突出显示分数在[0,1] 中连续，以保持我们的网络可微分。此外，使高光分数连续还有助于我们理解每个帧的相对代表性，这是现代高光检测系统的内置组件[53, 42]。

3.3.网络架构

图3 显示了我们用于从输入视频中预测突出显示的视频剪辑的整体网络架构。我们网络的目标是学习每帧的亮点分数，以最小化类似于方程1 的形式。我们的网络通过采用基于每帧图形的可观察量表示来实现这一目标。它尝试使用尽可能少的输入模式帧来重建视频中的所有活动，即加权重建，其中权重是亮点的分数。在训练过程中，我们的网络学习为具有更高代表性的帧分配更高的亮点分数。我们将详细描述我们的网络架构。

图3：使用以人为中心的模式进行突出显示检测：我们的学习网络概述，突出显示多个以人为中心的模式的分数。我们使用标准技术[29, 12] 来检测以人为中心的模式。我们将这些模式表示为二维或三维连接点的集合。我们并行训练所有模式的网络。网络之间唯一的交互点是它们的预测亮点得分，我们将其纳入训练的加权亮点得分中。

我们的自动编码器架构由编码器、评分器和解码器组成。我们的编码器从输入视频中获得每个可观察模态m 的时空图表示。

它使用单独的时空图卷积网络（STGCN）[56,28,9]来转换

转换为基于潜在活动的特征

,Dl 是潜在特征中每个节点的维度。因此，我们有以下操作，

在，

表示为

由此产生的邻接矩

大批，

由编码器中一组可训练的STGCN 参数组成。

这里我们记下数据

形成一个满秩张量，因此STGCN 避免将0 的简并解分配给所有。

我们基于活动的潜在特征

连接到我们的记分器，它由一层时空图卷积组成，后跟针对每种模态的sigmoid 运算。我们的记分员会将每个

转换为

每个节点的标准化突出显示分数

，现在，

(3)

在

表示s 形函数，

由可训练的STGCN 参数组成。

我们的解码器采用基于潜在活动的特征

以及每种模态的突出得分m

，并由

Hadamard 产品可产生加权潜在特征

征收

维度为

(4)

换句话说，我们的目标是选择

在对应于

中最具代表性的帧的潜在特征。在训练期间，我们的记分员成功学会了如何转换更高的分数

分配的值代表更具代表性的帧

特点并在重建过程中使他们受益。

来自加权潜在特征

，我们的解码器使用另一个STGCN 来生成输入图节点的重建

，现在

(5)

它由解码器中的一组可训练的STGCN 参数组成。

3.4.训练损失函数

与等式1 类似，我们训练网络架构以最大化所有模式下输入图节点的重建，同时最小化考虑重建的帧数。我们的方法基于这样的假设：具有较高代表性的视频帧构成更清晰的视频摘录。因此，实际上我们的目标是在输入视频的重建中抑制尽可能多的帧，同时只强调具有高度代表性的帧。

给出每种方式的突出分数

，我们对所有维度的分数进行最大池化，但是得到

，该模态视频每帧的最大突出得分，即

(6)

我们还考虑

对贡献进行加权，以便权重与输入视频中模态可见的帧数成正比。如果模态的一半以上的组成点在框架中可见，则我们将模态定义为在框架中可观察。

根据这个定义，我们为每个模式m 构造一个权重

为了

(7)

注意

，因为每个帧可以包含无模式和所有模式。

接下来，我们为视频的所有帧构建加权亮点分数

作为

(8)

最后，给定解码器重构

以及每种模式的权重

，我们构造损失函数L 来训练我们的网络

(9)

它结合了所有可训练参数

和

是正则化因子。

4. 实施与测试

我们在大规模AVA-Kinetics 数据集[31] 上训练我们的网络。该数据集由235 个训练视频和64 个验证视频组成，每个视频时长15 分钟，动作标签位于1 秒的剪辑中。我们忽略动作标签并使用原始视频来训练和验证我们的亮点检测网络。该数据集包含各种各样的人类活动，但一些精彩的摘录没有受到监督。因此，检测人类特定的突出显示摘录适合我们的学习任务。由于内存限制，我们将每个视频处理为30 秒的非重叠摘录，总共7050 个训练摘录和1920 个验证摘录。

4.1.执行

我们使用M=2 种模式、姿势和面部，这是我们测试方法的所有数据集中最容易观察到的两种模式。其他模式，例如手势和眼球运动，要么很少可见，要么检测有噪声。我们基于CMU pan-view 模型[21, 37] 构建姿势图，基于Geitgey [12] 的面部标志图模型构建面部标志图。

我们使用最先进的多人跟踪器[29] 来跟踪所有视频帧中的人物，并使用最先进的姿势检测器[37] 和面部标志检测器[12] 来检测他们的姿势和分别是面部标志。

为了构建每种模态的图，我们在每帧中最多考虑P=20 个人，并考虑将过去和未来时间边缘组合到30f 的时间相邻帧，其中f 是处理视频的帧速率。如果可用，我们使用过去和未来相同数量的帧来实现时间邻接。我们在实验中使用帧速率f=5，观察到帧速率从2 到5 时在准确性和内存要求方面的有效性能。

我们使用Adam 优化器[27] 训练200 个epoch，批量大小为2，初始学习率为10-3，动量为0.9，权重衰减为10^-4。每个训练周期之后，我们的学习率都会降低0.999 倍。在NVIDIA GeForce GTX 1080Ti GPU 上大约需要40 分钟，总训练时间约为4.6 个GPU 天。

4.2.测试

在测试时，我们根据公式8 获得输入视频所有帧的加权亮点得分。我们将高于特定得分阈值的所有连续帧组合起来，生成视频亮点。我们还可以使用类似于[44]的方法通过连接摘录来创建基线视频摘要。根据我们的实验结果，我们观察到当0.5 时能够检测基准数据集中的代表性亮点片段。

在实践中，我们将通过提供一种对摘录进行排序的机制，将给定视频的最终选择留给用户。我们为每个亮点片段分配一个分数，该分数是其每个组成帧的加权亮点分数的平均值。我们根据这些分数对摘录进行排名，以便用户可以为超过这些阈值的摘录选择自己的阈值。他们选择的阈值越高，通过该阈值的摘录就越少，从而减少了他们筛选代表性较差的摘录的人工工作量。

5. 实验

我们在两个大型公共基准数据集上评估我们的方法和当前最先进的视频亮点检测方法的性能：特定领域亮点（DSH）数据集[47]和个人亮点检测数据集（PHD2） [11]。我们还评估了较小的公共数据集TVSum [46] 和SumMe [15]。然而，与当前的任何方法不同，我们不会在这些数据集上训练或微调我们的方法。我们还通过从训练和评估中删除个别模式来测试网络消融版本的性能。

5.1.数据集

DSH 数据集[47] 由YouTube 上的视频组成，涵盖六个特定领域类别：狗表演、体操、跑酷、滑冰、滑雪和冲浪。每个域大约有100个视频，总时长大约1,430分钟，大约600个视频。 PHD2数据集[11]的测试集总共包含约100,000个YouTube视频，总计约55,800分钟，由850个用户根据自己的喜好注释的精彩片段组成。较小的TVSum数据集[46]有50个YouTube视频，总计约210分钟，跨越10个领域：养蜂（BK）、自行车技能（BT）、狗展（DS）、闪耀（FM）、修饰动物（GA）、三明治制作（MS）、游行（PR）、跑酷（PK）、车辆轮胎（VT）和车辆释放（VU）。 SumMe数据集[15]只有25个个人视频，总共约66分钟。

5.2.评价指标

我们使用检测与相应视频中带注释的亮点相匹配的亮点的平均精度（mAP）来评估所有方法。平均准确度是评估高光检测的常用指标[47,17,11,53,42]。我们注意到，在评估精彩片段时，需要单独考虑每个视频的准确性，而不是跨视频考虑。这是因为从一个视频检测到的突出显示片段不一定比另一视频中的非突出显示片段具有更高的突出显示分数[47]。我们还报告了我们的方法在所有数据集上的平均F 分数（精确度和召回率的调和平均值，通过对所有视频的数据进行平均而获得）以及SumMe 数据集上的基线方法[15]。

5.3.基线法

我们与DSH 数据集[47] 上的4 个基线、PHD2 数据集[11] 上的4 个基线、TVSum 数据集[46] 和SumMe 数据集[15] 上的7 个基线进行比较。我们报告文献中描述的基线方法的性能。

在DSH 数据集上，我们与Sun 等人的基于潜在SVM 的高光排序方法（LSVM）[47]、Video2GIF 方法[17] 合作，使用C3D 特征和全连接层学习进行高光排序，Yang 等人。将基于无监督鲁棒循环自动编码器（RRAE）的方法[57]与Xiong等人的方法（少即是多）[53]进行了比较。 Xiong等人的方法通过使用视频的持续时间作为弱监督标签来学习对精彩内容进行排名，他们认为较短的视频更有可能被编辑，因此曝光率更高。

在数据集PHD2 上，我们再次与Video2GIF 方法[17]进行比较，使用GoogLeNet 的全卷积序列网络（FCSN）学习基于图像的特征进行高亮检测[44]，以及自适应FCSN 方法（ADFCSN）[42]，其中还包括一个历史编码器，用于适应用户的历史焦点偏好，以检测个性化的亮点。我们还使用完全随机的高光检测器作为[42]之后的最低基线方法。

在TVSum数据集上，我们再次与基于持续时间的高光检测方法（LessisMore）[53]合作，Chu等人的基于视觉的方法使用最大双峰发现（MBF）来获得与原始视频相关的并发镜头[ 7]，Potapov等人基于语义一致片段上的内核训练SVM的视频摘要方法（KVS）[41]，Panda等人使用共识正则化器来检测满足稀疏性、多样性和代表性的突出片段将协作视频摘要方法（CVS）[40]和Mahaseni 等人使用具有对抗性损失的LSTM 的无监督视频摘要方法（Adv-LSTM）[36]进行了比较。

在SumMe 数据集上，我们再次比较了Gygli 等人。 [15]（Int.）基于兴趣度总结的自适应FCSN（Ad-FCSN）[42]，Gygli 等人。 [16]基于子模块化的概括方法。（副），张等人。 [63]采用了行列式点过程的LSTM网络（DPP-LSTM），一种基于GAN和附加监督（GAN-S）的方法[35]，Zhou等人。基于深度强化学习，采用附加监督方法(DRL-S) [67] 和使用编码器-解码器架构来检测序列数据中高度相关的片段(S2N) [52] 的检测方法。

5.4.结果

DSH[47] 和TVSum[46]。我们分别在表1 和表3 中报告了DSH 和TVSum 数据集中所有域的mAP。除少数领域外，我们的方法优于基线方法。这些非最佳领域要么不完全以人类为中心（养蜂、狗展、梳理动物和三明治制作），要么是由于视频中检测到的手势和手势不足而导致的。

脸而使我们的方法受到阻碍(DSH中的冲浪视频)。然而在这些非最优表现的领域上，我们的方法仅次于表现最好的基线方法。平均而言，在所有领域中，我们的方法比性能最好的基线方法高出4%-12%的绝对值。 PHD2[11]。我们在表2中报告了跨数据集的mAP。考虑到在这个数据集的视频中检测到大量的人类数量，我们的方法比表现最好的基线方法高出4%。 SumMe[15]。我们在表4中报告了整个数据集的平均F分数。按照之前的方法[52,42]，我们随机选择20%的数据集来计算平均F分数，重复这个实验5次，并报告平均性能。基于这些实验，我们比表现最好的基线方法高出4%的绝对值。这些结果表明，我们使用以人为中心的模式来检测高亮的方法在所有基准数据集上表现出了最先进的性能。表1：在DSH数据集[47]上的平均精度。粗体：最好，下划线：第二好。我们方法在冲浪领域表现第二好，因为没有检测到足够的姿势和面孔，而在所有其他领域表现最好。表2：PHD2[11]的平均精度。粗体：最好，下划线：第二好。表3：TVSum数据集[46]上的平均平均精度。域名的完整形式见第5.1节。粗体：最好，下划线：第二好。我们的方法在不完全以人类为中心的领域(BK、DS、GA、MS)表现第二，在所有其他领域表现最好。表4：SumMe数据集[15]上的F分数。粗体：最好，下划线：第二好。 5.5. 消融研究在我们的工作中，我们考虑了两种模式，姿势和面孔。我们依次废除这两种模态，并通过在剩余的模态上训练网络来测试我们方法的性能。我们在表5中报告了我们方法的消融版本在所有四个基准数据集的视频中的平均mAP和平均F分数。表5：在基准数据集上，我们的方法的不同消融版本的平均mAP和平均f分数的比较。粗体：最好，下划线：第二好。我们观察到与使用这两种模式相比，仅使用姿势而不使用人脸的方法在数据集中平均 mAP 的绝对值下降了 5%-7%，平均 F 得分下降了 3%-8%。然而，我们观察到只使用面孔而不使用姿势的方法，造成更严重的下降，平均mAP的绝对值下降4%-13%，平均F分数下降2%-13%。这是因为姿势在以人为中心的视频中更为丰富，而且比面部地标更容易被检测到。例如，即使人类被部分遮挡，在黑暗环境中或被不清晰聚焦时，姿势也可以被检测到，而检测到面部标志需要面部有良好的光线和聚焦。因此，不检测姿势造成大量的摘录损失。这一趋势只在PHD2中发生逆转，因为在那里面孔比姿势更容易被检测到。我们还在图5中展示了我们的方法及其所有消融版本在DSH、PHD2、TVSum和SuMMe四个数据集中的一个样本视频的定性性能结果。我们可以看到，当只观察姿势而不是面孔时，我们的方法无法检测到主要有面部表情和情绪的代表性摘录。相反，当只观察面孔而不是姿势时，我们的方法只能检测面孔突出的摘录，而忽略面孔太小、太遮挡或在黑暗中的摘录。使用这两种模式，我们的方法可以检测到所有有代表性的摘录。图5：通过我们的方法检测到的高亮显示示例帧。我们展示了使用我们方法不同消融版本检测到的高亮分数范围内的样本视频帧。我们展示了来自数据集SumMe[15]（左上）、PHD2[11]（右上）、DSH[47]（左下）和TVSum[46]（右下）的一个示例视频。当只使用面孔或姿势时，我们的方法只基于面部或姿势的代表性来学习高亮分数。结合这两种模式，我们的方法学习基于代表性的突出分数。 5.6. 突出显示分数阈值的效果在我们的方法中，我们使用高亮分数的阈值来检测高于该阈值的高光摘录。我们在图4中显示了我们的阈值对DSH数据集中[47]中每个域的平均精度(mAP)的影响。我们观察到，随着我们对阈值的增加，mAP的总体趋势逐渐下降，因为我们的方法返回的高光点越来越少。但是，对于某些领域（例如冲浪）而言，情况并非如此，因为其中代表性摘录的高亮分数已经足够高。在实践中，我们考虑阈值的选择取决于用户的偏好，因此我们建议将它作为可供用户为每个视频配置的参数。图4：不同高亮阈值下的的平均AP得分。在DSH数据集中[47]中的域上。 6. 结论、局限性及未来的工作我们提出了一种新的基于神经网络的方法来检测以人为中心的视频中的高亮点。我们的方法可以利用视频中可观察到的以人为中心的模式，如面部和姿势，并自动使用这些模式来检测视频中最具代表性的亮点。在特定领域的高光(DSH)数据集[47]、个人高光检测数据集(PHD2)[11]、TVSum数据集[46]和SumMe数据集[15]上的广泛实验结果表明，与几个最先进的基线方法相比，我们提出的方法拥有更好的性能。不过我们的方法也有一定的局限性。虽然我们的网络设计为可以容纳任意数量的模式，但我们只在基准测试中使用了具有最好平均性能的人脸和姿态两种模式。然而，许多视频(例如，关于梳理动物的视频，制作三明治的视频TVSum)展示了其他模式，如手和手指。因此，我们计划在未来将更多以人类为中心的模式纳入我们的实验中。我们的方法可能不会为以非人类为中心的视频提供太多的性能提升，如通常关注其他类别的生命或无生命物体或自然场景的视频。我们计划在未来使用适当的模式来探索这些领域。我们的方法还可以与特定领域的特性相结合，或与用户偏好相适应，通过微调以检测出更多的高亮点。参考文献 [1] Hillel Aviezer, Yaacov Trope, and Alexander Todorov. Body cues, not facial expressions, discriminate between intense positive and negative emotions. Science, 338(6111):1225–1229, 2012. 2 [2] Uttaran Bhattacharya, Trisha Mittal, Rohan Chandra, Tanmay Randhavane, Aniket Bera, and Dinesh Manocha. Step: Spatial temporal graph convolutional networks for emotion perception from gaits. In Proceedings of the Thirty-Fourth AAAI Conference on Artificial Intelligence (AAAI-20), page 1342–1350. AAAI Press, 2020. 2, 3 [3] Carlos Busso, Murtaza Bulut, Chi-Chun Lee, Abe Kazemzadeh, Emily Mower, Samuel Kim, Jeannette N Chang, Sungbok Lee, and Shrikanth S Narayanan. Iemocap: Interactive emotional dyadic motion capture database. Language resources and evaluation, 42(4):335, 2008. 3 [4] Sijia Cai, Wangmeng Zuo, Larry S. Davis, and Lei Zhang. Weakly-supervised video summarization using variational encoder-decoder and web prior. In Proceedings of the European Conference on Computer Vision (ECCV), September 2018. 2 [5] C. Chen, R. Jafari, and N. Kehtarnavaz. Utd-mhad: A multimodal dataset for human action recognition utilizing a depth camera and a wearable inertial sensor. In 2015 IEEE International Conference on Image Processing (ICIP), pages 168–172, 2015. 3 [6] Chong-Wah Ngo, Yu-Fei Ma, and Hong-Jiang Zhang. Automatic video summarization by graph modeling. In Proceedings Ninth IEEE International Conference on Computer Vision, pages 104–109 vol.1, 2003. 2 [7] Wen-Sheng Chu, Yale Song, and Alejandro Jaimes. Video co-summarization: Video summarization by visual cooccurrence. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2015. 2, 6, 7 [8] Cisco. Annual internet report (2018–2023): https://www.cisco.com/c/en/us/solutions/collateral/service-provider/visual-networking-index-vni/complete-white-paper-c11-481360.html# toc484813989. CISCO White paper, 2020. 1 [9] Micha¨el Defferrard, Xavier Bresson, and Pierre Vandergheynst. Convolutional neural networks on graphs with fast localized spectral filtering. In D. D. Lee, M. Sugiyama, U. V. Luxburg, I. Guyon, and R. Garnett, editors, Advances in Neural Information Processing Systems 29, pages 3844–3852. Curran Associates, Inc., 2016. 4 [10] Annalisa Franco, Antonio Magnani, and Dario Maio. A multimodal approach for human activity recognition based on skeleton and rgb data. Pattern Recognition Letters, 131:293–299, 2020. 3 [11] Ana Garcia del Molino and Michael Gygli. Phd-gifs: Personalized highlight detection for automatic gif creation. In Proceedings of the 26th ACM International Conference on Multimedia, MM ’18, page 600–608, New York, NY, USA, 2018. Association for Computing Machinery. 1, 2, 6, 7, 8 [12] Adam Geitgey. Face Recognition, 2020. 3, 4, 5 [13] Boqing Gong, Wei-Lun Chao, Kristen Grauman, and Fei Sha. Diverse sequential subset selection for supervised video summarization. In Z. Ghahramani, M. Welling, C. Cortes, N. Lawrence, and K. Q. Weinberger, editors, Advances in Neural Information Processing Systems, volume 27, pages 2069–2077. Curran Associates, Inc., 2014. 2 [14] Hongxiang Gu and Viswanathan Swaminathan. From thumbnails to summaries-a single deep neural network to rule them all. In 2018 IEEE International Conference on Multimedia and Expo (ICME), pages 1–6. IEEE, 2018. 2, 4 [15] Michael Gygli, Helmut Grabner, Hayko Riemenschneider, and Luc Van Gool. Creating summaries from user videos. In David Fleet, Tomas Pajdla, Bernt Schiele, and Tinne Tuytelaars, editors, Computer Vision – ECCV 2014, pages 505–520, Cham, 2014. Springer International Publishing. 2, 6, 7, 8 [16] Michael Gygli, Helmut Grabner, and Luc Van Gool. Video summarization by learning submodular mixtures of objectives. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2015. 2, 6, 7 [17] Michael Gygli, Yale Song, and Liangliang Cao. Video2gif: Automatic generation of animated gifs from video. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2016. 2, 6, 7

[18] Yifan Jiao, Zhetao Li, Shucheng Huang, Xiaoshan Yang, Bin Liu, and Tianzhu Zhang. Three-dimensional attention-based deep ranking model for video highlight detection. IEEE Transactions on Multimedia, 20(10):2693–2705, 2018. 2 [19] Yifan Jiao, Tianzhu Zhang, Shucheng Huang, Bin Liu, and Changsheng Xu. Video highlight detection via region-based deep ranking model. International Journal of Pattern Recognition and Artificial Intelligence, 33(07):1940001, 2019. 2 [20] Hideo Joho, Jacopo Staiano, Nicu Sebe, and Joemon M Jose. Looking at the viewer: analysing facial activity to detect personal highlights of multimedia contents. Multimedia Tools and Applications, 51(2):505–523, 2011. 2 [21] Hanbyul Joo, Tomas Simon, Xulong Li, Hao Liu, Lei Tan, Lin Gui, Sean Banerjee, Timothy Scott Godisart, Bart Nabbe, Iain Matthews, Takeo Kanade, Shohei Nobuhara, and Yaser Sheikh. Panoptic studio: A massively multiview system for social interaction capture. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017. 5 [22] Aditya Khosla, Raffay Hamid, Chih-Jen Lin, and Neel Sundaresan. Large-scale video summarization using web-image priors. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2013. 2 [23] Gunhee Kim, Leonid Sigal, and Eric P. Xing. Joint summarization of large-scale collections of web images and videos for storyline reconstruction. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2014. 1, 2 [24] Gunhee Kim and Eric P. Xing. Reconstructing storyline graphs for image recommendation from web community photos. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2014. 2 [25] Hoseong Kim, Tao Mei, Hyeran Byun, and Ting Yao. Exploiting web images for video highlight detection with triplet deep ranking. IEEE Transactions on Multimedia, 20(9):2415–2426, 2018. 1, 2 [26] Yelin Kim, Honglak Lee, and Emily Mower Provost. Deep learning for robust feature generation in audiovisual emotion recognition. ICASSP, pages 3687–3691, 2013. 3 [27] Diederik P Kingma and Jimmy Ba. Adam: A method for stochastic optimization. arXiv preprint arXiv:1412.6980, 2014. 5 [28] Thomas N Kipf and Max Welling. Semi-supervised classification with graph convolutional networks. arXiv preprint arXiv:1609.02907, 2016. 4 [29] Muhammed Kocabas. Simple Multi Person Tracker, 2019. 3, 4, 5 [30] Y. J. Lee, J. Ghosh, and K. Grauman. Discovering important people and objects for egocentric video summarization. In 2012 IEEE Conference on Computer Vision and Pattern Recognition, pages 1346–1353, 2012. 2 [31] Ang Li, Meghana Thotakuri, David A Ross, Jo˜ao Carreira, Alexander Vostrikov, and Andrew Zisserman. The ava-kinetics localized human actions video dataset. arXiv preprint arXiv:2005.00214, 2020. 5 [32] G. Li, Y. Zhao, M. Ji, X. Yuan, and L. Fang. Zoom in to the details of human-centric videos. In 2020 IEEE International Conference on Image Processing (ICIP), pages 3089–3093, 2020. 2 [33] Jianan Li, Xuemei Xie, Qingzhe Pan, Yuhan Cao, Zhifu Zhao, and Guangming Shi. Sgm-net: Skeleton-guided multimodal network for action recognition. Pattern Recognition, 104:107356, 2020. 3 [34] S. Li and W. Deng. Deep facial expression recognition: A survey. IEEE Transactions on Affective Computing, pages 1–1, 2020. 2 [35] Zheng Lu and Kristen Grauman. Story-driven summarization for egocentric video. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2013. 2, 7 [36] Behrooz Mahasseni, Michael Lam, and Sinisa Todorovic. Unsupervised video summarization with adversarial lstm networks. In Proceedings of the IEEE conference on Computer Vision and Pattern Recognition, pages 202–211, 2017. 1, 2, 4, 6, 7 [37] D. Mehta, O. Sotnychenko, F. Mueller, W. Xu, S. Sridhar, G. Pons-Moll, and C. Theobalt. Single-shot multi-person 3d pose estimation from monocular rgb. In 2018 International Conference on 3D Vision (3DV), pages 120–130, 2018. 5 [38] Trisha Mittal, Uttaran Bhattacharya, Rohan Chandra, Aniket Bera, and Dinesh Manocha. M3er: Multiplicative multimodal emotion recognition using facial, textual, and speech cues. In Proceedings of the Thirty-Fourth AAAI Conference on Artificial Intelligence, AAAI’20, pages 1359–1367. AAAI Press, 2020. 2, 3 [39] Trisha Mittal, Pooja Guhan, Uttaran Bhattacharya, Rohan Chandra, Aniket Bera, and Dinesh Manocha. Emoticon: Context-aware multimodal emotion recognition using frege’s principle. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), June 2020. 3 [40] Rameswar Panda and Amit K. Roy-Chowdhury. Collaborative summarization of topic-related videos. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), July 2017. 2, 6, 7 [41] Danila Potapov, Matthijs Douze, Zaid Harchaoui, and Cordelia Schmid. Category-specific video summarization. In David Fleet, Tomas Pajdla, Bernt Schiele, and Tinne Tuytelaars, editors, Computer Vision – ECCV 2014, pages 540–555, Cham, 2014. Springer International Publishing. 2, 6, 7 [42] Mrigank Rochan, Mahesh Kumar Krishna Reddy, Linwei Ye, and Yang Wang. Adaptive video highlight detection by learning from user history. In Proceedings of the European Conference on Computer Vision (ECCV), August 2020. 1, 2, 4, 6, 7 [43] Mrigank Rochan and Yang Wang. Video summarization by learning from unpaired data. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), June 2019. 2 [44] Mrigank Rochan, Linwei Ye, and Yang Wang. Video summarization using fully convolutional sequence networks. In Proceedings of the European Conference on Computer Vision (ECCV), September 2018. 1, 2, 6, 7 [45] A. Shahroudy, T. Ng, Y. Gong, and G. Wang. Deep multimodal feature analysis for action recognition in rgb+d videos. IEEE Transactions on Pattern Analysis and Machine Intelligence, 40(5):1045–1058, 2018. 3 [46] Yale Song, Jordi Vallmitjana, Amanda Stent, and Alejandro Jaimes. Tvsum: Summarizing web videos using titles. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2015. 2, 6, 7, 8 [47] Min Sun, Ali Farhadi, and Steve Seitz. Ranking domain specific highlights by analyzing edited videos. In European conference on computer vision, pages 787–802. Springer, 2014. 1, 2, 4, 6, 7, 8 [48] Zongheng Tang, Yue Liao, Si Liu, Guanbin Li, Xiaojie Jin, Hongxu Jiang, Qian Yu, and Dong Xu. Human-centric spatio-temporal video grounding with visual transformers. arXiv preprint arXiv:2011.05049, 2020. 2 [49] Ba Tu Truong and Svetha Venkatesh. Video abstraction: A systematic review and classification. ACM Trans. Multimedia Comput. Commun. Appl., 3(1):3–es, Feb. 2007. 2 [50] Paul Vicol, Makarand Tapaswi, Llu´ıs Castrej´on, and Sanja Fidler. Moviegraphs: Towards understanding human-centric situations from videos. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2018. 1, 2 [51] Xueyang Wang, Xiya Zhang, Yinheng Zhu, Yuchen Guo, Xiaoyun Yuan, Liuyu Xiang, Zerun Wang, Guiguang Ding, David Brady, Qionghai Dai, and Lu Fang. Panda: A gigapixel-level human-centric video dataset. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), June 2020. 2 [52] Zijun Wei, Boyu Wang, Minh Hoai Nguyen, Jianming Zhang, Zhe Lin, Xiaohui Shen, Radomir Mech, and Dimitris Samaras. Sequence-to-segment networks for segment detection. In S. Bengio, H. Wallach, H. Larochelle, K. Grauman, N. Cesa-Bianchi, and R. Garnett, editors, Advances in Neural Information Processing Systems, volume 31, pages 3507–3516. Curran Associates, Inc., 2018. 2, 6, 7 [53] Bo Xiong, Yannis Kalantidis, Deepti Ghadiyaram, and Kristen Grauman. Less is more: Learning highlight detection from video duration. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 1258–1267, 2019. 1, 2, 4, 6, 7 [54] Bo Xiong, Gunhee Kim, and Leonid Sigal. Storyline representation of egocentric videos with an applications to story-based search. In Proceedings of the IEEE International Conference on Computer Vision (ICCV), December 2015. 2 [55] Jia Xu, Lopamudra Mukherjee, Yin Li, Jamieson Warner, James M. Rehg, and Vikas Singh. Gaze-enabled egocentric video summarization via constrained submodular maximization. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2015. 2 [56] Sijie Yan, Yuanjun Xiong, and Dahua Lin. Spatial temporal graph convolutional networks for skeleton-based action recognition. In Sheila A. McIlraith and Kilian Q. Weinberger, editors, Proceedings of the Thirty-Second AAAI Conference on Artificial Intelligence, (AAAI-18), pages 7444–7452. AAAI Press, 2018. 2, 3, 4 [57] Huan Yang, Baoyuan Wang, Stephen Lin, David Wipf, Minyi Guo, and Baining Guo. Unsupervised extraction of video highlights via robust recurrent auto-encoders. In Proceedings of the IEEE International Conference on Computer Vision (ICCV), December 2015. 2, 6, 7 [58] Ting Yao, Tao Mei, and Yong Rui. Highlight detection with pairwise deep ranking for first-person video summarization. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 982–990, 2016. 2 [59] Minerva Yeung, Boon-Lock Yeo, and Bede Liu. Segmentation of video by clustering and graph analysis. Computer Vision and Image Understanding, 71(1):94 – 109, 1998. 2 [60] Youngjae Yu, Sangho Lee, Joonil Na, Jaeyun Kang, and Gunhee Kim. A deep ranking model for spatio-temporal highlight detection from a 360 video. pages 7525–7533, 2018. 2 [61] AmirAli Bagher Zadeh, Paul Pu Liang, Soujanya Poria, Erik Cambria, and Louis-Philippe Morency. Multimodal language analysis in the wild: Cmu-mosei dataset and interpretable dynamic fusion graph. In ACL (Volume 1: Long Papers), pages 2236–2246, 2018. 3 [62] Wenjun Zeng. Toward human-centric deep video understanding. APSIPA Transactions on Signal and Information Processing, 9:e1, 2020. 1 [63] Ke Zhang, Wei-Lun Chao, Fei Sha, and Kristen Grauman. Video summarization with long short-term memory. In Bastian Leibe, Jiri Matas, Nicu Sebe, and Max Welling, editors, Computer Vision – ECCV 2016, pages 766–782, Cham, 2016. Springer International Publishing. 1, 2, 6, 7 [64] Ke Zhang, Kristen Grauman, and Fei Sha. Retrospective encoders for video summarization. In Proceedings of the European Conference on Computer Vision (ECCV), September 2018. 1, 2 [65] Bin Zhao, Xuelong Li, and Xiaoqiang Lu. Hierarchical recurrent neural network for video summarization. In Proceedings of the 25th ACM International Conference on Multimedia, MM ’17, page 863–871, New York, NY, USA, 2017. Association for Computing Machinery. 2 [66] Bin Zhao and Eric P. Xing. Quasi real-time summarization for consumer videos. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2014. 2 [67] Kaiyang Zhou, Yu Qiao, and Tao Xiang. Deep reinforcement learning for unsupervised video summarization with diversity-representativeness reward. pages 7582–7589, 2018. 1, 2, 6, 7

用户评论

执拗旧人

这真是太棒了！人工智能技术的发展简直离谱！想象一下，以后不用手动剪辑就能生成流畅好看的短视频，效率也太高了！我迫不及待想试试Adobe的新方法！

有11位网友表示赞同！

柠夏初开

感觉这个ICCV上的科技更新很震撼！Adobe这次提出的短视频集锦自动生成新方法确实很牛，提高精度就意味着最终视频更符合人们的审美和预期！这对于内容创作者来说是一个很好的辅助工具！

有9位网友表示赞同！

还未走i

我一直在烦恼剪辑短视频的事情，时长短的话没几个亮点，太长了又容易让人失去耐心。Adobe这个新方法简直就是我的救星啊！准确度提升4%～12%，期待它能帮助我制作出更精彩的短视频！

有13位网友表示赞同！

微信名字

说实话，我对自动生成视频技术一直不太放心，总是担心结果不会理想，缺乏人性化表达。不过Adobe作为行业巨头，这次提出的方法还是让人比较期待，毕竟提升的精度可不是小事啊！

有14位网友表示赞同！

╭摇划花蜜的午后

4%～12%的精度提升听起来还不错，但实际应用效果怎样还没办法说吧！毕竟生成视频更重要的不是只是技术上的精度，还需要考虑到创意和情感表达。不过希望Adobe的新方法能突破这两点！

有13位网友表示赞同！

夏以乔木

我一直觉得短视频剪辑是门艺术，需要对内容的把握才能制作出好的效果。自动生成视频技术也许可以帮助提高效率，但它是否能替代人类的创意呢？这确实值得进一步探讨！

有11位网友表示赞同！

高冷低能儿

在人工智能领域的不断发展下，相信这类自动生成技术的应用场景将会越来越广泛。Adobe这一次提交的新方法在ICCV上引起热议，未来或许会带给我们更多惊喜！

有13位网友表示赞同！

玩味

对于很多时间紧迫的创作者来说，这个新方法确实非常实用。减少剪辑时间，又能提升视频质量，想想真是一个福音啊！希望能够早日普及，让每个人都能轻松制作出精彩的短视频！

有19位网友表示赞同！

歇火

4%～12%的精度提升对于专业级短视频制作可能意义不大，但我认为对于初学者来说，这款技术足够好用！毕竟学习剪辑技术需要时间和经验积累，一个好的工具能够帮助他们快速入门，从而更好地进行创作练习！

有11位网友表示赞同！

我家的爱豆是怪比i

ICCV上很多新科技都让人眼前一亮，Adobe的新方法只是其中之一。我相信未来人工智能将会在短视频制作领域发挥越来越重要的作用，让我们期待看到更出色的技术和创意！

有16位网友表示赞同！

余温散尽ぺ

这个新方法能不能真正实现高质量的自动生成，还需要更多实践和验证。毕竟视频内容千变万化，一个成熟的技术应该能够适应不同的风格和要求。希望Adobe能够继续完善这方面的工作，让它更有实际价值！

有5位网友表示赞同！

淡淡の清香

我很欣赏Adobe勇于探索人工智能技术应用在内容创作者领域的决心。我认为未来短视频将会更加个性化、智能化，而自动生成技术也将是推动这一发展的重要引擎！

有7位网友表示赞同！

花花世界总是那么虚伪﹌

对那些追求绝对原创性的视频创作者来说，这个新方法可能并非最佳选择。毕竟，一些艺术创作需要独特的灵感和情感投注，无法完全依靠机器完成。不过对于日常的短视频记录和分享，这个技术还是非常实用的！

有18位网友表示赞同！

一尾流莺

我猜想未来的短视频平台将会更加注重个性化的推荐和内容分类，而自动生成技术能够帮助平台更精准地理解用户需求，从而提升用户的观看体验。这听起来很有意思吧？

有13位网友表示赞同！

落花忆梦

ICCV上的科技革新让人热血沸腾！Adobe的新方法让我看到了未来短视频创作的多元化发展趋势。也许有一天，我们可以用简单的指令就能生成出个性化的视频作品！

有12位网友表示赞同！

珠穆郎马疯@

对专业剪辑师来说，这个新方法或许会带来一些挑战？毕竟技术的发展可能会改变工作流程和技能要求。但是同时，它也为他们提供了新的工具和可能性，让他们更有效率地完成创作任务！

有8位网友表示赞同！

伪心

我期待看到Adobe继续在这个领域研发更加先进的技术，让自动生成短视频的精度更高、创意更丰富，最终成为内容生产者不可或缺的一部分！

有6位网友表示赞同！

墨城烟柳

AI技术的不断发展给各个行业带来了新的机遇，短视频创作也不例外。希望这个新方法能够真正帮助人们更好地表达自己，分享生活中的精彩瞬间！

有18位网友表示赞同！

热点资讯