重复视频检测的价值和常见方法


=Start=

缘由:

前段时间在处理一个case时遇到了相关的问题,比较感兴趣视频查重/查首发后面涉及的意义和原理,方便后面有需要的时候参考。

正文:

参考解答:

随着用户使用习惯的改变和网络环境的改善,短视频越来越受到大家的喜爱。对于观众来说,良好的观看体验与视频内容有着很大的关系。当前,全网范围内的主要精品视频主要来自MCN机构,一些公司为了更快更好地去覆盖全网内容,会选择和内容代理合作,而代理手上会有很多重复版权的内容,导致重复内容出现。另外,搬运视频也会导致重复内容出现,这些重复内容会造成极差的用户体验。再者,大量内容相似的视频对于短视频平台存储、网络带宽等资源也是一个极大的挑战,为了不必要的资源浪费,对视频内容进行去重是非常有必要的。

重复视频检测的价值在哪?

  • 合规风险规避和处理
  • 版权风险规避和处理
  • 原创保护
  • 提升用户体验
  • 优化数据和算法

合规安全——当某个视频被定义成敏感内容不宜传播时,你们平台是否有能力快速找出当前平台内有多少和这个视频相同/相似的视频,并进行快速批量删除/屏蔽处理,如果检测和处理不及时,平台是有合规风险的,严重的还可能出现app下架处理、平台关闭的情况

版权风险——比如电影电视剧一般都是有版权的,里面的内容如果不是版权方自己发布的,而是由其它人发布的,则可能产生版权纠纷,平台也可能会被追责

原创保护——对于平台来说,高创新度的素材具有极高的价值,能够显著的提高用户在平台的活跃,而创作者也会从平台给予的流量获得激励,进一步提高创作者的创作激情。原创内容可以帮助平台吸引更多的用户加入,扩大用户群体和市场份额,增加平台的活跃度和影响力,进而带来更多的商业价值和合作机会。如果平台没有很好的原创保护能力(重复视频检测能力是其中一个重点和基础),则会破坏用户体验,降低优秀创作者的激情

提升用户体验——当用户点开app时如果给他推送的都是大量低质、重复类型的视频,非常影响用户体验,会降低用户活跃度和对平台的信任度。

优化数据和算法——对于一个总是发布搬运视频的账号来说,平台是可以给他打上搬运标签的,还有就是重复视频的存在会干扰短视频平台的推荐算法,导致推荐结果不准确或重复。通过检测和过滤重复视频,可以提高推荐算法的效果,为用户提供更加个性化和有价值的推荐内容。

重复视频检测的方法

一开始我能简单想到的检测重复视频的方法和原理:

  • 查找重复文件(文件大小一致、md5相同)
  • 对视频进行抽帧,然后比对关键帧的图片指纹是否一致

后来搜了一下,了解到的检测重复视频的方法:

视频基础信息
* 文件大小
* 文件哈希值
* 标题、标签、封面、描述、时长、尺寸、分辨率、bgm等信息
* 水印
视频内容信息
* 视频格式、编码方式
* 分辨率、帧数
* 关键帧提取
* 帧间差异
* ...

question:
请详细列出多种查找重复视频或内容高度相似视频的一些思路和方法

answer:
要查找重复视频或内容高度相似的视频,可以尝试以下几种思路和方法:

  1. 基于哈希值的比对:使用哈希算法(如MD5、SHA-1、Perceptual Hash等)对视频进行哈希计算,然后比对哈希值,相同或相似的哈希值可能表示相似的视频。
  2. 视频指纹技术:视频指纹是一种能够唯一标识视频内容的特征码。通过提取视频的关键帧、颜色直方图、运动向量等特征,生成视频指纹,然后比对视频指纹来判断相似度。
  3. 基于帧间差异的比对:将视频分解成一系列帧,通过比较帧之间的差异来判断视频的相似度。可以使用图像处理算法(如结构相似性(SSIM)、均方差(MSE)等)来计算帧之间的相似度。
  4. 基于机器学习的方法:使用机器学习算法训练模型来识别相似的视频。可以使用深度学习模型(如卷积神经网络)对视频进行特征提取,然后比对特征向量来判断相似度。
  5. 利用第三方工具和平台:有一些专门用于查找相似视频的第三方工具和平台,如YouTube的Content ID系统、Google的Image Search、TinEye等。这些工具和平台可以通过图像或视频的特征来搜索相似的内容。
  6. 手动比对:如果你只有少量视频文件需要比对,你可以手动观看和比较这些视频文件,寻找相似的内容或重复的片段。这可能是一项耗时的任务,但对于小规模的比对工作来说是可行的。

无论使用哪种方法,需要注意以下几点:

  • 视频预处理:对于大型视频库或较长的视频,可能需要进行预处理,如分割视频、提取关键帧等,以便更高效地进行比对。
  • 算法选择:不同的算法适用于不同的场景和需求,需要根据具体情况选择合适的算法或方法。
  • 数据库管理:如果需要对大规模视频库进行比对,需要建立适当的数据库管理系统,以便存储和索引视频数据。
  • 版权和隐私考虑:在进行视频比对时,需要遵守相关的版权和隐私法律法规,确保合法使用视频数据。

请注意,上述方法仅提供了一些常见的思路和方法,具体的实施需要根据实际情况进行调整和选择


什么是视频查重?

视频查重,顾名思义,是一种技术手段,旨在防止相同或类似的视频在在线视频平台上被重复上传,从而提高版权保护和内容安全性。视频去重的主要目的是检测视频内容的相似度,确定视频是否与平台上已有的其他视频重复或近似重复,进而加以删除或屏蔽。

视频查重通常使用图像识别技术和音频识别技术,通过提取视频中的图像帧和音频信息,将其转化为数字特征进行比较,从而确定视频之间的相似度。一些在线视频平台,如YouTube和TikTok等,采用了自己的视频去重算法和技术,以确保平台上的内容符合版权要求和社区准则。

常见的视频查重手段主要包括以下几种:

  1. 基于内容相似度的查重算法:这种算法通过计算视频内容的特征码,来判断视频之间的相似度。当两个视频的特征码相似度超过一定阈值时,就会被判断为重复视频。
  2. 基于帧差异的查重算法:这种算法通过比较视频帧之间的差异,来判断视频之间的相似度。当两个视频的帧差异超过一定阈值时,就会被判断为重复视频。
  3. 基于音频指纹的查重算法:这种算法通过计算视频中音频的指纹信息,来判断视频之间的相似度。当两个视频的音频指纹相似度超过一定阈值时,就会被判断为重复视频。
  4. 基于视频元数据的查重算法:这种算法通过比较视频的元数据信息,如文件大小、创建时间、修改时间等,来判断视频之间的相似度。当两个视频的元数据相似度超过一定阈值时,就会被判断为重复视频等

这里需要强调的是,目前大部分的平台不在采用单一算法来进行判断,都是组合形式或者其他的模型,这里只是列举一些相对常见的算法。

常见的去重方法

针对视频查重有以下一些方法可以对视频进行处理,从而避免被查重:

  1. 修改视频尺寸和分辨率:通过改变视频的尺寸和分辨率,可以使视频与原始视频看起来不同,从而干扰查重算法的判断。
  2. 更改视频格式和编码方式:视频的格式和编码方式会影响视频的文件大小和质量,更改视频格式和编码方式可以使视频的特征码发生变化,从而干扰查重算法的判断。
  3. 添加或修改视频音频:通过添加或修改视频音频,可以改变视频的特征码,从而使视频与原始视频不同。
  4. 对视频进行水印处理:通过对视频添加水印,可以使视频的特征码发生变化,从而干扰查重算法的判断。
  5. 对视频进行裁剪或剪辑:通过对视频进行裁剪或剪辑,可以使视频的部分内容被删除或修改,从而干扰查重算法的判断
  6. 重新生成字幕或者配音解说
  7. 添加额外的贴纸和文字等等

需要注意的是,不同的平台可能采用不同的查重算法,因此不能简单地采用一种方法来规避查重。此外,查重算法也在不断的升级和改进,因此规避查重并不是一件容易的事情。如果要在网络上发布视频,建议尽量使用自己的原创内容,避免使用他人的视频、音频、图片等素材,以确保视频不会被判定为重复视频


重复视频检测方法和系统

背景技术

在视频搜索领域,需要处理海量的、来自不同提供方的视频源,它们中间存在着大量的重复视频,尤其是一些热门视频。这样会严重影响搜索和视频推荐结果的质量,导致用户体验的下降。所以如何去除具有相同内容的视频,成为视频搜索中必须要解决的问题。而视频相似度分析在视频去重、视频分类等技术中处于一个核心的步骤和重要的地位。

现有技术中视频去重的计算最普遍的是以两个视频的md5是否相同作判断为两个视频是否为同一视频的依据,该方法认为拥有同一个md5值的视频是同一个视频,但是视频只要经过转码、添加字幕、修改一些基本属性、再传递等操作md5值就会发生变化,所以这种方法只适用两个完全相同的视频文件相比较,并且对于较大的视频进行md5值计算会消耗大量的时间。

另一种方式是使用字幕、时长、文件名等多种视频特征进行余弦相似度这样的距离计算求解两个视频的相似程度,但这样的计算方式误差很大,这些特征都不是很稳定,很容易被修改。

发明内容

本发明的实施方式提供一种重复视频检测方法及系统,用于解决现有技术中不能准确确定重复视频的技术问题。

根据本发明的一个方面,提供了一种重复视频检测方法,包括:

  • 采集所有待检测视频的关键帧和与所述关键帧相对应的邻近帧,并确定高斯融合图像;
  • 确定所述高斯融合图像的特征子的描述子;
  • 选举不同视频之间的描述子相近的匹配特征子;
  • 对所述匹配特征子所对应的高斯融合图像进行余弦相似度判断,得到所述不同视频之间的相似度;
  • 根据所述不同视频之间的相似度与预设阈值之间的大小判断视频是否重复。
参考链接:

视频去重的定义、识别方法和操作建议-2023版
https://zhuanlan.zhihu.com/p/659975945

短视频查重机制及去重方法
https://zhuanlan.zhihu.com/p/144004218

什么是视频去重?去重的方法有哪些?是否有效?
https://zhuanlan.zhihu.com/p/607164370

重复视频检测方法和系统
https://patents.google.com/patent/CN105893405A/zh

一种重复视频的判断方法及装置 #申请日为2018年3月29日
https://patents.google.com/patent/WO2019184522A1/zh

视频重复度获取方法、电子设备及存储介质
https://patents.google.com/patent/CN112653885B/zh

一种基于特征帧的重复视频检测方法
https://patents.google.com/patent/CN112528856B/zh

=END=


发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注