想不到快手短视频体验:深度学习等更加高效的方法

除了各种特效,快手短视频还在推荐、直播视频分发、视频码率调整等方面探索基于ML的新方法。他们希望通过更强大、更智能的深度模型来优化传统的视频处理流。三项研究均已被 ACM MM 2019 录用。本文将带您完成这三项前沿探索。

你知道有多少机器学习模型在打开手机看短视频的过程中进行了优化吗?点击APP后,我们想看最有趣的视频。观看视频时,我们想要最流畅、最清晰的体验。在参与直播时,我们希望有更流畅、更少卡顿的视频体验。

所有这些都可以在机器学习方法的帮助下进一步优化。通过海量数据,这些模型可以了解用户对什么样的短视频感兴趣,以及为什么感兴趣;学习如何调用CDN提供商更高效地分发视频,从而提供更流畅的直播体验;学习 规划更接近人的主观评价更好的视频流,使在线播放更清晰流畅。

这些方法可能不像 BERT 或 BigGAN 那样有名,但重要的是这些方法可以创造很多真正的价值,它们可以在各个方面降低成本,提高观看体验。

本文将介绍快手等研究人员在这个方向上的探索。他们使用深度学习等更高效的方法来重构经典媒体任务,大大提高了这些任务的性能和效率。

ACM MM中的快手

ACM MM是计算机图形学和多媒体领域的顶级会议,于今年当地时间10月21日在法国开幕。据官网统计,今年ACM MM共吸引936篇论文在多媒体体验、系统、集成等六个子领域投递,共接收论文248​​篇,接收率约2< @6.5%。

快手还有三项研究被接受为会议论文。他们从视频推荐、内容分发优化、视频码率优化三个方面探索提升快手视频体验的新方案。

论文:Explainable Interaction-driven User Modeling over Knowledge Graph for Sequential Recommendation 论文地址:

论文:Livesmart:众包直播流媒体观看者调度的 QoS 保证成本最低框架论文地址:

论文: Comyco: Quality-aware Adaptive Video Streaming via Imitation Learning 论文地址:

EIUM:关注根的快手短视频推荐

短视频推荐是一个序列推荐系统,专门分析用户的历史行为序列,满足用户当前的需求。因为我们的兴趣会随着时间而变化,所以顺序推荐模型需要捕捉到这个动态过程并给出合理的解释,这样推荐的视频才是我们想看的。

请注意,上面有两个重点,即用户的动态兴趣转移和可解释的推荐。动态兴趣转移很好理解,通用的 Transformer 序列模型可以捕捉到这个变化过程。但什么是可解释性,为什么推荐视频具有可解释性属性?首先,如果我们知道用户选择视频的原因,可以基于额外的知识图谱推荐更准确的视频;其次,可解释性也可以让用户理解系统为什么推荐某个视频,这样更可信。

用户与短视频的互动通常可以归结为多种原因。比如下图,用户点赞视频m_5,可能是因为导演、演员或者续集。其中,用户到m_5的每条路径代表一个高级语义信息,例如最右边的表示视频m_3之前已经关注过,m_5是它的sequel,所以用户也会对它感兴趣。如果每条路径都有一个分数,模型就可以知道用户选择某个视频的最大原因是什么。

一个用户视频交互的例子,它显示了推荐系统中用户和视频之间的语义路径的重要性。

基于知识图谱的可解释推荐系统

可解释性的重要性已在上文中说明。尽管当前基于自注意力的方法已经达到了很高的准确性,但它们忽略了考虑推荐系统的可解释性。针对上述挑战,快手研究人员提出了一种基于交互驱动的知识图谱的可解释用户建模和序列推荐方法(EIUM),在序列推荐系统中引入语义路径来捕捉用户动态偏好,并提供准确的可解释性推荐。

EIUM 算法可以在交互级别捕获用户动态兴趣,这是一种包含丰富语义信息的高级表示。该算法采用联合学习的方法,通过在知识图谱中引入文本、图像特征和结构特征,构建多模态融合模型。当然,这些多模态特征都需要满足知识图谱中实体和关系的结构信息约束,都统一在知识图谱的框架下。

下面是EIUM算法的结构图,主要由多模态融合模块、交互表征模块、序列交互建模模块组成。

多模态融合模块:结合知识图谱的结构化信息,对用户和物品实现更好的高层表示学习,从而通过联合学习构建更好的推荐系统。交互表示模块:它通过编码一组用户和项目之间对应的语义路径来学习用户-项目交互的语义表示。序列交互建模:它对每个“用户-项目”交互进行顺序编码,并期望捕捉用户兴趣的动态变化。

EIUM究竟是如何提出建议的

如上图算法结构图所示,EIUM首先需要经过一个端到端的训练过程。它将用户观看的短视频序列作为训练集,分别计算用户和历史视频之间的语义路径。这样就可以得到用户与对应视频的交互表示p_emb,相当于编码了用户选择视频的原因。

因为不同时期选择短视频的原因不同计算机图形学有必要学吗,编码后的交互表示p_emb需要建立动态交互行为,可以交给self-attention模块的序列模型。此外,该用户与视频的交互可以被视为指示其可能行为的用户偏好。根据偏好预测的视频可以与带注释的短视频进行比较,以进一步指导模型更新权重。

模型完成训练后,我们可以看到它是如何提出建议的。首先,快手会有一个图网络,包括用户的各种属性,视频,视频,以及用户的各种属性。通过对用户的短视频观看序列进行建模,模型可以建立用户的视频偏好表示,如上图中的B_emb。借助视频偏好表示,该模型可以匹配候选短视频并给出推荐选项。

此外,值得注意的是,与一般推荐系统相比,EIUM 可以将注意力分数可视化,确定用户历史行为与语义路径之间的相关性,并在推荐过程中为用户解释“为什么推荐这个视频”。呈现过程。

以上是快手与中科院自动化所徐长生研究员团队合作的成果。

更清晰流畅的快手直播

Comyco:基于质量意识的比特率自适应策略

清晰流畅的视频体验是快手影音团队追求的目标。在实际系统中,视频内容的差异性和用户网络的多样性给视频体验的优化带来了很大的挑战。多速率策略是解决这个问题的常用方法,即将不同质量版本的内容分发给不同网络的用户。这种类型的方案称为自适应多速率或 ABR。

传统的ABR一般是根据码率来选择的,即通过实时网速,综合考虑缓存、用户设备等特点,为用户选择最佳的视频码率档位。但视频质量和视频码率并不是简单的线性关系,它们之间存在复杂的RD曲线,不同视频的RD特性也不同。仅仅依靠比特率调整很可能会造成浪费或不必要的播放卡顿。

基于这些考虑,快手与清华大学孙立峰团队共同提出了Comyco,它充分考虑了网络、视频质量和码率的特点,实现了质量感知的ABR。同时,Comyco采用模仿学习来优化模型的架构,大大提高了效率。

实验表明,Comyco 需要采集的样本数量比原方案减少了 1700 倍,训练时间减少了 16 倍。此外,Comyco 显着优于先前提出的方法,平均 QoE 提高 7.5%-1<@6.79%。尤其是在相同的缓冲时间下,Comyco 的平均视频质量相比之前的经典 ABR 策略 Pensive 提升了 7.37%。

Comyco 的基本系统工作流程如下图所示,主要由待训练的神经网络、ABR 虚拟玩家、即时定居者和体验回放缓冲区组成。研究人员在第 4 章详细介绍了 Comyco 的各个模块和训练过程,读者可以参考原论文了解更多详情。

与之前的工作不同,Comyco 旨在选择具有更高感知质量的视频块,而不是更高的视频比特率块。而且计算机图形学有必要学吗,在训练过程中,Comyco创新地通过模仿即时求解器给出的专家轨迹来训练策略,既避免了重复探索,又能更好地利用采集到的样本。

具体来说,Comyco会及时求解当前探索状态下的最优策略,加入经验回放池,在训练过程中边采样边优化神经网络。至此,Comyco 具备了快速生成策略的能力。

Comyco 的基本系统工作流程。

Comyco 的神经网络架构概述,它使用门控循环单元来链接过去的网络特征、视频内容特征和视频播放特征,并预测下一个视频块的比特率。

Livesmart:智能 CDN 调度

在快手,主机将视频流通过快手私有传输协议KTP传输到快手自建源站,CDN厂商到快手源站将视频流取回源站分发给最终用户,如下图所示。

快手分发框架

快手Origin通过控制各个CDN的流量比例,实现了质量和成本的最佳折衷。但是,快手的体量巨大,需要同时使用多个CDN。每个CDN的质量和价格参差不齐,经常会出现一些不可预知的突发事件。因此,人工调度显然是不能接受的。.

对于经典的 CDN 调度策略,极大地简化了 CDN 和用户的动态,无法适应各种场景。为了解决这个问题,快手和清华大学孙立峰团队联合提出了Livesmart,可以准确捕捉CDN和用户的动态变化,从而更合理地利用CDN资源,大大降低成本。

研究人员对真实的直播数据集进行了定量和定性实验,结果表明 Livesmart 明显优于传统方法。它不仅可以提供更流畅、更稳定的视频流,还可以大大降低成本。具体来说,Livesmart 显着降低了 CDN 带宽成本(24.97%-63.45%)并提高了平均服务质量(5.79%-7.63%)。

Livesmart 的基本系统工作流程。

总体而言,Livesmart 由三个模块组成,分别是描绘直播用户流量动态的流量预测模块、描绘 QoS 动态的 QoS 预测模块和确定下一时刻每个 CDN 流量比例的策略模块.

流量预测模块:我们首先提出了一个用户动态迁移模型来区分不定时用户(也称为留存用户)。其次,他们使用神经网络来预测新用户的产生。这样,模型就可以准确地描述未来全网的用户数量。QoS 预测模块:研究人员使用神经网络对 CDN 的动态进行建模。利用神经网络出色的状态表示能力,该模型可以准确预测每个 CDN 在不同负载输入下的未来性能。策略模块:研究人员使用基于模型预测控制的算法进行在线求解。

最后,这三项研究都在探索多媒体更广泛的可能性,虽然短视频处理只是其中的一部分,但它确实代表了一种研究趋势。或许未来我们看看快手或者其他多媒体平台,背后会有更多的机器学习技术,我们也可以有更完美的视听享受。

© 版权声明
THE END
喜欢就支持一下吧
点赞0
分享
评论 抢沙发

请登录后发表评论