1.本发明涉及语音分析领域,涉及一种视频剪辑方法、装置、计算机设备及存储介质

1.本发明涉及语音分析领域,尤其涉及一种视频编辑方法、装置、计算机设备和存储介质。

背景技术:

2.近年来,随着我国互联网的快速发展,越来越多的企业和个人利用短视频、直播等视频媒体进行信息传播。通常直播结束后,部分用户需要对直播视频进行编辑,生成目标视频。现有的直播视频剪辑一般是通过场景识别或画面识别的方式对直播视频进行剪辑,将直播视频剪辑成短视频发布,没有对原直播视频的内容进行任何处理,不能满足直播的需要。目标视频的不同用户。需要。

技术实施要素:

3.基于此,有必要针对上述技术问题提供一种视频编辑方法、装置、计算机设备和存储介质,以解决现有技术对视频不做任何处理的问题。原始直播视频的内容,无法满足不同用户的需求。目标视频的需求问题。

4.一种视频编辑方法,包括:

5.获取要编辑的视频;

6. 从要编辑的视频中提取目标音频流和目标视频流;

7. 对目标音频流进行语音识别,得到目标音频流对应的文本文本以及该文本文本在目标音频流中的出现时间;根据文本文本和出现时间时间生成字幕文件;

8. 将字幕文件输入到内容理解模型中,通过内容理解模型对字幕文件进行场景关键词和语气分析,得到场景数据;

9. 根据场景数据渲染目标视频流,得到渲染后的视频流;根据渲染后的视频流和目标音频流生成包含场景特效的目标视频。

10.一种视频编辑装置,包括:

11.待剪辑视频模块,用于获取待剪辑视频;

12.目标数据模块,用于从所述待编辑视频中提取目标音频流和目标视频流;

13.字幕文件模块,用于对所述目标音频流进行语音识别,获取所述目标音频流对应的文本文本以及所述文本文本在所述目标音频流中的出现时间;通过描述文本的文本和出现的时间生成字幕文件;

14.场景数据模块,用于输入所述字幕文件的内容理解模型,通过所述内容理解模型对所述字幕文件进行场景关键词和语气分析,得到场景数据;

15.目标视频模块,用于根据场景数据渲染目标视频流,得到渲染后的视频流;根据渲染的视频流和目标音频流,生成目标视频。

16.一种计算机设备,包括存储器、处理器和

处理器上运行计算机可读指令,当处理器执行计算机可读指令时,实现上述视频编辑方法。

17.一个或多个存储计算机可读指令的可读存储介质,当由一个或多个处理器执行时,使一个或多个处理器执行上述操作。视频编辑方法。

18.上述视频编辑方法、装置、计算机设备和存储介质,通过获取待编辑视频;从待编辑的视频中提取目标音频流和目标视频流;对目标音频流进行语音识别,获取目标音频流对应的文本文本以及该文本文本在目标音频流中的出现时间;根据文本文本和出现时间生成字幕文件;将字幕文件输入内容理解模型,通过内容理解模型对字幕文件进行场景关键词和语气分析,得到场景数据;根据场景数据渲染目标视频流,得到渲染视频流;并根据渲染的视频流和目标音频流生成包含场景特效的目标视频。本发明从待编辑视频中获取目标音频流和目标视频流,去除待编辑视频中的杂质,可以快速获取视频的目标内容,提高语音识别的准确性和用户同时可以提升体验。根据场景数据渲染目标视频流。场景数据兼顾关键词和色调,使渲染更准确地满足用户需求,进一步提升用户体验。去除待编辑视频中的杂质,从而快速获取视频的目标内容,同时提高语音识别的准确性和用户体验。根据场景数据渲染目标视频流。场景数据兼顾关键词和色调,使渲染更准确地满足用户需求,进一步提升用户体验。去除待编辑视频中的杂质,从而快速获取视频的目标内容,同时提高语音识别的准确性和用户体验。根据场景数据渲染目标视频流。场景数据兼顾关键词和色调,使渲染更准确地满足用户需求,进一步提升用户体验。

图纸说明

19.为了更清楚地说明本发明实施例的技术方案,下面简要介绍用于说明本发明实施例的附图。显然,以下描述中的附图仅为本发明的部分实施例而已,对于本领域的普通技术人员来说,在没有创造性劳动前提下,还可以基于这些附图获得其他的附图。

20. 图。附图说明图1是本发明实施例的视频编辑方法的应用环境示意图;

21. 图。图2为本发明实施例的视频编辑方法的流程示意图;

22. 图。图3为本发明实施例的视频编辑装置的结构示意图;

23. 图。图4为本发明一实施例的计算机装置的示意图。

详细方法

24.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述。显然,所描述的实施例是本发明实施例的一部分,而不是全部的示例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

25. 本实施例提供的视频编辑方法可以应用在如图2所示的应用环境中。如图1所示,用户端与服务器端进行通信。其中,用户终端包括但不限于各种个人电脑、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务器可以由一个独立的服务器来实现,也可以由多台服务器组成的服务器集群来实现。

26. 在一个实施例中,如图2所示。参照图2,提供了一种视频编辑方法,该方法应用于图1的服务器中。1为例进行说明,包括以下步骤:

27.s10、获取要编辑的视频。

28.可以理解,待编辑视频是指待处理的视频。通常直播结束后,部分用户需要对直播视频进行编辑,生成目标视频。待编辑的视频可以是用户终端输入的录制直播视频

频率。

29.s20、 从待编辑的视频中提取目标音频流和目标视频流。

30.可以理解,目标音频流是指对待编辑视频中的原始音频流进行去除杂质和修剪得到的目标音频数据。目标视频流是指对待编辑视频中的原始视频流进行裁剪后得到的目标视频流。具体地,通过视频分割技术,从待编辑的视频中分割出原始音频流和原始视频流,并对原始音频流进行除杂处理,得到人声音频流。进一步的,将人声音频流输入到录词识别模型中,通过录词识别模型对人声音频流中的录词进行识别,生成人声音频流的录音数据。更远,

31.s30、对目标音频流进行语音识别,得到目标音频流对应的文本文本以及该文本文本在目标音频流中的出现时间;根据描述文本和出现时间生成字幕文件。

32.可以理解,语音识别是指通过语音识别模型识别目标音频流中的语音,并将语音转换为文本的过程。文本文本是指将目标音频流中的语音转换为文本得到的文本。出现时间是指文本文本对应的语音出现在目标音频流时间线上的时间段,将该时间段记录为文本文本在目标音频流中出现的时间。字幕文件是指将若干个文本文本按照文本文本出现时间的时间顺序排序得到的文本。优选地,语音识别模型可以是asrt(Auto Speech Recognition Tool,自动语音识别工具)语音识别模型。

33.s40、将字幕文件输入内容理解模型,通过内容理解模型对字幕文件进行场景关键词和语气分析,得到场景数据。

34.可以理解,内容理解模型是指一种神经网络模型,用于识别和定位字幕文件中的场景关键词,并根据场景关键词分析和语气分析得到场景数据。优选地,内容理解模型可以是基于ure预训练模型框架的gpt-chinese(中文语言模型)。其中,gpt是一种半监督学习方法,致力于利用大量未标注数据让模型学习“常识”,缓解标注信息不足的问题。内容理解模型包括场景关键词识别算法和语气分析算法。场景数据包括场景内容、场景时间和场景内容对应的音调标识符。具体来说,通过内容理解模型中的场景关键词识别算法对字幕文件进行场景关键词识别,得到场景内容和场景内容对应的场景时间。并通过内容理解模型中的语气分析算法,对场景内容进行语境语气分析,得到场景内容的语气类型。进一步地,为场景内容生成与音调类型对应的音调标识符。最后根据场景内容、场景时间和场景内容对应的音调标识生成场景数据。场景关键字是指与场景相关的关键字。例如,场景关键词可以是“重要”、“产品”、“焦点”等。场景时间是指场景内容出现的时间。例如,字幕文件包含“今天我将重点介绍长期人寿保险产品金瑞人寿”。当通过场景关键词识别算法将“key”一词识别为场景关键词时,可以将“我要专注于长期寿险产品金瑞人寿”这句话标记为场景内容,以及字幕文件中的句子被记录为场景时间。

35.s50、 根据场景数据,对目标视频流进行渲染,得到渲染后的视频流;根据渲染的视频流和目标音频流,得到目标视频。

36.可以理解的是,场景数据包括场景内容、场景时间和场景内容对应的音调标识。渲染视频流是指根据场景数据渲染目标视频流后得到的视频流。其中,渲染是指通过字幕高亮、关键词花字显示、弹幕插入等场景特效对视频流进行处理。场景效果是用来突出场景内容的手段。目标视频是指将渲染后的视频流和目标音频流合成后得到的视频数据。具体的,获取场景数据对应的场景特效,获取场景数据中的场景时间,根据场景时间查询目标视频流中场景时间对应的视频帧。进一步的,在场景时间对应的视频帧中加入场景特效,得到渲染后的视频流。得到渲染视频流后输入关键词生成一段话的软件,将渲染视频流与目标音频流合成,得到目标视频。

37.步骤s10-s50,通过获取待编辑的视频;从待编辑视频中提取目标音频流和目标视频流;对目标音频流进行语音识别,得到与目标音频流相同的音频。该流对应的文本文本以及该文本文本在目标音频流中的出现时间;根据文本文本和出现时间生成字幕文件;将字幕文件输入到内容理解模型中,通过内容理解模型。对字幕文件进行场景关键词和色调分析,得到场景数据;根据场景数据渲染目标视频流,得到渲染视频流;并根据渲染的视频流和目标音频流,生成带有场景效果的目标视频。本发明从待编辑视频中获取目标音频流和目标视频流,去除待编辑视频中的杂质,提高语音识别的准确率,快速获取视频的目标内容,提升用户体验. 根据场景数据渲染目标视频流。场景数据兼顾关键词和色调,使渲染更准确地满足用户需求,进一步提升用户体验。使用本发明,通过识别场景内容并自动添加场景特效,可以对视频进行批量处理,提高用户体验。本发明从待编辑视频中获取目标音频流和目标视频流,去除待编辑视频中的杂质,提高语音识别的准确率,快速获取视频的目标内容,提升用户体验. 根据场景数据渲染目标视频流。场景数据兼顾关键词和色调,使渲染更准确地满足用户需求,进一步提升用户体验。使用本发明,通过识别场景内容并自动添加场景特效,可以对视频进行批量处理,提高用户体验。本发明从待编辑视频中获取目标音频流和目标视频流,去除待编辑视频中的杂质,提高语音识别的准确率,快速获取视频的目标内容,提升用户体验. 根据场景数据渲染目标视频流。场景数据兼顾关键词和色调,使渲染更准确地满足用户需求,进一步提升用户体验。使用本发明,通过识别场景内容并自动添加场景特效,可以对视频进行批量处理,提高用户体验。快速获取视频的目标内容,提升用户体验。根据场景数据渲染目标视频流。场景数据兼顾关键词和色调,使渲染更准确地满足用户需求,进一步提升用户体验。使用本发明,通过识别场景内容并自动添加场景特效,可以对视频进行批量处理,提高用户体验。快速获取视频的目标内容,提升用户体验。根据场景数据渲染目标视频流。场景数据兼顾关键词和色调,使渲染更准确地满足用户需求,进一步提升用户体验。使用本发明,通过识别场景内容并自动添加场景特效,可以对视频进行批量处理,提高用户体验。

38. 可选的,步骤s20,即从待编辑视频中提取目标音频流和目标视频流,包括:

39.s201、通过视频分割技术从待编辑视频中分离出原始音频流和原始视频流;

40.s202、对原始音频流进行去污处理,得到人声音频流;

41.s203、将人声音频流输入录词识别模型,通过录词识别模型识别人声音频流中的录词,生成人声音频流。音频流的录制数据;

42.s204、根据录制数据,对原始音频流和原始视频流进行裁剪,得到目标音频流和目标视频流。

43.可以理解的是,视频分割技术是将用户端输入的待编辑视频分成图像和音频两部分,将图像部分作为视频流和音频部分的技术作为频率流。原始音频流是指从待编辑的视频中分离出来的未经处理的音频数据。原始视频流是指从待编辑的视频中分离出来的未经处理的视频数据。去噪处理是指利用人声识别模型从原始音频流中去除噪声和噪声的过程。去杂过程具体包括将原始音频流输入到人声识别模型中,通过人声识别模型识别原始音频流中的人声,从原始音频流中提取识别出的人声,得到人声音频流。的过程。人声音频流是指仅包含人声的音频数据。录音词识别模型是指用于识别人声音频流中的录音词的模型。录制词是指视频录制过程中的起始词、暂停词、结束词等用于录制的特殊场景词。例如,“开始录音”、“棋盘”等。录音数据包括录音词识别模型识别的录音词和录音词对应的录音词的出现时间。

44. 优选地,根据录音词出现的时间对原始音频流和原始视频流进行修剪输入关键词生成一段话的软件,包括:在原始音频流中剪裁出录音词出现时间对应的音频数据。得到目标音频流,并在原始视频流中截取与录制词出现时间对应的视频数据,得到目标视频流。

45. 优选地,根据所述记录词的出现时间对所述原始音频流和所述原始视频流进行修剪,还包括:当所述记录词为起始词时,获取所述记录词的起始词出现时间。起始词,然后在原始音频流中切出起始词出现时间对应的音频数据和起始词出现时间之前的音频数据,得到目标音频流。从原始视频流中截取起始词出现时间对应的视频数据和起始词出现时间之前的视频数据,得到目标视频流。当记录词为结束词时,获取结束词的结束词出现时间,将结束词出现时间对应的音频数据和结束词出现时间之后的音频数据剪切到原始音频流中,得到目标音频流。从原始视频流中截取结束词出现时间对应的视频数据和结束词出现时间之后的视频数据,得到目标视频流。该方案可以通过去除原始音频流中的杂质来提高语音识别的准确性。对原始音频流和原始视频流进行裁剪,得到目标音频流和目标视频流,可以快速获取视频的目标内容,提升用户体验。

46.步骤s201-s204,通过视频分割技术,将原始音频流和原始视频流从待编辑的视频中分离出来;对原始音频流进行除杂处理,得到语音音频。溪流; 将语音音频流输入录词识别模型,通过录词识别模型识别语音音频流中的录词,生成语音音频流的录词数据;根据录音数据对原始音频流和原始视频流进行修剪,得到目标音频流和目标视频流。本发明通过对原始音频流进行去杂处理,可以提高语音识别的准确度。

47. 可选地,步骤s202,即将原始音频流进行去杂质处理,得到人声音频流,包括:

48.s2021、将原始音频流输入到人声识别模型中;

49.s2022、通过语音识别模型对原始音频流进行人声识别,从原始音频流中提取识别出的人声,得到旁白的语音音频流。

50.可以理解,人声识别模型是指用于识别原始音频流中的人声的模型。其中,人声是指人发出的声音。优选地,人声识别模型可以是基于tensorflowlite(tensorflow lite)框架和Mel倒谱算法的神经网络模型。其中,tensorflowlite框架具有体积小的特点。在保证精度的同时,框架的大小只有 300kb 左右,压缩后的模型是 tensorflow 模型的四分之一。人声识别是指通过人声识别模型识别原始音频流中的人声,并将其从原始音频流中提取出来,得到人声音频流的过程。人声音频流是指仅包含人声的音频数据。该方案可以通过去除原始音频流中的杂质来提高语音识别的准确性。

51. 可选的,在步骤s40中,将字幕文件输入到内容理解模型中,通过内容理解模型对字幕文件进行场景关键词和色调分析,得到场景数据。,包括:

52.s401、通过内容理解模型中的场景关键词识别算法对字幕文件进行场景关键词识别,得到场景内容和场景内容对应的场景时间;

53.s402、通过内容理解模型中的语气分析算法对场景内容进行语境语气分析,获取场景内容的语气类型,为场景生成并匹配场景内容内容。音调类型对应的音调标识符;

54.s403、根据场景内容、场景内容对应的场景时间、音调标识生成场景数据。

55.可以理解,场景关键词识别算法是一种用于识别字幕文件中场景关键词的算法。场景关键字是指与场景相关的关键字。例如,场景关键词可以是“重要”、“产品”、“焦点”等。当字幕文件中出现场景关键词时,可以通过场景关键词识别算法定位场景关键词,场景内容包含可以获得场景关键字。场景内容是指包含场景关键词的句子或段落。例如,字幕文件包含“今天我将重点介绍长期人寿保险产品金瑞人寿”。当通过场景关键词识别算法将“key”一词识别为场景关键词时,可以将“我想专注于长期寿险产品金瑞人寿”这句话标记为场景内容,并将该句子在字幕文件中的出现时间记录为场景时间。语气分析算法是指用于识别和分析场景内容的上下文语气的算法。语境语气分析包括通过语气分析算法提取场景内容的语气特征,对语气特征进行语气识别,识别出与场景内容最匹配的语气类型。其中,音调特征是指场景内容中音素升降的特征。语气类型包括疑问句、陈述语、感叹语等。场景内容中的语气特征通过语气分析算法提取,获得音调类型,可以准确获得音调识别。其中,音调标识是指根据音调类型生成的用于标识场景内容的音调标识。例如,如果语气类型是疑问句,则对应的语气标识符可以是“问题”。

56.在步骤s401-s403中,通过内容理解模型中的场景关键词识别算法对字幕文件进行场景关键词识别,得到场景内容和场景内容对应的场景时间。; 通过内容理解模型中的语气分析算法对场景内容进行语境语气分析,得到场景内容的语气类型,为场景内容生成与语气类型对应的语气标记;场景数据是基于场景内容、场景内容对应的场景时间和音调标识符生成的。本发明生成的场景数据综合考虑了场景内容、场景内容的色调类型和场景时间,使得添加的场景特效更加准确。

57. 可选的,在步骤s401中,通过内容理解模型中的场景关键词识别算法对字幕文件进行关键词识别,得到场景内容和场景内容对应的场景。时间,包括:

图片[1]-1.本发明涉及语音分析领域,涉及一种视频剪辑方法、装置、计算机设备及存储介质-老王博客

58.s4011、通过分词技术对字幕文件进行分词,得到若干个字幕词;

59.s4012、使用场景关键词识别算法识别几个字幕词得到场景关键词;

60.s4013、根据场景关键字获取字幕文件的场景内容;并将场景内容出现在字幕文件中的时间记录为场景时间。

61.分词技术是可以理解的,是指搜索引擎对用户提交的关键词串进行查询处理后,利用各种匹配方式,根据用户的关键词串进行分词的技术。 . 字幕词是指通过分词技术对字幕文件进行分词后得到的词或词。使用场景关键词识别算法识别多个字幕词的场景关键词,定位场景关键词的位置,以包含场景关键词的句子或段落为关键内容,将句子放入字幕文件中。出现时间记录为场景时间,可以快速确定场景时间,提高在时间节点上添加场景效果的准确性。

62. 可选地,步骤s50,即根据场景数据对目标视频流进行渲染,得到渲染后的视频流,包括:

63.s501、获取场景数据对应的场景特效;

64.s502、 将场景特效添加到目标视频流中场景数据对应的视频帧中,得到渲染后的视频流。

65.可以理解,场景效果是指用来突出场景内容的手段。渲染视频流是指将视频流经过字幕高亮、关键词花展示、插入弹幕等场景特效处理后得到的视频流。具体的,获取场景数据中的场景时间,根据场景时间查询目标视频流中该场景时间对应的视频帧;将场景特效添加到场景时间对应的视频帧中,得到渲染后的视频流。

66.在步骤s501和s502中,获取场景数据对应的场景特效;将场景特效添加到目标视频流中场景数据对应的视频帧中,得到所述渲染视频流。不同的场景数据对应不同的场景特效,可以满足用户不同的剪辑需求。

67. 可选地,在步骤s502中,即将场景特效添加到视频流中的场景数据对应的视频帧中,得到渲染后的视频流,包括:

68.s5021、获取场景数据中的场景时间;

69.s5022、根据场景时间,查询目标视频流中场景时间对应的视频帧;

70.s5023、 给场景时间对应的视频帧添加场景特效,得到渲染后的视频流。

71.可以理解,场景时间是指场景内容出现在目标音频流中的时间。视频帧是指将目标视频流分帧得到的视频画面。通过在场景时间对应的视频帧中加入场景特效,使场景特效与视频帧对应,可以提升用户体验。

72. 应该理解的是,上述实施例中每个步骤的序号大小并不代表执行顺序,每个进程的执行顺序应该由其功能和内部逻辑决定,在本发明实施例中不予处理。实施构成任何限制。

7 3. 在一个实施例中,提供了一种视频编辑装置,该视频编辑装置与上述实施例中的视频编辑方法一一对应。如图所示。如图3所示,视频编辑装置包括待编辑视频模块10、目标数据模块20、字幕文件模块30、场景数据模块40和目标视频模块50。各功能模块的详细说明如下:

74.待编辑视频模块10,用于获取待编辑视频;

75.目标数据模块20,用于从所述待编辑视频中提取目标音频流和目标视频流;

76.字幕文件模块30,用于对所述目标音频流进行语音识别,获取所述目标音频流对应的文本文本以及所述文本文本在所述目标音频流中的出现时间;根据所述文字和所述出现时间生成字幕文件;

77.场景数据模块40,用于将字幕文件输入到内容理解模型中,通过内容理解模型对字幕文件进行场景关键词和语气分析,得到场景数据。

78.目标视频模块50用于根据场景数据对目标视频流进行渲染,得到渲染后的视频流;根据渲染的视频流和目标音频流,生成场景特效目标视频。

79.可选,目标数据模块20,包括:

80.原始数据单元,用于通过视频分割技术从所述待编辑视频中分割出原始音频流和原始视频流;

81.语音音频流单元,用于对所述原始音频流进行除杂处理,得到语音音频流;

82.录音数据单元,用于将所述人声音频流输入到录词识别模型中,通过录词识别模型识别所述人声音频流中的录词,生成人声音频流。音频流的录制数据;

83.目标数据单元,用于根据记录数据执行原始音频流和原始视频流。

裁剪得到目标音频流和目标视频流。

84.可选的,人声音频流单元包括:

85.人声识别模型单元,用于将原始音频流输入人声识别模型;

86.人声识别单元,用于通过人声识别模型识别原始音频流中的人声,从原始音频流中提取识别出的人声,得到人声音频流。

87.可选,场景数据模块40,包括:

88.场景时间单元,用于通过内容理解模型中的场景关键词识别算法对字幕文件进行场景关键词识别,得到场景内容和场景内容对应的场景时间;

89.音调识别单元用于通过内容理解模型中的音调分析算法对场景内容进行语境音调分析,获取场景内容的音调类型,生成场景内容并进行匹配场景内容。音调类型对应的音调标识符;

90.场景数据单元,用于根据场景内容、场景内容对应的场景时间和音调标识生成场景数据。

91.可选的,场景时间单位包括:

92.字幕词单元,用于通过分词技术对字幕文件进行分词,得到多个字幕词;

93.场景关键词单元,用于通过场景关键词识别算法识别多个字幕词,得到场景关键词;

94.场景时间记录单元,用于根据场景关键字获取字幕文件的场景内容;并将场景内容出现在字幕文件中的时间记录为场景时间。

95.可选,目标视频模块50,包括:

96.场景特效单元,用于获取场景数据对应的场景特效;

97.渲染视频流单元,用于将场景特效添加到目标视频流中的场景数据对应的视频帧中,得到渲染视频流。

98.可选地,渲染视频流单元包括:

99.场景时间获取单元,用于获取场景数据中的场景时间;

100.视频帧查询单元,用于根据场景时间查询目标视频流中场景时间对应的视频帧;

101.场景特效添加单元,用于将场景特效添加到场景时间对应的视频帧中,得到渲染视频流。

10 2. 视频编辑设备的具体限制可以参考上述视频编辑方法的限制,在此不再赘述。上述视频编辑装置中的各个模块可以全部或部分通过软件、硬件及其组合来实现。上述模块可以以硬件的形式嵌入或独立于计算机设备中的处理器中,也可以以软件的形式存储在计算机设备中的存储器中,以便处理器调用和执行对应的操作。以上模块。

103.在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图1所示。4. 计算机设备包括处理器、存储器、网络接口、显示屏和通过系统总线连接的输入设备。其中,计算机设备的处理器用于提供计算和控制能力。计算机设备的存储器包括可读存储介质、内部存储器。非易失性存储介质存储操作系统和计算机可读指令。内部存储器为可读存储介质中的操作系统和计算机可读指令的执行提供环境。计算机设备的网络接口用于通过网络连接与外部服务器通信。计算机可读指令由处理器执行

是时候实施视频编辑方法了。本实施例提供的可读存储介质包括非易失性可读存储介质和易失性可读存储介质。

104.在一个实施例中,提供了一种计算机设备,包括存储器、处理器和存储在存储器上并且在处理器上可执行的计算机可读指令,当处理器执行计算机可读指令时,实现以下脚步:

105.待编辑视频模块,用于获取待编辑视频;

106.目标数据模块,用于从所述待编辑视频中提取目标音频流和目标视频流;

107.字幕文件模块,用于对所述目标音频流进行语音识别,获取所述目标音频流对应的文本文本以及所述文本文本在所述目标音频流中的出现时间;通过描述文本的文本和出现的时间生成字幕文件;

108.场景数据模块,用于将所述字幕文件输入到内容理解模型中,通过所述内容理解模型对所述字幕文件进行场景关键词和语气分析,得到场景数据;

109.目标视频模块,用于根据场景数据渲染目标视频流,得到渲染视频流;根据渲染的视频流和目标音频流,生成目标视频。

110.在一个实施例中,提供了一种或多种存储计算机可读指令的计算机可读存储介质,本实施例提供的可读存储介质包括非易失性可读存储介质和易失性可读存储介质。计算机可读指令存储在可读存储介质上,当计算机可读指令由一个或多个处理器执行时,执行以下步骤:

111.待编辑视频模块,用于获取待编辑视频;

112.目标数据模块,用于从所述待编辑视频中提取目标音频流和目标视频流;

113.字幕文件模块,用于对所述目标音频流进行语音识别,获取所述目标音频流对应的文本文本以及所述文本文本在所述目标音频流中的出现时间;通过描述文本的文本和出现的时间生成字幕文件;

114.场景数据模块,用于将所述字幕文件输入到内容理解模型中,通过所述内容理解模型对所述字幕文件进行场景关键词和语气分析,得到场景数据;

115.目标视频模块,用于根据场景数据对目标视频流进行渲染,得到渲染后的视频流;根据渲染的视频流和目标音频流,生成目标视频。

116. 本领域普通技术人员可以理解,上述实施例的方法中的全部或部分过程可以通过计算机可读指令指令相关硬件来实现,计算机可读指令可以存储在非易失性可读存储介质或易失性可读存储介质中,计算机可读指令在执行时可以包括上述方法实施例的过程。其中,对本技术提供的各种实施例中使用的存储器、存储装置、数据库或其他介质的任何引用可以包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(rom)、可编程只读存储器(prom)、电可编程只读存储器(eprom)、电可擦可编程只读存储器(eeprom)、或闪存。易失性存储器可以包括随机存取存储器(ram)或外部高速缓冲存储器。通过说明而非限制的方式,ram 可以各种形式获得,例如静态 ram (sram)、动态 ram (dram)、同步 dram (sdram)、双倍数据速率 sdram (ddrsdram)、增强型 sdram (esdram)、同步链路(synchlink)dram(sldram)、内存总线(rambus)direct ram(rdram)、直接内存总线动态ram(drdram)、内存总线动态ram(rdram)等。

117. 本领域技术人员可以清楚地理解,为了描述的方便和简洁,仅以上述功能单元和模块的划分为例进行说明。在实际应用中,可以根据需要分配上述功能。通过不同

功能单元和模块完成,即将设备的内部结构划分为不同的功能单元或模块,从而完成上述全部或部分功能。

118.上述实施例仅用于说明本发明的技术方案,并不用于限制本发明;尽管结合上述实施例对本发明进行了详细描述,但本领域普通技术人员应当理解: 对于上述实施例中记载的技术方案,仍然可以进行修改,或者进行等效替换。技术特点;这些修改或替换并不使相应技术方案的实质脱离本发明实施例的技术方案的精神。该范围应包含在本发明的保护范围之内。

© 版权声明
THE END
喜欢就支持一下吧
点赞0
分享
评论 抢沙发

请登录后发表评论