可一键提取视频关键情节的五种方法:一、Gemini Advanced直析YouTube链接;二、Google AI Studio分析本地视频;三、Cloud Video Intelligence API批量处理;四、格镜工具解析中文短视频脚本;五、Gemini 2.5 Pro联合Whisper提升语音转录精度。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

如果您希望快速掌握一段视频的核心内容,但手动观看与记录耗时费力,则可能是由于缺乏对视频多模态信息的自动化解析能力。以下是实现一键提取视频关键情节与信息的具体操作路径:
一、使用 Gemini Advanced 直接分析 YouTube 视频链接
此方法适用于公开可访问的 YouTube 视频,无需下载或上传,Gemini Advanced 可直接调用谷歌内部视频理解接口,实时解析画面、语音与时间结构。
1、打开 gemini.google.com 并确保已登录 Google 账号,且订阅了 Gemini Advanced 服务。
2、在输入框中粘贴目标 YouTube 视频的完整 URL(例如 https://www.youtube.com/watch?v=xxx)。
3、输入提示词:请提取该视频中所有关键情节,按时间顺序列出,每条包含起止时间戳、情节简述、涉及人物及核心台词原文。
4、点击发送后等待响应,Gemini 将返回带蓝色可点击时间戳的结构化大纲,点击任一时间戳即可跳转至对应 YouTube 播放位置。
二、通过 Google AI Studio 的 Video Gen 分析本地视频文件
当视频未公开发布或仅存于本地设备时,Google AI Studio 提供基于多模态模型的离线解析能力,支持上传 MP4、MOV 等常见格式并提取帧级语义。
1、访问 aistudio.google.com 并登录同一 Google 账号。
2、选择 “Video” 标签页,点击 “Analyze Video” 功能入口。
3、点击 “Upload video” 按钮,选择本地视频文件(单文件不超过 1GB)。
4、在 Prompt 输入框中填写:识别视频中的关键情节转折点,输出格式为:[时间区间] + 情节描述 + 关键视觉元素 + 对应音频关键词。
5、点击 “Run”,系统将返回含时间戳的关键事件列表,并附带每一关键帧的画面描述与上下文推理结果。
三、调用 Google Cloud Video Intelligence API 进行批量结构化处理
适用于需处理大量视频或集成进工作流的开发者场景,API 支持自动标注镜头切换、实体出现时段、语音转录及情感倾向,输出 JSON 格式元数据。
1、进入 cloud.google.com/console,创建新项目并启用 Video Intelligence API。
2、在 IAM & Admin 中创建服务账户,生成并下载 JSON 密钥文件。
3、将待分析视频上传至 Google Cloud Storage,获取其 gs:// 开头的 URI 地址。
4、调用 annotateVideo 接口,设置 features 参数为:SHOT_CHANGE_DETECTION, LABEL_DETECTION, SPEECH_TRANSCRIPTION。
5、解析返回响应,在 annotations.shotAnnotationsList 中提取镜头分割点,在 annotations.speechTranscriptions 中获取带时间戳的逐字稿,在 annotations.labelAnnotationsList 中匹配关键实体及其活跃时段。
四、借助格镜(GaiYiGuo)在线工具提取短视频结构化脚本
该工具专为中文短视频平台优化,支持抖音、B站、小红书等链接直析,自动还原钩子-逻辑-转折-引导四段式脚本结构,适合内容复盘与爆款拆解。
1、访问 https://gaiyiguo.com/tool/video ,页面加载完成后保持网络代理关闭状态。
2、在输入框中粘贴目标短视频分享链接(如抖音复制的口令需先转为标准 URL)。
3、勾选 “视频脚本提取” 选项,取消勾选“字幕提取”以避免冗余干扰。
4、点击 “开始分析”,等待约 10–30 秒,页面将显示:开头钩子(0:00–0:08)、核心论点展开(0:08–0:42)、认知冲突转折(0:42–1:15)、行动引导收尾(1:15–1:26)。
5、点击任意模块右侧的 “复制” 图标,即可将该段结构化文本粘贴至笔记或剪辑软件时间轴备注栏。
五、使用 Gemini 2.5 Pro + Whisper 模型组合提取高精度双轨文字稿
针对语音清晰度低、背景音乐强或存在多人交叉对话的视频,单独依赖 Gemini 可能漏识关键句;结合 Whisper 的语音转录能力可提升文字还原准确率,并反向锚定情节节点。
1、从视频中导出原始音频(MP3 或 WAV 格式),采样率不低于 16kHz。
2、访问 huggingface.co/spaces/openai/whisper 或本地部署 Whisper.cpp,上传音频并选择语言为“zh”。
3、获取带毫秒级时间戳的逐字稿(格式如 [00:01.230 – 00:03.450] “大家好,今天我们讲AI视频分析…”)。
4、将 Whisper 输出的文字稿全文复制,连同视频链接一并提交给 Gemini 2.5 Pro,并提示:请基于以下语音转录文本与视频上下文,识别其中三个最具信息密度的情节段落,标注起止时间并说明其为何构成关键情节。









