【论文复现赛】ResNet18_3D

P粉084495128

发布时间：2025-07-24 11:47:26

488人浏览过

来源于php中文网

原创

本文复现了3D ResNet-18在UCF-101数据集的表现，旨在验证视频数据集训练深3D卷积网络的可行性。基于PaddleVideo，修改2D ResNet-18得到3D网络，不使用预训练权重，经数据处理、训练等步骤，最终在UCF-101验证集准确率达43.98%，超目标值42.4%，印证相关结论。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

【论文复现赛】resnet18_3d - php中文网

【论文复现赛】Can Spatiotemporal 3D CNNs Retrace the History of 2D CNNs and ImageNet?

本文的目标是检验当前的视频数据集是否有充足的数据来训练非常深的3D卷积神经网络(原文：The purpose of this study is to determine whether current video datasets have sufficient data for training very deep convolutional neural networks with spatio-temporal three-dimensional kernels)，作者在当前的数据集上使用不同深度的网络进行了实验，得到以下几个结论：
1、ResNet-18在UCF-101，HMDB-51,ActivityNet数据集上过拟合，Kinetics数据集未过拟合；
2、Kinetics数据集有充分的数据训练深的3D卷积网络；
3、网络加载在Kinetics数据集预训练的权重，在其他数据集（UCF-101/HMDB-51）上也可以得到不错的效果。
本次复现的目标是不使用预训练权重，在UCF-101数据集准确率达到42.4%，本次复现的准确率为43.98%，本次复现基于PaddleVideo。
代码参考：
1、https://github.com/kenshohara/3D-ResNets-PyTorch/tree/CVPR2018
2、【从零开始学视觉Transformer】
本项目地址：https://github.com/justld/3D-ResNets_paddle

一、网络结构

【论文复现赛】ResNet18_3D - php中文网
上图未本文实验使用的不同网络结构，红框部分为本次复现的网络结构(ResNet18_3D)，ResNet18结构非常简单，而且巧合的是在本次论文复现赛期间官方推出了【从零开始学视觉Transformer】课程，第一节课朱老师就带着大家写了一个ResNet18（2D CNN），只需要对该模型稍加修改即可得到ResNet18_3D,非常感谢朱老师的激情讲解。

二、实验结果

【论文复现赛】ResNet18_3D - php中文网
上表为各个模型在UCF-101和HMDB-51数据集上的准确率，Scratch表示未加载Kinetics权重从头训练，未标明Scratch表示使用Kinetics数据集预训练权重。可以看出，使用Kinetics数据集预训练权重可以显著提高准确率，缓解UCF-101和HMDB-51数据集数据不充分的问题。

三、核心代码

class ConvBNRelu(nn.Layer):
    def __init__(self, in_channels, out_channels, kernel_size, **kwargs):        super().__init__()        self.conv = nn.Conv3D(in_channels, out_channels, kernel_size=kernel_size, **kwargs)        self.bn = nn.BatchNorm3D(out_channels)        self.relu = nn.ReLU()    def forward(self, x):
        x = self.conv(x)
        x = self.bn(x)
        x = self.relu(x)        return xclass Block(nn.Layer):
    def __init__(self, in_channels, out_channels, stride=1):        super().__init__()        self.block = nn.Sequential(
            ConvBNRelu(in_channels, out_channels, 3, stride=stride, padding='same'),
            nn.Conv3D(out_channels, out_channels, 3, stride=1, padding='same'),
            nn.BatchNorm3D(out_channels),
        )        if in_channels != out_channels or stride != 2:            self.downsample = nn.Sequential(
                nn.Conv3D(in_channels, out_channels, kernel_size=1, stride=stride),
                nn.BatchNorm3D(out_channels),
            )        else:
            self.downsample = Identity()        self.relu = nn.ReLU()    
    def forward(self, x):
        res = self.downsample(x)
        x = self.block(x)
        x = self.relu(x + res)        return xclass Identity(nn.Layer):
    def __init__(self):        super().__init__()    
    def forward(self, x):        return x@BACKBONES.register()class ResNet18(nn.Layer):
    def __init__(self, in_channels=3, num_seg=8):        super(ResNet18, self).__init__()        self.num_seg = num_seg        self.stem = nn.Sequential(
            ConvBNRelu(in_channels, 64, kernel_size=7, stride=(1, 2, 2), padding=(3, 3, 3), bias_attr=False),
            nn.MaxPool3D(kernel_size=(3, 3, 3), stride=2, padding=1),
        )        self.layer1 = self._make_layer(64, 64, 2, 1)        self.layer2 = self._make_layer(64, 128, 2, 2)        self.layer3 = self._make_layer(128, 256, 2, 2)        self.layer4 = self._make_layer(256, 512, 2, 2)        self.pool = nn.AdaptiveAvgPool3D(1)    def _make_layer(self, in_channels, out_channels, n_blocks, stride=1):
        layer_list = []
        layer_list.append(Block(in_channels, out_channels, stride))        for i in range(1, n_blocks):
            layer_list.append(Block(out_channels, out_channels))        return nn.Sequential(*layer_list)    def forward(self, x):
        nt, c, h, w = x.shape
        x = x.reshape([-1, self.num_seg, c, h, w]).transpose([0, 2, 1, 3, 4]) # N, C, T, H, W
        x = self.stem(x)
        x = self.layer1(x)
        x = self.layer2(x)
        x = self.layer3(x)
        x = self.layer4(x) # N, C, T, H, W
        x = self.pool(x).reshape([paddle.shape(x)[0], -1]) # N, C
        return x

皮卡智能

AI驱动高效视觉设计平台

下载

上述代码根据【从零开始学视觉Transformer】实战作业ResNet18修改而成，没上课的同学快去看看吧。

四、在线体验

实现ResNet18_3D在UCF-101训练、验证、预测，只需要以下几步：
1、解压数据集
2、处理数据，从视频数据集提取帧，可参考PaddleVideo处理UCF-101数据集的方法
3、安装依赖包
4、训练
5、验证精度
6、模型导出
7、模型预测

In [ ]

# step 1: 解压数据集%cd ~/data/data105621/
!unzip -oq UCF101.zip%cd ~/

In [ ]

# step 2: 下载标注文件，生成list, 这里需要的时间比较长(约半小时)，请耐心等待%cd ~/PaddleVideo/data/ucf101/
%cp -r /home/aistudio/data/data105621/UCF-101 ~/PaddleVideo/data/ucf101/videos# !bash download_annotations.sh # 此版本已经提供了标注信息，下载有时候网络不给力!python extract_rawframes.py ./videos/ ./rawframes/ --level 2 --ext avi
!python build_ucf101_file_list.py rawframes/ --level 2 --format rawframes --out_list_path ./

In [ ]

# step 3: pip install requirements%cd ~/PaddleVideo/
!pip install -r requirements.txt

In [ ]

# step 4: training%cd /home/aistudio/PaddleVideo/
!python3 main.py -c configs/recognition/resnet18_3d/resnet18_3d_ucf101_frames.yaml --validate --seed=10001

In [ ]

# step 5: test%cd /home/aistudio/PaddleVideo/
!python3 main.py -c configs/recognition/resnet18_3d/resnet18_3d_ucf101_frames.yaml --test -w output/Res18/Res18_best.pdparams

In [ ]

# step 6: export model!python3.7 tools/export_model.py -c configs/recognition/resnet18_3d/resnet18_3d_ucf101_frames.yaml -p output/Res18/Res18_best.pdparams -o inference/Res18_3D

In [ ]

# step 7: predict，用数据集中的一个数据预测一下，该视频类别为：0%cd /home/aistudio/PaddleVideo/
!python3.7 tools/predict.py --config configs/recognition/resnet18_3d/resnet18_3d_ucf101_frames.yaml --input_file /home/aistudio/data/data105621/UCF-101/ApplyEyeMakeup/v_ApplyEyeMakeup_g08_c01.avi --model_file inference/Res18_3D/Res18.pdmodel --params_file inference/Res18_3D/Res18.pdiparams --use_gpu=True --use_tensorrt=False

五、复现结果

本次复现的目标是UCF-101验证集acc 42.4%，复现的为acc 43.98%。
环境：
Tesla V100 * 1
PaddlePaddle==2.2.0

model	dataset	acc
ResNet18_3D	UCF-101	43.98%

QClaw安装后打不开是什么原因_QClaw无法启动处理办法【汇总】

WorkBuddy如何写出优雅的Python代码_WorkBuddy编程辅助与逻辑重构教程【进阶】

MicrosoftCopilot怎么做数据分析_MicrosoftCopilot数据处理介绍【介绍】

WorkBuddy如何批量查询快递单号状态_WorkBuddy物流信息自动跟踪方法【提效】

OpenJarvis— 斯坦福大学开源的本地 AI 智能体框架

相关专题

Nginx跨平台安装实操指南：Windows、macOS与Linux环境快速搭建

本指南详解Nginx在Windows、macOS及Linux系统的安装全流程。涵盖官方包解压、Homebrew一键部署、APT/YUM源配置及Docker容器化方案。无论新手或开发者，均可快速搭建运行环境，掌握跨平台核心指令，为后续配置与调优奠定坚实基础。

2026.03.16

chatgpt使用指南

本专题整合了chatgpt使用教程、新手使用说明等等相关内容，阅读专题下面的文章了解更多详细内容。

2026.03.16

chatgpt官网入口地址合集

本专题整合了chatgpt官网入口地址、使用教程等内容，阅读专题下面的文章了解更多详细内容。

2026.03.16

minimax入口地址汇总

本专题整合了minimax相关入口合集，阅读专题下面的文章了解更多详细地址。

2026.03.16

C++多线程并发控制与线程安全设计实践

本专题围绕 C++ 在高性能系统开发中的并发控制技术展开，系统讲解多线程编程模型与线程安全设计方法。内容包括互斥锁、读写锁、条件变量、原子操作以及线程池实现机制，同时结合实际案例分析并发竞争、死锁避免与性能优化策略。通过实践讲解，帮助开发者掌握构建稳定高效并发系统的关键技术。

2026.03.16

TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开，深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析，帮助开发者构建类型安全、结构清晰、易维护的前端工程体系，提高团队协作效率与代码质量。

116

2026.03.13

Python异步编程与Asyncio高并发应用实践

本专题围绕 Python 异步编程模型展开，深入讲解 Asyncio 框架的核心原理与应用实践。内容包括事件循环机制、协程任务调度、异步 IO 处理以及并发任务管理策略。通过构建高并发网络请求与异步数据处理案例，帮助开发者掌握 Python 在高并发场景中的高效开发方法，并提升系统资源利用率与整体运行性能。

142

2026.03.12

C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开，系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例，帮助开发者掌握构建高可用微服务系统的关键技术，提高系统的可扩展性与维护效率。

412

2026.03.11

Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开，系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示，帮助开发者构建稳定高效的 Go 并发任务处理系统，提高系统在高负载环境下的处理能力与稳定性。

2026.03.10

热门下载

网站特效

网站源码

网站素材

前端模板