视频信号处理简介与基础知识

发表于 2024-08-29 更新于 2024-09-11

讲解了有关数字图像和视频的一些基础知识。

图像&视频基础

图片

信息存储、处理和呈现的重要媒体类型，由像素行和列的二维矩阵表示。

一些主流的图片类型：JPEG（Joint Photographic Expert Group），TIFF（Tagged Image File Format），BMP（Bitmap），等.

像素和分辨率

像素（图像元素）：数字图像的最小元素

分辨率：图像中的像素数量

以总像素数、宽度\(\times\)高度或每英寸像素数（ppi）表示
例如，500万像素、\(640\times480\)像素或300ppi
代表区分图像细节的能力

位深度/颜色深度

位深度/颜色深度：每个像素的bit数

二值图像（1 bit）、灰度图像（8 bit）和彩色图像（24 bit）。

颜色空间

彩色图像

彩色图片可以用不同的颜色空间来表达。

常见颜色空间：RGB、HSI、YCbCr等。

RGB：由红（R）、绿（G）、蓝（B）三元组表示的颜色

RGB

24 位彩色图像：

每个颜色像素有三个成分——RGB（红、绿、蓝）
每个分量8 bit，范围从0至255

黑色是rgb(0, 0, 0)，而白色是rgb(255, 255, 255)

YUV，YIQ，YC_bC_r

类YUV模型的变体：YIQ和YC_bC_r

Y（亮度）是视频信号的亮度（黑白部分），UV（色度）是视频的彩色部分

YUV 适合视频广播，因为它可以有效利用带宽

用于电视行业：YUV (PAL, SECAM), YIQ (NTSC), YC_bC_r (JPEG, MPEG)

（线性变换）

相机：数据采集

视频

视频是帧/图像/图片的序列，带有音频信号，高速呈现，给人流畅运动的感觉，依靠人类的视觉暂留

一些主流视频类型：MPEG（Moving Pictures Expert Group），AVI（Intel），WMV（Microsoft）等

数字视频组成

镜头（Shot）：所有视频都是由镜头组成的
帧（Frame）：视频中的每个单张图片
构图（Composition）：帧内的内容布局

视频中的一些术语

帧率：每秒的帧数
空间分辨率：每帧中的像素数
长宽比：图像宽度与图像高度的比率。
色彩分辨率：帧的位深度
视频数据速率和文件大小

例如，24位彩色视频，分辨率为640x480，帧率为30fps，则其未压缩的视频数据速率 = 640x480x3x8x30 = 221,184,000bps

视频分辨率

标清（SD）

NTSC (480i): 720 x 480, 640 x 480
PAL (576i): 720 x 576

高清（HD）

720p：1280 x 720 逐行扫描（progressive）
1080i：1920 x 1080 隔行扫描（interlaced）
1080p：1920 x 1080 逐行扫描（全高清/FHD）

超清（UHD）

4K ~ 4倍FHD
8K ~ 4倍4K

扫描类型

隔行：2个场（奇数行和偶数行）交替扫描
逐行：所有行按顺序扫描

帧率

每秒播放一帧的频率，即每秒帧数（fps）

标准：

PAL: 25 fps, used in Australia, Singapore
NTSC: 30 fps, used in USA, Japan

视频信号处理与应用

视频信号处理涉及数字视频信号的不同方面，包括表示、压缩、存储、传输、处理、分析和理解。

两个重点： - 图像和视频压缩 - 视频分析和理解

视频信号处理应用

商业：流媒体电商等
娱乐：视频直播、视频点播等
教育：技术支持的学习、在线讲座等。
智慧城市、交通等：自动驾驶汽车、视频分析等

视频信号处理趋势

新的人工智能与深度学习算法
大数据
更快的处理器、更大容量的存储设备
新兴消费者行为
更好的压缩算法
更强大的视频分析技术

技术挑战

编码与通信
- 更高质量
- 更低比特率
- 服务质量
内容分析和理解
- 稳健的性能
- 领域差距/转变/泛化
- 昂贵的数据注释
- 等等

图像和视频标准

视频标准

JPEG

一种流行的图像压缩标准。

JPEG是ISO/IEC国际标准10918或ITU-T建议T.81

由名为联合图像专家组 (JPEG) 的国际机构开发

MPEG概述

MPEG-1 (1992)
- 视频和音频编码（CD-ROM，1.5Mbps）
- 相关产品：VCD
MPEG-2 / H.262 (1994)
- 具有不同配置文件的视频和音频编码（2-80Mbps）
- 相关产品：DVD
MPEG-4 高级视频编码 (AVC) / H.264
- 基于内容的视频编码
- 自然和合成媒体对象的编码

H.26x概述

H.261
- 由CCITT于1990年开发。（注：国际电报电话咨询委员会 (CCITT) 后来更名为国际电信联盟国际电信标准化部门（ITU-T））。
- 基于DCT的视频压缩方案。
- 与MPEG-1视频编码有许多相似的功能。
- 目标应用：视频会议。
- 比特率为px64 Kbps，其中p范围从1到30。
H.263
- ITU-T建议H.263 v1，1995年。
- 优于H.261，视频会议标准。
- H.263 v2 (H.263+，1998)
- H.263 v3 (H.263++，2000)
H.264/高级视频编码（AVC）/MPEG-4第10部分
- 2003年标准化。
- 压缩效率比H.263高30%。
- 应用：互联网视频、计算机、高清电视广播、蓝光光盘、移动和便携式设备。
H.265/高效视频编码（HEVC）
- 基本结构与H.264类似。
- 支持高达8K分辨率和120fps。
- 在比特率-质量权衡方面比H.264更高效。

其他标准

VC-1
- 由美国电影电视工程师协会（SMPTE）制定标准
- 由Microsoft Windows Media Video（WMV）实施
VP8
- 适用于网络视频等环境
- 支持网络视频格式和高达 4K 的分辨率
VP9
- 基本结构与 VP8 类似
- 支持高达 8K 和 120 fps 的分辨率

视频分析和理解基础知识

执行视频内容分析和理解。一些重要任务包括：

物体检测和跟踪
姿势估计
人体动作识别
等等

新兴主题

生成式人工智能

可以创建新内容（如文本、图像、音频、视频等）的一类 AI 模型。

示例：

文本生成：生成式预训练Transformers（GPT）。
图像生成：稳定扩散。

支持各种应用程序，如聊天机器人、内容创建、虚拟助手等。

基础模型（FMs）

一类在大规模广泛数据上进行训练的模型，可以适应（微调）各种下游任务/应用

示例：大型语言模型（例如 GPT）、视觉语言模型（例如 CLIP）