视频信号处理简介与基础知识
讲解了有关数字图像和视频的一些基础知识。
图像&视频基础
图片
信息存储、处理和呈现的重要媒体类型,由像素行和列的二维矩阵表示。
一些主流的图片类型:JPEG(Joint Photographic Expert Group),TIFF(Tagged Image File Format),BMP(Bitmap),等.
像素和分辨率
像素(图像元素):数字图像的最小元素
分辨率:图像中的像素数量
- 以总像素数、宽度\(\times\)高度或每英寸像素数(ppi)表示
- 例如,500万像素、\(640\times480\)像素或300ppi
- 代表区分图像细节的能力
位深度/颜色深度
位深度/颜色深度:每个像素的bit数
二值图像(1 bit)、灰度图像(8 bit)和彩色图像(24 bit)。
颜色空间
彩色图像
彩色图片可以用不同的颜色空间来表达。
常见颜色空间:RGB、HSI、YCbCr等。
RGB:由红(R)、绿(G)、蓝(B)三元组表示的颜色
RGB
24 位彩色图像:
- 每个颜色像素有三个成分——RGB(红、绿、蓝)
- 每个分量8 bit,范围从0至255
黑色是rgb(0, 0, 0)
,而白色是rgb(255, 255, 255)
YUV,YIQ,YCbCr
类YUV模型的变体:YIQ和YCbCr
Y(亮度)是视频信号的亮度(黑白部分),UV(色度)是视频的彩色部分
YUV 适合视频广播,因为它可以有效利用带宽
用于电视行业:YUV (PAL, SECAM), YIQ (NTSC), YCbCr (JPEG, MPEG)

(线性变换)
相机:数据采集


视频
视频是帧/图像/图片的序列,带有音频信号,高速呈现,给人流畅运动的感觉,依靠人类的视觉暂留
一些主流视频类型:MPEG(Moving Pictures Expert Group),AVI(Intel),WMV(Microsoft)等
数字视频组成
- 镜头(Shot):所有视频都是由镜头组成的
- 帧(Frame):视频中的每个单张图片
- 构图(Composition):帧内的内容布局
视频中的一些术语
- 帧率:每秒的帧数
- 空间分辨率:每帧中的像素数
- 长宽比:图像宽度与图像高度的比率。
- 色彩分辨率:帧的位深度
- 视频数据速率和文件大小
例如,24位彩色视频,分辨率为640x480,帧率为30fps,则其未压缩的视频数据速率 = 640x480x3x8x30 = 221,184,000bps
视频分辨率
标清(SD)
- NTSC (480i): 720 x 480, 640 x 480
- PAL (576i): 720 x 576
高清(HD)
- 720p:1280 x 720 逐行扫描(progressive)
- 1080i:1920 x 1080 隔行扫描(interlaced)
- 1080p:1920 x 1080 逐行扫描(全高清/FHD)
超清(UHD)
- 4K ~ 4倍FHD
- 8K ~ 4倍4K
扫描类型
- 隔行:2个场(奇数行和偶数行)交替扫描
- 逐行:所有行按顺序扫描
帧率
每秒播放一帧的频率,即每秒帧数(fps)
标准:
- PAL: 25 fps, used in Australia, Singapore
- NTSC: 30 fps, used in USA, Japan
视频信号处理与应用
视频信号处理涉及数字视频信号的不同方面,包括表示、压缩、存储、传输、处理、分析和理解。
两个重点: - 图像和视频压缩 - 视频分析和理解
视频信号处理应用
- 商业:流媒体电商等
- 娱乐:视频直播、视频点播等
- 教育:技术支持的学习、在线讲座等。
- 智慧城市、交通等:自动驾驶汽车、视频分析等
视频信号处理趋势
- 新的人工智能与深度学习算法
- 大数据
- 更快的处理器、更大容量的存储设备
- 新兴消费者行为
- 更好的压缩算法
- 更强大的视频分析技术
技术挑战
- 编码与通信
- 更高质量
- 更低比特率
- 服务质量
- 内容分析和理解
- 稳健的性能
- 领域差距/转变/泛化
- 昂贵的数据注释
- 等等
图像和视频标准
视频标准

JPEG
一种流行的图像压缩标准。
JPEG是ISO/IEC国际标准10918或ITU-T建议T.81
由名为联合图像专家组 (JPEG) 的国际机构开发
MPEG概述
- MPEG-1 (1992)
- 视频和音频编码(CD-ROM,1.5Mbps)
- 相关产品:VCD
- MPEG-2 / H.262 (1994)
- 具有不同配置文件的视频和音频编码(2-80Mbps)
- 相关产品:DVD
- MPEG-4 高级视频编码 (AVC) / H.264
- 基于内容的视频编码
- 自然和合成媒体对象的编码
H.26x概述
- H.261
- 由CCITT于1990年开发。(注:国际电报电话咨询委员会 (CCITT) 后来更名为国际电信联盟国际电信标准化部门(ITU-T))。
- 基于DCT的视频压缩方案。
- 与MPEG-1视频编码有许多相似的功能。
- 目标应用:视频会议。
- 比特率为px64 Kbps,其中p范围从1到30。
- H.263
- ITU-T建议H.263 v1,1995年。
- 优于H.261,视频会议标准。
- H.263 v2 (H.263+,1998)
- H.263 v3 (H.263++,2000)
- H.264/高级视频编码(AVC)/MPEG-4第10部分
- 2003年标准化。
- 压缩效率比H.263高30%。
- 应用:互联网视频、计算机、高清电视广播、蓝光光盘、移动和便携式设备。
- H.265/高效视频编码(HEVC)
- 基本结构与H.264类似。
- 支持高达8K分辨率和120fps。
- 在比特率-质量权衡方面比H.264更高效。
其他标准
- VC-1
- 由美国电影电视工程师协会(SMPTE)制定标准
- 由Microsoft Windows Media Video(WMV)实施
- VP8
- 适用于网络视频等环境
- 支持网络视频格式和高达 4K 的分辨率
- VP9
- 基本结构与 VP8 类似
- 支持高达 8K 和 120 fps 的分辨率
视频分析和理解基础知识
执行视频内容分析和理解。一些重要任务包括:
- 物体检测和跟踪
- 姿势估计
- 人体动作识别
- 等等
新兴主题
生成式人工智能
可以创建新内容(如文本、图像、音频、视频等)的一类 AI 模型。
示例:
- 文本生成:生成式预训练Transformers(GPT)。
- 图像生成:稳定扩散。
支持各种应用程序,如聊天机器人、内容创建、虚拟助手等。
基础模型(FMs)
一类在大规模广泛数据上进行训练的模型,可以适应(微调)各种下游任务/应用
示例:大型语言模型(例如 GPT)、视觉语言模型(例如 CLIP)