视频信号处理简介与基础知识

讲解了有关数字图像和视频的一些基础知识。

图像&视频基础

图片

信息存储、处理和呈现的重要媒体类型,由像素行和列的二维矩阵表示。

一些主流的图片类型:JPEG(Joint Photographic Expert Group),TIFF(Tagged Image File Format),BMP(Bitmap),等.

像素和分辨率

像素(图像元素):数字图像的最小元素

分辨率:图像中的像素数量

  • 以总像素数、宽度\(\times\)高度或每英寸像素数(ppi)表示
  • 例如,500万像素、\(640\times480\)像素或300ppi
  • 代表区分图像细节的能力

位深度/颜色深度

位深度/颜色深度:每个像素的bit数

二值图像(1 bit)、灰度图像(8 bit)和彩色图像(24 bit)。

颜色空间

彩色图像

彩色图片可以用不同的颜色空间来表达。

常见颜色空间:RGB、HSI、YCbCr等。

RGB:由红(R)、绿(G)、蓝(B)三元组表示的颜色

RGB

24 位彩色图像:

  • 每个颜色像素有三个成分——RGB(红、绿、蓝)
  • 每个分量8 bit,范围从0至255

黑色是rgb(0, 0, 0),而白色是rgb(255, 255, 255)

YUV,YIQ,YCbCr

类YUV模型的变体:YIQ和YCbCr

Y(亮度)是视频信号的亮度(黑白部分),UV(色度)是视频的彩色部分

YUV 适合视频广播,因为它可以有效利用带宽

用于电视行业:YUV (PAL, SECAM), YIQ (NTSC), YCbCr (JPEG, MPEG)

RGB与YIQ的转换

(线性变换)

相机:数据采集

数码相机信号处理流图
影响数字照片质量的元素

视频

视频是帧/图像/图片的序列,带有音频信号,高速呈现,给人流畅运动的感觉,依靠人类的视觉暂留

一些主流视频类型:MPEG(Moving Pictures Expert Group),AVI(Intel),WMV(Microsoft)等

数字视频组成

  • 镜头(Shot):所有视频都是由镜头组成的
  • 帧(Frame):视频中的每个单张图片
  • 构图(Composition):帧内的内容布局

视频中的一些术语

  • 帧率:每秒的帧数
  • 空间分辨率:每帧中的像素数
  • 长宽比:图像宽度与图像高度的比率。
  • 色彩分辨率:帧的位深度
  • 视频数据速率和文件大小

例如,24位彩色视频,分辨率为640x480,帧率为30fps,则其未压缩的视频数据速率 = 640x480x3x8x30 = 221,184,000bps

视频分辨率

标清(SD)

  • NTSC (480i): 720 x 480, 640 x 480
  • PAL (576i): 720 x 576

高清(HD)

  • 720p:1280 x 720 逐行扫描(progressive)
  • 1080i:1920 x 1080 隔行扫描(interlaced)
  • 1080p:1920 x 1080 逐行扫描(全高清/FHD)

超清(UHD)

  • 4K ~ 4倍FHD
  • 8K ~ 4倍4K

扫描类型

  • 隔行:2个场(奇数行和偶数行)交替扫描
  • 逐行:所有行按顺序扫描

帧率

每秒播放一帧的频率,即每秒帧数(fps)

标准:

  • PAL: 25 fps, used in Australia, Singapore
  • NTSC: 30 fps, used in USA, Japan

视频信号处理与应用

视频信号处理涉及数字视频信号的不同方面,包括表示、压缩、存储、传输、处理、分析和理解。

两个重点: - 图像和视频压缩 - 视频分析和理解

视频信号处理应用

  • 商业:流媒体电商等
  • 娱乐:视频直播、视频点播等
  • 教育:技术支持的学习、在线讲座等。
  • 智慧城市、交通等:自动驾驶汽车、视频分析等

视频信号处理趋势

  • 新的人工智能与深度学习算法
  • 大数据
  • 更快的处理器、更大容量的存储设备
  • 新兴消费者行为
  • 更好的压缩算法
  • 更强大的视频分析技术

技术挑战

  • 编码与通信
    • 更高质量
    • 更低比特率
    • 服务质量
  • 内容分析和理解
    • 稳健的性能
    • 领域差距/转变/泛化
    • 昂贵的数据注释
    • 等等

图像和视频标准

视频标准

视频编码简史

JPEG

一种流行的图像压缩标准。

JPEG是ISO/IEC国际标准10918或ITU-T建议T.81

由名为联合图像专家组 (JPEG) 的国际机构开发

MPEG概述

  • MPEG-1 (1992)
    • 视频和音频编码(CD-ROM,1.5Mbps)
    • 相关产品:VCD
  • MPEG-2 / H.262 (1994)
    • 具有不同配置文件的视频和音频编码(2-80Mbps)
    • 相关产品:DVD
  • MPEG-4 高级视频编码 (AVC) / H.264
    • 基于内容的视频编码
    • 自然和合成媒体对象的编码

H.26x概述

  • H.261
    • 由CCITT于1990年开发。(注:国际电报电话咨询委员会 (CCITT) 后来更名为国际电信联盟国际电信标准化部门(ITU-T))。
    • 基于DCT的视频压缩方案。
    • 与MPEG-1视频编码有许多相似的功能。
    • 目标应用:视频会议。
    • 比特率为px64 Kbps,其中p范围从1到30。
  • H.263
    • ITU-T建议H.263 v1,1995年。
    • 优于H.261,视频会议标准。
    • H.263 v2 (H.263+,1998)
    • H.263 v3 (H.263++,2000)
  • H.264/高级视频编码(AVC)/MPEG-4第10部分
    • 2003年标准化。
    • 压缩效率比H.263高30%。
    • 应用:互联网视频、计算机、高清电视广播、蓝光光盘、移动和便携式设备。
  • H.265/高效视频编码(HEVC)
    • 基本结构与H.264类似。
    • 支持高达8K分辨率和120fps。
    • 在比特率-质量权衡方面比H.264更高效。

其他标准

  • VC-1
    • 由美国电影电视工程师协会(SMPTE)制定标准
    • 由Microsoft Windows Media Video(WMV)实施
  • VP8
    • 适用于网络视频等环境
    • 支持网络视频格式和高达 4K 的分辨率
  • VP9
    • 基本结构与 VP8 类似
    • 支持高达 8K 和 120 fps 的分辨率

视频分析和理解基础知识

执行视频内容分析和理解。一些重要任务包括:

  • 物体检测和跟踪
  • 姿势估计
  • 人体动作识别
  • 等等

新兴主题

生成式人工智能

可以创建新内容(如文本、图像、音频、视频等)的一类 AI 模型。

示例:

  • 文本生成:生成式预训练Transformers(GPT)。
  • 图像生成:稳定扩散。

支持各种应用程序,如聊天机器人、内容创建、虚拟助手等。

基础模型(FMs)

一类在大规模广泛数据上进行训练的模型,可以适应(微调)各种下游任务/应用

示例:大型语言模型(例如 GPT)、视觉语言模型(例如 CLIP)