Multimedia

Chapter 1

媒体

  • CCITT对媒体的分类
    1. 感觉媒体(人类感受到的)
    2. 表示媒体(计算机内部标识的二进制信息)
    3. 表现媒体(感觉↔表示)
    4. 存储媒体
    5. 传输媒体
  • 关键特性
    1. ★信息载体多样性
    2. ★交互性
    3. ★集成性
    4. 实时性

多媒体的产生与发展

  • 产生:20世纪80年代
  • 改变了人类工作、生活方式
  • 改善了人类的交流效率
  • 缩短人类传递信息的路径
  • 多媒体数据的特点
    • 数据量巨大
    • 数据类型多
    • 数据类型间区别大
    • 输入输出复杂

多媒体技术

  • 数据压缩技术
  • 数据处理技术
  • 数据存储技术
  • 数据通信与网络技术
  • 信息管理技术
  • 软硬件平台技术

Chapter 2

计算相关

  • 图像文件大小
    • (高×宽×灰度位数)/8字节
  • 视频数据量
    • 帧速×每帧图片的数据量×时长(s)
  • 音频数据量
    • (采样频率×每点采样位数×声道数×时长(s))/8

技术参数

  • 图像
  • 视频
    • 颜色空间
      • RGB(红绿蓝)
      • YUV(亮度、色差)
      • HSI(色调Hue、饱和度Saturation、强度Intensity)
    • 帧速
      • 25fps(PAL):我国的视频制式
      • 30fps(NTSC)
      • SECAM
  • 音频
    • 采样频率
    • 采样精度
    • 通道数

音频相关

  • 三要素
    1. 响度
    2. 音调
    3. 音色
  • 音频处理
    • 采样
    • 量化(主要失真来源)
    • 编码

Chapter 3 压缩技术

★数据压缩编码的必要性和可能性

  • 必要性
    1. 多媒体数据包括文本,声音,动画,图形,图像以及视频(编码必要性);
    2. 多媒体数字化后的海量性;
    3. 多媒体文件在计算机中的处理,访问,存储,传输等问题。
  • 可能性
    • 数据冗余
      • 时间冗余
      • 空间冗余
      • 视觉冗余
      • 听觉冗余
      • 结构冗余
      • 信息熵冗余
      • ……

信息熵

  • H(U) = E[-㏒p[i]] = -∑p[i]㏒p[i]

压缩方法和分类

  • 解压后是否与原始数据一致
    • 无失真压缩
      • 熵编码
      • 冗余压缩法
      • 无损压缩法
    • 有失真压缩
      • 熵压缩法
      • 有损压缩法
熵编码(指不考虑被压缩信息的性质的编码和压缩技术)
  • 特点
    1. 无损压缩
    2. 压缩比一般较小
  • 消零编码
  • 统计编码
    • Huffman编码
    • 行程编码
源编码(要考虑初始信号的类型、前后的相关性、信号的语义内容)
  • 预测编码
  • 变换编码
  • 向量量化

★压缩性能和指标

  • 关键参数
    • 压缩比(压缩性能)
      • 输入:输出
    • 图像质量(恢复质量)
    • 压缩解压速度(算法复杂度)

★预测编码(对实际值和预测值的进行编码)

  • DPCM(差分脉码调制)
  • ADPCM(自适应差分脉码调制)
  • DCT编码(离散余弦变换)

★统计编码

行程编码
  • 方法
    • 检测重复的比特或字符序列,并用它们的出现次数取而代之。
Huffman编码
  • 方法
    1. 对给定的数据流,计算其每个字节的出现频率;
    2. 根据频率表,运用哈夫曼算法可确定分配各字符的最小位数,给出一个最优的编码;
    3. 代码字存入代码表中。
小波变换编码
  • 方法
    • 通过平移和伸缩等运算,实现空间(时间)和频率的局部变换,因此能有效地提取信息。

音频压缩

  • 不同音频的带宽
    • 电话:200Hz-3.4kHz
    • 调幅广播:50Hz-7kHz
    • 调频广播:20Hz-15kHz
    • 宽带音响:20Hz-20kHz
ITU-TS建议标准
标准 编码 采样频率 量化位数 kbps
G.711 PCM 8kHz 8 64
G.721 ADPCM 8kHz 8 32
G.723(有损) ADPCM 8kHz 8 24
G.728(有损,低延迟) 向量量化 3.4kHz 8 16
CELP(语音压缩) LPC-10E(线性预测编码) 4.8
MPEG 变换编码,子带编码

图片压缩

  • 标准:JPEG

视频压缩

  • 标准
    • MPEG
    • H系列
    • 运动JPEG
  • 主要的数据冗余
    • 时间冗余
    • 空间冗余
  • 压缩方法
    • 帧间压缩
    • 帧内压缩

Chapter 4 多媒体硬件环境(输入输出复杂)

存储设备

光盘读写
  • 检验
    -EFM编码

音频接口

MIDI(Music Instrument Digital Interface)

视频接口

Chapter 5 多媒体软件基础

★多媒体素材制作软件

  • PS
  • PR
  • Audition

★多媒体著作软件

  • PowerPoint
  • 电子相册

★多媒体程序设计基础

  • mciSendString()
  • mciGetErrorString()
  • mciExcute()

send_str
get_err
excute

Chapter 6 网络多媒体技术

多媒体网络

数据流基本特征
  • 比特率可变性
  • 事件依赖性
  • 信道对称性

Quality of Service (QoS)

性能需求
  • 吞吐量
  • 可靠性
  • 延迟
  • 多点通信
  • 同步
QoS分类
  1. 确定型
  2. 统计型
  3. 尽力型

超媒体技术(超文本+多媒体)

  • 组成
    • 节点
    • 热标
    • 宏结点
  • 标记语言
    • HTML
    • HTTP
    • XML
超文本 (Hypertext)
  • 非线性
  • 发散性
  • 联想性

★流媒体技术

  • 分类
    • 实时流式
    • 顺序流式
  • 系统组成
    • 编码器
    • 服务器
    • 播放器
  • 方式
    • 单播
    • 多播
    • 广播
实时流式
  • 适合播放实时事件(如Live)
  • 需要专用的传输协议和流媒体服务器(如RTSP或MMS)
顺序流式
  • 适合高质量短片段视频或点播(Bilibili/Youtube[非直播])
  • 使用HTTP或FTP传输

多媒体通信协议

  • IPv6
  • RSVP
  • RTP
  • RTSP

Chapter 7 多媒体应用开发与系统

  • 步骤
    • 选题
    • 脚本设计
      • 媒体的摆放
      • 按钮位置、激活方式
      • 时间编排
    • 创作设计
      • 页面创作
      • 编程
      • 布局、超链接
    • 测试维护

在线会议系统

  • 结构

online_meeting

  • 关键技术
    • 网络传输与接口
    • 信息压缩
    • 多点控制
    • 标准化

Chapter 8 多媒体数据库

   人工管理
  
      ↓

  文件系统管理

      ↓

   数据库管理

  • 要求
    • 存储环境(容量大,类型多)
    • 传输环境(实时性要求)
    • 软件环境(方便查询)

多媒体的数据类型(数据类型多)

  • 字符数值
  • 文本数据
  • 声音数据
  • 图形数据
  • 图像数据
  • 视频数据

数据库体系结构

  • 联邦型

    • 每种数据类型有自己的库
  • 集中统一型

    • 一个库包含全部数据类型
  • 客户/服务型

    • 每种数据类型有自己的库,用户与库之间有中间件
  • 超媒体型

    • 数据库分散在网络上,没有统一的库

多媒体数据模型

  • NF²(允许表中有表)
模型扩充
  • 方式
    1. 数据库中存放多媒体文件路径,利用文件检索程序查找多媒体文件(文件需频繁更换)
    2. 数据库中存放放多媒体文件及其关键字,直接在数据库中查找多媒体文件(文件小且多)
    3. 一个库实现以上两种方式

Chapter 9 多媒体内容分析与检索

检索

检索系统

  • 结构
    • 插入子系统
    • 特征提取子系统
    • 查询子系统
    • 数据库(媒体库+特征库)
  • 过程
    • 初始检索说明
    • 相似性匹配
    • 特征调整(可能多次)
    • 重新检索(可能多次)
★基于内容检索(CBR)
  • 关键技术

    • 特征提取
      • 分割为最小单元
      • 识别分类,标注为预定义的语义类
    • 相似度匹配
      • 利用某种计算模型计算相似度
  • 重要指标

    • 查全率

    •  ↑↓ 相互矛盾

    • 查准率

图像检索
  • 原始数据层
  • 特征层
  • 语义层
视频检索
  • 视频的基本特性

    • 图片序列
      • 基本单位:镜头
    • 镜头切换
      • 直接切换
      • 渐变切换
    • 镜头运动
      • 镜头伸缩
      • 镜头摇动
      • 追踪
    • 视频的层次化结构
  • 结构化

    • 结构切分
      • 镜头边界探测
      • 关键帧提取
      • 故事单元边界探测
    • 内容提取
音频检索
  • 结构化
    • 语义内容分析
    • 音频结构分析
融合分析检索