Multimedia
2020-06-16
Chapter 1
媒体
- CCITT对媒体的分类
- 感觉媒体(人类感受到的)
- 表示媒体(计算机内部标识的二进制信息)
- 表现媒体(感觉↔表示)
- 存储媒体
- 传输媒体
- 关键特性
- ★信息载体多样性
- ★交互性
- ★集成性
- 实时性
多媒体的产生与发展
- 产生:20世纪80年代
- 改变了人类工作、生活方式
- 改善了人类的交流效率
- 缩短人类传递信息的路径
- 多媒体数据的特点
- 数据量巨大
- 数据类型多
- 数据类型间区别大
- 输入输出复杂
多媒体技术
- 数据压缩技术
- 数据处理技术
- 数据存储技术
- 数据通信与网络技术
- 信息管理技术
- 软硬件平台技术
Chapter 2
计算相关
- 图像文件大小
- (高×宽×灰度位数)/8字节
- 视频数据量
- 帧速×每帧图片的数据量×时长(s)
- 音频数据量
- (采样频率×每点采样位数×声道数×时长(s))/8
技术参数
- 图像
- 视频
- 颜色空间
- RGB(红绿蓝)
- YUV(亮度、色差)
- HSI(色调Hue、饱和度Saturation、强度Intensity)
- 帧速
- 25fps(PAL):我国的视频制式
- 30fps(NTSC)
- SECAM
- 颜色空间
- 音频
- 采样频率
- 采样精度
- 通道数
音频相关
- 三要素
- 响度
- 音调
- 音色
- 音频处理
- 采样
- 量化(主要失真来源)
- 编码
Chapter 3 压缩技术
★数据压缩编码的必要性和可能性
- 必要性
- 多媒体数据包括文本,声音,动画,图形,图像以及视频(编码必要性);
- 多媒体数字化后的海量性;
- 多媒体文件在计算机中的处理,访问,存储,传输等问题。
- 可能性
- 数据冗余
- 时间冗余
- 空间冗余
- 视觉冗余
- 听觉冗余
- 结构冗余
- 信息熵冗余
- ……
- 数据冗余
信息熵
- H(U) = E[-㏒p[i]] = -∑p[i]㏒p[i]
压缩方法和分类
- 解压后是否与原始数据一致
- 无失真压缩
- 熵编码
- 冗余压缩法
- 无损压缩法
- 有失真压缩
- 熵压缩法
- 有损压缩法
- 无失真压缩
熵编码(指不考虑被压缩信息的性质的编码和压缩技术)
- 特点
- 无损压缩
- 压缩比一般较小
- 消零编码
- 统计编码
- Huffman编码
- 行程编码
源编码(要考虑初始信号的类型、前后的相关性、信号的语义内容)
- 预测编码
- 变换编码
- 向量量化
★压缩性能和指标
- 关键参数
- 压缩比(压缩性能)
- 输入:输出
- 图像质量(恢复质量)
- 压缩解压速度(算法复杂度)
- 压缩比(压缩性能)
★预测编码(对实际值和预测值的差进行编码)
- DPCM(差分脉码调制)
- ADPCM(自适应差分脉码调制)
- DCT编码(离散余弦变换)
★统计编码
行程编码
- 方法
- 检测重复的比特或字符序列,并用它们的出现次数取而代之。
Huffman编码
- 方法
- 对给定的数据流,计算其每个字节的出现频率;
- 根据频率表,运用哈夫曼算法可确定分配各字符的最小位数,给出一个最优的编码;
- 代码字存入代码表中。
小波变换编码
- 方法
- 通过平移和伸缩等运算,实现空间(时间)和频率的局部变换,因此能有效地提取信息。
音频压缩
- 不同音频的带宽
- 电话:200Hz-3.4kHz
- 调幅广播:50Hz-7kHz
- 调频广播:20Hz-15kHz
- 宽带音响:20Hz-20kHz
ITU-TS建议标准
标准 | 编码 | 采样频率 | 量化位数 | kbps |
---|---|---|---|---|
G.711 | PCM | 8kHz | 8 | 64 |
G.721 | ADPCM | 8kHz | 8 | 32 |
G.723(有损) | ADPCM | 8kHz | 8 | 24 |
G.728(有损,低延迟) | 向量量化 | 3.4kHz | 8 | 16 |
CELP(语音压缩) | LPC-10E(线性预测编码) | — | — | 4.8 |
MPEG | 变换编码,子带编码 | — | — | — |
图片压缩
- 标准:JPEG
视频压缩
- 标准
- MPEG
- H系列
- 运动JPEG
- 主要的数据冗余
- 时间冗余
- 空间冗余
- 压缩方法
- 帧间压缩
- 帧内压缩
Chapter 4 多媒体硬件环境(输入输出复杂)
存储设备
光盘读写
- 检验
-EFM编码
音频接口
MIDI(Music Instrument Digital Interface)
视频接口
Chapter 5 多媒体软件基础
★多媒体素材制作软件
- PS
- PR
- Audition
★多媒体著作软件
- PowerPoint
- 电子相册
★多媒体程序设计基础
- mciSendString()
- mciGetErrorString()
- mciExcute()
Chapter 6 网络多媒体技术
多媒体网络
数据流基本特征
- 比特率可变性
- 事件依赖性
- 信道对称性
Quality of Service (QoS)
性能需求
- 吞吐量
- 可靠性
- 延迟
- 多点通信
- 同步
QoS分类
- 确定型
- 统计型
- 尽力型
超媒体技术(超文本+多媒体)
- 组成
- 节点
- 链
- 热标
- 宏结点
- 标记语言
- HTML
- HTTP
- XML
超文本 (Hypertext)
- 非线性
- 发散性
- 联想性
★流媒体技术
- 分类
- 实时流式
- 顺序流式
- 系统组成
- 编码器
- 服务器
- 播放器
- 方式
- 单播
- 多播
- 广播
实时流式
- 适合播放实时事件(如Live)
- 需要专用的传输协议和流媒体服务器(如RTSP或MMS)
顺序流式
- 适合高质量短片段视频或点播(Bilibili/Youtube[非直播])
- 使用HTTP或FTP传输
多媒体通信协议
- IPv6
- RSVP
- RTP
- RTSP
Chapter 7 多媒体应用开发与系统
- 步骤
- 选题
- 脚本设计
- 媒体的摆放
- 按钮位置、激活方式
- 时间编排
- 创作设计
- 页面创作
- 编程
- 布局、超链接
- 测试维护
在线会议系统
- 结构
- 关键技术
- 网络传输与接口
- 信息压缩
- 多点控制
- 标准化
Chapter 8 多媒体数据库
人工管理
↓
文件系统管理
↓
数据库管理
- 要求
- 存储环境(容量大,类型多)
- 传输环境(实时性要求)
- 软件环境(方便查询)
多媒体的数据类型(数据类型多)
- 字符数值
- 文本数据
- 声音数据
- 图形数据
- 图像数据
- 视频数据
数据库体系结构
联邦型
- 每种数据类型有自己的库
集中统一型
- 一个库包含全部数据类型
客户/服务型
- 每种数据类型有自己的库,用户与库之间有中间件
超媒体型
- 数据库分散在网络上,没有统一的库
多媒体数据模型
- NF²(允许表中有表)
模型扩充
- 方式
- 数据库中存放多媒体文件路径,利用文件检索程序查找多媒体文件(文件需频繁更换)
- 数据库中存放放多媒体文件及其关键字,直接在数据库中查找多媒体文件(文件小且多)
- 一个库实现以上两种方式
Chapter 9 多媒体内容分析与检索
检索
检索系统
- 结构
- 插入子系统
- 特征提取子系统
- 查询子系统
- 数据库(媒体库+特征库)
- 过程
- 初始检索说明
- 相似性匹配
- 特征调整(可能多次)
- 重新检索(可能多次)
★基于内容检索(CBR)
关键技术
- 特征提取
- 分割为最小单元
- 识别分类,标注为预定义的语义类
- 相似度匹配
- 利用某种计算模型计算相似度
- 特征提取
重要指标
查全率
↑↓ 相互矛盾
查准率
图像检索
- 原始数据层
- 特征层
- 语义层
视频检索
视频的基本特性
- 图片序列
- 基本单位:镜头
- 镜头切换
- 直接切换
- 渐变切换
- 镜头运动
- 镜头伸缩
- 镜头摇动
- 追踪
- 视频的层次化结构
- 图片序列
结构化
- 结构切分
- 镜头边界探测
- 关键帧提取
- 故事单元边界探测
- 内容提取
- 结构切分
音频检索
- 结构化
- 语义内容分析
- 音频结构分析