信息的数字化(信息编码与数字化)
信息编码是指将信息数字化,这里的信息包括数字、字符、声音、图像等。
数字编码:用于计数的不同数制或进制,如十进制、二进制、十六进制、八进制;
字符编码:字符的数字化,包括字母、符号、各国文字(如汉字)等字符的编码方案,如ASCII、Unicode等;
多媒体编码:连续变化的“模拟量”的采样和量化,包括声音、图像、以及二者结合的视频的数字化。
1 数字编码
计算可以使用不同的进制,如计时使用60进制,月份使用12进制,星期使用7进制。n进制就是逢n进1的进制。不同的进制或数制来计数都有各自的优势或使用习惯。在计算说明中,使用二进制需要较多的位,但两种状态最容易实现并有很高的稳定性。
2 字符编码
对于拉丁语系国家的字符,通常使用ASCII的字符编码方案以及通过键盘即可简单输入,而非拉丁语系国家,如中国的汉字就不行了,于是就有了自己字符的编码方案,如GB2312、GBK等,港台的BIG-5、日本的Shift-JIS等。于是,国际标准化组织就推出了一个Unicode方案,用于统一全球字符的统一编码。
同时,字符编码需要考虑字符的输入、存储、输出。
2.1 字符存储:有了字符编码方案后,如何存储?如Unicode,可以使用utf-8、utf-16、utf-32等存储方案,存储需要考虑操作的便捷与存储空间的节约。
2.2 字符输入:有了字符编码与存储方案后,键盘以外的字符输入如何输入呢?直接输入字符编码方案的字符序列编码肯定不是一种可取的方式,因为不够直观,不方便记忆,于是,就有了字符的输入法,如汉字的五笔输入、拼音输入、以及自动识别输入(如语音输入、手写输入(字符识别技术))等。
2.3 字符输出编码:也称字形码,通常以点阵的位图输出,用于显示和打印。
3 多媒体编码
3.1 声音编码
声音是振动产生的波,它是一种模拟信息,话简以及相关电路可以把声波转换成电压的波形,但这仍然是一种连续平滑变化的模拟信号。只有通过采样和量化,模拟百思特网信号才能转换成数字信号。例如,在录制声音的过程中,声源的声音是一种模拟量, 话筒是传感器,声卡则对采样和量化所得的声音信号进行编码,最后形成数字化的声音文件。
数字化声音的质量取决于采样频率和量化分级的细密程度。采样频率越高,量化分辨率越高,所得数字化声音的保真程度也越好,但是它的数据量也会越大。
声音文件大小的计算公式:采样频率X量化位数*声道*时间。如一般CD格式音乐采用44.1kHz的采样频率,16位量化分辨率,立体声双声道,你能计算出每秒的数 据量是多少吗?数据量为44100* (16/2) *2= 176400字节,每分钟的数据量约为10MB。
采样就是每隔一定的时间,测取连续波上的一个振幅值。
量化就是用一个二进制尺子计量采样得到的每个脉冲。
3.2 图像数字化
图像和视频可以通过扫描仪、数码相机和摄像头等设备实现数字化。图像数字化的基本思想是把一幅图像看成由许许多多 的点组成,这些点被称为像素,它们按纵横排列起来构成一幅 画。每个像素有深浅不同的颜色,像素越多百思特网,排列越紧密,分 辨率越高,图像就越清晰。
3.2.1 位图(bitmapped graphics)法:用点阵描述图像,并用一组0、1码数据描述。这种图像也称为位图。
3.2.2 矢量图(vector graphic百思特网e)法:用一些基本的几何元素(直线、弧线、圆、矩形等)以及填充色块等描述图像,并用一组指令表述。这种图像一般称为图形或合成图像。
采样(sampling)就是在每个小块中取它的颜色参数,将它的颜色进行分解,计算出红、黄、蓝(R、G、B)三种基色分量的亮度值。将每个采样点的每个分量进行0、1编码,就称为量化。
目前,像素深度有如下一些标准类型:
黑白图(Black & White)。颜色深度为1,只有黑白两色。
灰度图(Ggay& Scale)。颜色深度为8,256个灰度等级。
8色图(RGB 8-Color)。颜色深度为3,用3基色产生8种颜色。
索引16色图(Indexed 16-Color)。颜色深度为4,建立调色板, 提供16种颜色。
索引256色图(Indexed 256-Color)。颜色深度为16,建立调色板,提供256种颜色。
真彩色图(RGB True Color)。颜色深度为24,提供16 777 216种颜色,大大超出人眼分辨颜色的极限(16 000种)。颜色深 度也可以是32,更为真实。
一幅数字图像,常用一个文件存储,存储空间为:
文件字节数=(位图宽度X位图高度X位图颜色 深度)/8
4 程序编码
程序是用来解决问题和处理数据的,所以面对问题的解决方案,首先是一个数据表示或数据化的过程。有了信息编码,便可以通过编程(程序编码)来处理信息。程序中的数据表示,表现为数据类型的变量、字面量、数据结构。