2 理论
2.1 模型
陈一凡等对输入模型做了相当深入的研究[3]。他们分析了汉字键盘输入流程,提出了“理想的汉字特征信息键盘输入的数学模型”和“实际的汉字特征信息键盘输入的数学模型” 。他们的数学模型以集合论为工具,说明了汉字、汉字特征信息、键元、汉字内码之间的映射关系及重码的处理办法。
张侃等按照人的视听感觉、认知和动作对整个汉字键盘输入过程进行分界和说明,得到了一个汉字键盘输入的认知模型[11]。该模型的三个不同层次的加工过程和容量限制分别为评测汉字输入方法的三个主要素质提供理论依据:即长期记忆量与易学性,短期记忆量与心理负荷和易学性,认知、动作加工与易用性和输入速度。
戴石麟曾提出了一个基于信息论的输入系统模型[8],但是在分析和解释时还不太令人满意,有些简单、粗糙。本书对这个模型进一步完善,进行更全面的论述,赋予模型更深刻的含意。完善后的模型如下图所示:

其中,m代表消息(message),m’代表消息的内 码,s代表信号(Signal),s’代表信号的内码,p代表提示(Prompt),p’代表提示的内码。与信息论中的通信系统模型相比,该图中的模型多了一个反向信道, 而其它部分都是相同的,相当于一个带反馈的通信系统。与一般通信系统不同,反馈提示在文字输入系统中是不可缺少的、非常重要的组成部分。在输入法中消息就是文本,而信号就是与文本对应的编码。注意,这里的编码是名词,与方框中作为动词的编码在含义上是不一样的。
虽然模型中各部分的具体含义与典型的通信系统中的相应部分大不相同,但是信息论中的普遍结论仍然是成立的。特别地,针对输入系统来说,模型可以明显地分为用户、设备和两者之间的界面三个部分,分别对应人、机和它们之间的交互。人的高度参与是输入系统的显著特点,也是输入系统的瓶颈所在。
2.2 信源
输入系统的信源是文字。文字作为信源可以看成是一个稳态、遍历的离散随机过程,它是一组定义在离散时间点上的随机变量构成的序列,其数学表达式为:
其中:
表示样本空间 中的一个样本点。在输入法中,样本空间一般是一种文字可用的字符集,如英文的 ASCII 字符集,中文的 GB18030 字符集。样本点则是字符集中的字符,如英文中的 a, b, c 等,汉字中的「中」「国」等。如果以词、句等为单位,则 应改为它的 Kleene 闭包 的某个子集,也就是 上字符串的某个集合。 表示正整数 中离散时间点; 表示第 个随机变量,其取值依赖于样本点 ,即一段文本中的第 个字词; - 这n个随机变量都是同分布的,但并不一定是独立的。
文字的极限熵定义为序列长度趋于无穷时每个字词的平均熵,数学表达式为:
第一式基于定义,第二式成立是因为信源的稳态性和遍历性。
如果文字信源以词作为样本点,那么在计算的时候,就需要除以词的长度从而折算为字的熵,才便于进行横向比较。这和字词型输入法计算平均码长时的情况是类似的。
字符集
ASCII
GB2312
通规
GBK
GB18030
CJK
大字集
全字集
各种字
- 常用字
- 高频字
- 传承字
- 简化字
- 简体字
- 繁体字
- 传统字
- 新旧字
- 正体字
- 俗体字
- 异体字
- 异写字
- 生僻字
2.3 编码
语音、字形