Skip to content

1 绪论

输入法的诞生,是汉字数千年发展史上开天辟地、里程碑式的重大事件。它以颠覆性的技术力量,彻底改写了汉字的命运轨迹,将这个古老文明的文字体系从信息时代的边缘,一举推向数字世界的中心,让汉字昂首驶入信息时代的高速公路,重焕新生。

在输入法诞生之前,人类生成文字的方式长期停留在写字与机械打字两大阶段。写字依赖纸笔,效率有限、难以规模化,这对汉字和英文等字母文字都是一样的。但是,机械打字对于结构复杂、数量庞大的汉字而言,几乎是 “不可能完成的任务”。在过去一百多年的近现代史中,汉字在打字、检字、排字、印刷、通信等现代化环节中遭遇了系统性、全局性的困境,因为字盘庞大、拣字繁琐、排版低效、成本高昂、速度缓慢,严重制约了中文的现代化传播与应用。

正是在这样的时代背景下,鲁迅先生曾痛切地发出“汉字不灭,中国必亡”的悲鸣[1],一场声势浩大的汉字拉丁化、汉语拼音化运动随之兴起,其核心诉求正是希望通过废除汉字、改用拼音文字,来解决汉字现代化的困境,本质上是汉字在工业文明冲击下的一次深刻危机。

与此同时,为了让汉字跟上时代步伐、融入现代文明,无数仁人志士、学者工程师前赴后继,开启了长达“一个世纪的汉字突围史”[2]。从早期笨重低效的中文机械打字机,到繁复的字盘设计、手动检字,再到电报编码,一代代人在黑暗中摸索、在困境中突破,只为让古老汉字能在现代技术体系中找到一席之地。

计算机的出现,为实现输入法提供了物质基础。在万码奔腾的热潮中,输入法不断进步,最终为这场漫长而艰难的突围画上了圆满句号。输入法不仅拯救了汉字、终结了汉字拉丁化的危机,更让汉字在数字时代站稳脚跟、大放异彩,成为全球使用人口最多、生命力最强的文字之一。

1.1 输入法的定义

《中国大百科全书・计算机科学技术》:汉字输入法是依托通用键盘输入汉字的整套编码方案,通过按键符号序列对应海量汉字,是实现电子设备汉字录入的核心方法。

维基百科(中文):输入法(输入法编辑器,IME)是操作系统组件或应用程序,可将输入设备的按键序列,转换为键盘原生字符集以外的文字。

《辞海》:输入法是向电子设备录入文字、符号所使用的编码方法与软件工具的统称,多用于汉字、日文、韩文等非拼音文字场景。

《汉字键盘输入技术与理论基础》[3]:汉字键盘输入(Chinese character keyboard input)是指将已印在或书写在纸上的文稿、思维过程中形成的腹稿或其它人的口授稿通过击键动作输入计算机。

**本书将输入法定义为用户将文本输入到设备的方法,其具体实现形式为一个输入系统。**用户一般就是人,他通过击键、说话、书写而实现输入。设备可以是计算机、手机、平板电脑、智慧屏等,它们的特点是具有强大的解码能力,使得输入法的实现成为可能。文本可以是中文的、英文的或者其它文字的。

键盘输入是最常见也是最典型的输入方式。对于字母文字而言,输入法与机械打字机几乎一样,只是字母向按键的简单映射。但是,对于以中文为代表的表意文字而言,情况就大不一样了。如何用几十个按键输入几万个汉字,涉及到的问题纷繁复杂,解决起来也是困难重重。

但是,在个别情况下,人参与的程度很低,而且不一定使用键盘。例如,在批量语音识别和批量字形识别时,人只是操作输入系统,而不需要参与输入过程。再如,用模拟打字软件自动打字时,人也不参与具体的输入过程。

本书主要论述中文输入法。严格来说现代中文还包括标点符号和阿拉伯数字等非中文符号,但由于中文输入的主体和难点在于汉字的输入,所以也常常不太准确地称为汉字输入法,或者干脆简称为输入法。

1.2 输入法的历史

输入法最重要的特征在于编码输入,这可以追溯到林语堂先生在1947年发明的明快打字机。林语堂是文学大师、语言学家,曾两度获得诺奖提名。他的打字机采用上下形检字法,取左上和右下部件编码,然后进行选择,实现了三键一字。在机械打字时代,他首次把键盘检索汉字的思路落地,成为后世输入法的源头,但是由于成本太高,商业化失败,未能普及。

1976年,朱邦复先生发明了仓颉输入法,原名形意检字法。他提出了汉字基因理论,系统解决汉字输入、内码、字形和排序等问题。在1982年,他公开放弃专利,以推动中文电脑普及。仓颉输入法为纯形码,最多五码,适合输入繁体汉字,目前在几乎所有繁体操作系统中都有内置,在繁体中文用户中影响很大。

1978年,支秉彝先生的见字识码(俗称支码)在《自然杂志》上发表。同年,上海《文汇报》以“汉字进入了计算机”为题对见字识码进行了长篇报道,掀开了全国性”编码热潮“的序幕,大量的学者、专家和普通群众投入巨大的热情参与其中,时至今日仍然延绵不断。实际上,支先生从1968-1976年因文革被隔离时就开始构思了,用茶杯盖、废纸演算完成,只是未能及早正式公布。见字识码采用字根音托结合本字首字母进行编码,四码定长,是第一个简体汉字输入法,早期在上海市内电话局和上海电工仪器研究所使用,后来有部分国产汉字终端、微机操作系统和激光照排系统将它作为可选输入法。由于未被主流的DOS和Windows操作系统预装,所以没有得到广泛使用。

1984年,电子工业部第六研究所的严援朝主持开发了CCDOS,其最经典的2.1版在IBM PC兼容机上实现了中文的显示、打印和输入,成为中国第一个大规模普及的中文操作系统平台。CCDOS内置了四种输入方案:区位码,依据GB2312国标区位直接输入,无重码但需记忆编码;首尾码,取汉字的左上和右下部件编码,门槛较低;简拼码,使用的是介于全 拼和双拼之间的一种拼音方法,对三个及三个字母以上的韵母进行了压缩;快速码,则是首尾码的基础上提速的高级方案。这四种方案分别面向不同层次的使用者,构成了中国最早的输入法"组合拳"。CCDOS的出现,使得中文软件在PC上有了统一的操作环境,随后WPS、CCED等国产应用软件都在其上蓬勃发展,为中文信息化的全面铺开奠定了基础。

1986年,王永民先生发明的五笔字型(又称王码)推出86版,1998年推出98版,2008年推出新世纪版。他从1978年起,用五年时间,把12000多个汉字逐一拆解,最终归纳为130种基本字根,分布在25个字母键上,最多四码。五笔字型是典型的纯形码方案,重码率低,熟练后可做到快速盲打,曾是专业录入人员的不二之选。它被预装在四通打字机和微软Windows、IBM OS/2等主流操作系统中,曾经遍布全国大街小巷的五笔打字培训班也助推了它的传播,覆盖了数千万用户,是简体中文形码输入法中最具影响力的一款。

还是在1986年,刘卫民先生提交发明专利《汉字电脑双音编码输入体系》(简称双拼双音)。同年,双拼双音正式预装四通 MS‑2400 打字机,又随 WPS / 西山 DOS 捆绑发行,是第一个被大规模采用的双拼方案。双拼就是将每个汉字的拼音拆成声母和韵母两部分,分别映射到单个按键上,使得任何一个音节都恰好两键完成,按完声母和韵母后再输入下一个字的声母和韵母。这种方法击键次数少、节奏均匀,大幅提升了拼音输入的效率。双拼后来被自然码、微软拼音、搜狗拼音等主流输入法广泛采纳,成为拼音输入法的一种基础配置。时至今日,各种双拼方案仍然拥有大批忠实使用者。

1988年,周志农先生推出了自然码输入法。它以双拼为基础,再辅以汉字的偏旁部首作为辅助码来区分重码,是第一个双拼双形的音形结合方案。自然码最大的特点是易学易用,会拼音就能用,不会拆字也能打字,而辅助码则是锦上添花,让熟练用户进一步提速。在DOS时代和Windows初期,自然码积累了上百万用户,是当时最受欢迎的第三方输入法之一。虽然后来未能被操作系统内置,但它的音形结合思路对后世输入法产生了深远影响,比如后来在2009年出现的小鹤音形就采用了相同的思路。

1989年,郑易里先生与女儿郑珑一起完成了郑码(字根通用码)。他是农学家、出版家,曾主编《英华大词典》。他从1929年起就开始琢磨汉字编码问题,经过半个多世纪的积累,郑码按汉字的起笔特征将字根分为横、竖、撇、点、折五大类,每字最多四码,编码体系极为严谨,被专家称为"最科学的形码"。1990年代中期,郑码被微软Windows 95中文版正式内置,成为少数进入主流操作系统的形码输入法之一。它也广泛应用于全国报刊检索和大型图书馆书目系统中。

1992年,中科院自动化所与总参通信部合作,系统定型,以 “汉王笔” 为名正式推向市场,成为真正老百姓能买到的 “汉王笔”。不过,早在1966年IBM就提出了1000汉字的识别方案,1970年代末中国就启动了印刷体汉字识别的研究。2016年,CRNN 推动中文手写 / 复杂场景识别质变。2020年以后,多模态大模型实现中文 OCR + 理解一体化。现在,手写汉字识别已经成为大厂输入法的标配,但是因为手写的速度太慢,仅仅为不会打字的人在不能用语音识别时使用。

1992年,陈劲松先生发明了二笔输入法,全称"阴阳二笔输入法"。二笔是 “声母 + 两笔一组” 的音形码,学习门槛低,即使不懂拼音,也可用纯笔画模式输入。二笔输入法曾被教育部纳入中小学信息技术教材,在基础教育领域有一定影响,目前仍然有一些二笔的爱好者在继续使用。

1993年,朱守涛先生在北京大学期间开发了智能ABC输入法,被微软Windows系统内置,成为数亿中文用户的默认输入工具。智能ABC支持全拼、简拼、混拼、笔形和音形组合等多种输入模式,并具备一定的智能记忆和自动调频能力。用户只需输入每个字的首字母,系统就能大致猜出想要的词组,这种"简拼"方式极大地降低了打字门槛。智能ABC曾是简体中文世界使用人数最多、覆盖面最广的拼音输入法,后来因为搜狗拼音的掘起而被淹没。

1994年,陈一凡和胡宣华合著的《汉字键盘输入技术与理论基础》[3]一书,全面论述了汉字键盘输入技术的原理、方法和系统,成为第一本这方面的系统性学术专著,分别讨论了汉字特征信息、特征信息编码、系统设计方法、系统质量评估和选用原则,并介绍了海内外各具特色的32种实用系统。

1994–1998年,哈尔滨工业大学王晓龙教授提出了"语句级输入"的核心理念,将拼音输入从传统的逐字逐词推向了整句智能转换,其技术路线是语句级输入 + N-gram统计语言模型 + 动态规划/Beam Search解码,早期采用二元、三元模型,后期逐步升级到高阶N-gram与混合模型。微软在此基础上开发了微软拼音输入法,将其内置在Windows和Office产品中,第一次让大量普通用户体验到了整句输入的魅力。微软拼音的出现,标志着输入法从字词编码阶段迈入了统计语言模型驱动的新阶段。在不断迭代微软拼音的同时,微软还推出过独立发布的英库拼音和必应输入法,后来并入微软拼音,加入网络词汇,融入AI技术,同时支持五笔,追平了国内大厂输入法。

1995年,美国Tegic公司推出了面向手机的T9输入法,中文里常叫“九宫格输入法”。它的核心创新在于将26个字母映射到手机的3×3数字键盘上,每个按键对应3至4个字母,由软件根据词库自动消除歧义,用户无需多次按同一键来选字母。对于中文,T9提供了两种方案:其一是拼音映射,将汉语拼音映射到九宫格上,系统即可根据上下文匹配出最可能的汉字或词组;其二是笔画输入,将横、竖、撇、点(捺)、折五种基本笔画依次映射到1至5号键上,用户按笔顺逐画击键,系统根据笔画序列缩小候选范围,直至命中目标汉字。T9让单手盲打成为可能,深刻塑造了一代人的手机输入习惯。直到智能手机全面普及的今天,仍有大量中文用户坚持使用九宫格键盘布局,它已成为移动输入领域最具生命力的经典设计之一。

1995年,戴石灵(戴石麟的曾用名)先生发明了文字码(全称文字式音形汉字输入法)[4],用26个英文字母中22个字母来表示声母、韵母和前后部件,并用剩余的aeio四个字母表示声调并兼作选择键,首次实现了具有前缀码性质的输入方案,也为后来顶功方案的提出作出了铺垫。

2004年,戴石麟先生发明了声笔输入法,陆续申请了多个发明专利[5-7],开创性地提出和完善了"顶功"输入模式,为大量后续顶功输入方案的研发指明了方向。顶功的核心思想是:将码元分为两个或者多个不相交的子集,使得字词编码的界线明确,当用户连续输入下一个字的编码时,上一个字的首选结果会自动上屏,无需按空格或数字键进行选择,从而节约大量按键;同时,编码可以根据需要不断延长,从而快速筛选出不常见的字词。这看似简单的机制,实际上有着深刻的信息论基础,这在戴石麟的硕士论文《汉字编码输入法研究》[8]中进行了详细论述。

2006年,搜狗公司推出了搜狗拼音输入法。它首次将搜索引擎的海量网页数据用来训练语言模型,使得整句转换的准确率大幅跃升。搜狗还引入了细胞词库、云端词库、智能纠错、模糊音、换肤和个性化服务等创新功能,将输入法从单纯的工具软件变成了一个互联网服务平台。搜狗拼音的出现,彻底终结了桌面输入法收费的时代,也宣告了互联网输入法时代的到来。此后,QQ拼音、谷歌拼音、百度输入法、讯飞输入法、小艺输入法、微信输入法等纷纷跟进,拼音输入法进入了一个以大数据、云计算为驱动的新纪元。在AI时代,大模型也被融入到了输入法之中。

2010年,科大讯飞推出了讯飞输入法,成为全民语音输入的破局者。讯飞的核心优势在于其深耕多年的智能语音技术,支持普通话、粤语、四川话等二十余种方言识别,并针对不同场景进行了深度优化。用户无需敲击键盘,只需对着手机说话,系统就能将自然语音实时转写为文字,准确率在安静环境下可达98%以上。讯飞输入法的出现,使得语音输入从实验室走向了大众,尤其惠及了打字不便的老年用户和偏远地区人群。

2011年,佛振(网名)发布了Rime输入法引擎(中州韵输入法引擎),一个开源、跨平台的中文输入法框架[9]。Rime的独特之处在于,它本身不是一个输入法,而是一个高度可定制的输入法引擎,还可通过插件进行功能扩展。任何人都可以用YAML配置文件定义自己的输入方案,无论是拼音、双拼、五笔、仓颉还是自创的输入方案,Rime都能驱动,使得新的创意可以比较简单地实现。它的核心库Librime可以在不同平台上运行,衍生出品了多个前端,如Windows上的小狼毫、macOS上的鼠须管、Linux上的ibus-rime和Android上的同文输入法,还有支持多个前端的小企鹅。Rime的出现,让人们可以自由掌控的开源工具,保护了各种小众编码方案免于失传,在技术爱好者和输入法极客群体中拥有极高的声誉。在商业输入法日益同质化的时代,Rime以其开放、纯粹和可编程的特性,成为了中文输入法领域的一股清流。

2015年,逆卷炎灵(网名)在其《科学形码测评系统介绍》一文中比较系统地澄清了一些汉字编码方面的概念,提出了输入法效率和“手感”的具体评价指标和计算方法,并用EXCEL表加以实现。另外,他还开发了“极速跟打器”用于练习打字,“极速赛码器”用于自动模拟打字,”极速打字网“用于打字比赛和排行[10],比其它同类产品如金山打字通等完善得多。他的这一套作品在输入法爱好者中影响较大。

2020年,谭淞宸(网名蓝落萧)发布了汉字自动拆分系统[10]。这是一个开源的汉字编码输入方案优化工具链。Libchai是使用 Rust 实现的汉字编码输入方案的优化算法。它同时发布为一个 Rust crate 和一个 NPM 模块,前者可以在 Rust 项目中安装为依赖来使用,后者可以通过汉字自动拆分系统的图形界面来使用。Chai是使用 Libchai 实现的命令行程序,用户提供方案的配置文件、词信息文件等,能够生成编码并评测一系列指标,以及基于退火算法优化元素的布局。Chaifen是其网页版前端程序。汉字自动拆分系统的出现,为开源社区提供了便捷的计算辅助设计手段,催生了大量基于算法的新输入方案。

2022年开始,ChatGPT等大模型工具的出现使得大量文本的生成变得易如反掌。人们的写作和编程过程不再是单纯的打字,而是用输入法给大模型输入提示词或者指令,大模型此生成对应的文本,用户再用输入法根据需要进行修改和调整。

2025年,字节跳动发布了豆包输入法,实现了基于AI(Seed‑ASR 2.0 + 豆包大模型)的端到端语音转文字,在语义理解和上下文推理能力方面有质的飞跃,使得语音输入的准确率和流畅度达到了实用水平,一举超过了讯飞的语音识别能力。与之类似的还有TypeLess、智谱AI输入法和闪电说。另外,微信输入法、讯飞输入法、搜狗输入法、百度输入法也在AI语音转文字方面进行了改进。

1.3 本书内容简介

待本书写完后再来补充。