在声笔系列码定制版RIME支持字母选重后,现在完成了对声笔系列码的全面升级,并将版本号统一确定为8.5。这次升级的要点总结如下。
增加输入法的类型
声笔飞码和声笔快码进一步细分为X、K和S三型。X型的以词组为主,单字三码起顶;K型的以字均码长短为特点,sb单字二码起顶,其它单字三码起顶;S型以单字为主,辅以词组,单字均二码起顶。X型和S型均支持自动造词和动态调频,而K型不支持自动造词,但仍支持动态调频。从易学性来讲,X型是最简单的,其次是S型的,最难的是K型。K型是用于竞速的,需要记住词组的级别才能实现高速盲打。日常使用的话,词组派的可能认为X型更舒服些,而单字派可能觉得S型更舒服些。当然,最好是能根据使用场景,切换使用三种类型的飞码,以充分利用它们各自的优势。
改变两个单字简码
在声笔系列码中,一简字“m们”和二简字“mu么”几乎没有组词能力,不利于提高词组的离散性能,所以将它们改为了“m没”和“m名”,并将其它相关字的编码进行了调整。同时,将所有输入法的词组重新生成。对于声笔星二,则恢复其原来的单字编码方法,它的m上原来就是放的“没”字。
词库增加到20万
此前的声笔系列码词库是基于微软拼音、现代汉语词典、新华字典和成语词典,并采用了北语词频。结果,在约14万词中,只有约5万匹配上的频度,剩余的词组被赋与了-1的频度。虽然,北语词频做得很科学,有分类词频,也有综合词频。但是,北语词频比较陈旧,不能很好都反应词频的变化情况。另外,使用的以上词典数据年代比较久远,很多新的词汇都缺乏。
为了解决以上问题,我结合使用了相对较新的(2012年的)搜狗词频数据。搜狗词频大于0的约有15万条词组,与原来的声笔系列码词组合并去重后,得到约20万词组。这些词组的具体情况为:二字词90330条,多字词110273条,共计200603条。将这些词组按北语词频和搜狗词频联合排序,并以北语词频为优先,在北语词频相同时再以搜狗词频排序。在最终码表中用的是搜狗词频,表现出的效果是:简码按联合频率设置,重码按搜狗频率排序。
声笔系列码各款输入法的具体收词情况,请移步声笔系列码的词库优化实验。
升级声笔简码原生程序
修改声笔简码原生程序,与RIME程序同步反映一简字“们”和二简字“么”的变化,词库增大到20万,版本号改为8.5。