Tibetan Information Entropy and Input Keyboard Design

Wanmezhaxi1,2,†, Nimazhaxi3

ACTA Scientiarum Naturalium Universitatis Pekinensis - - Contents - Wanmezhaxi, Nimazhaxi

1. Minorities Teachers College, Qinghai Normal University, Xining 810008; 2. Tibetan Information Technology Engineering Research Center, Tibet University, Lhasa 850000; 3. Modern Education Technology Center, Tibet University, Lhasa 850000; † E-mail: 15111746028@163.com

Abstract Based on research and analysis of the Tibetan spelling grammar, a computer Tibetan fast input keyboard layout is described by formalization, and some rules and method of Tibetan keyboard layout are derived. According to the Tibetan character’s frequency statistics, the rules of Tibetan keyboard layout, Dvorak keyboard keystroke convenient index, in order to facilitate memor and consider the similarity in pronunciation of English and Tibetan alphabet, a non-repeated code Tibetan keyboard layout is designed. Finally, it proves that the design of the keyboard layout proposed above is more scientific than the other input methods through the average number of keystrokes. Key words Tibetan input method; keyboard layout; non-repeated code; Tibetan information entropy

1 藏文输入法存在的问题

藏文输入是藏文信息技术的关键问题之一。评判输入技术的一个重要标准是能否实现快速输入。无重码输入是提高计算机藏文输入速度的重要途径。要实现计算机藏文无重码输入, 就必须设计输入法无重码键盘键位布局。

目前, 国内外已有很多藏文输入法投入使用,常见的有同元[1]、华光[2]、北大方正[3]、班智达、桑伯扎、藏大岗杰、阳光、央金玛、Monlam 以及

Himalaya 等输入法。每种输入法都有一定的缺陷,比如, 有些输入法不支持藏文编码国际标准, 有些输入法存在重码, 有些输入法使用大量的上档键键位, 有些输入法采用“组合键位”, 等等。这些输入法从不同的角度可以分为如下几种。

1) 从字符编码的角度, 可以分为两种: 一种是基于国际、国家编码(Unicode 编码)标准[4–5]的输入法, 另一种是基于其他编码的输入法。

2) 从输入单位的角度, 可以分为两种: 一种是按字(音节)输入的输入法, 另一种是按词汇输入的

输入法。

3) 从开发模式的角度可以分为 3 种[6]: 第一种是直接在应用层面开发的输入法, 第二种是挂接在现有的英、汉文 Windows 下的输入法, 第三种是建立 Keyboard layout 文件, 将键码直接映射为藏文字符的输入法。本文设计的藏文输入法键盘键位布局是基于国际、国家编码标准的按字(音节)输入的输入法键盘键位布局。目前, 基于国际、国家编码标准的按字(音节)输入的输入法中有两种最典型的输入方式: Himalaya 输入方式和藏文拉丁转写输入方式。为了分析这两种输入方式存在的缺陷, 本文引入信息熵的概念, 并计算输入一个藏文字所需的平均击键数。在 120 多万字的藏文语料上进行统计, 得到藏文常用字大约有 4500 个。假设藏语自然语言中的语句由这些字任意组合而构成, 每个字的出现与上下文无关(当然, 事实上任何一种自然语言都具有上下文相关性, 但对于研究按字输入的输入法来说,这样假设是足够的)。根据香农的信息熵[7], 以藏文字为单位统计的藏文信息熵为 方式输入一个藏文字(音节)平均需要的击键数为

2其中, 26 为键盘键位数, 对应 52 个藏文字符(不包括 10 个数字符号)。这个结果没有考虑重码的影响, 并且使用大量的键盘上档键键位, 大大降低了输入效率。

设计一种计算机藏文键盘键位布局时, 最好能够为每一个藏文字符都安排独立的下档键位, 当然任何一个键码序列必定唯一地对应一个藏文字(音节), 从而实现藏文的无重码快速输入。但是, 通用键盘只有 47 个下档键键位, 而实际上需要超过 47个下档键键位, 这就必须使几个下档键键位分别对应两个藏文字符, 而在输入过程中又不产生二义性。本文通过深入研究和分析藏文拼写文法, 建立藏文拼写文法的形式化描述, 推导计算机藏文键盘键位布局规则及方法。在此基础上, 综合考虑, 藏文字符的字频统计结果、德沃拉克键盘键位击键方便指数以及为了便于记忆加以考虑的藏文字母与英文字母发音上的近似性, 设计一种能够实现藏文无重码快速输入的输入法键盘键位布局。

2 藏文拼写文法的形式化描述

为了方便描述, 我们将 30 个藏文辅音字母和 5个反写字母分别映射到 b1~b35 表示符, 4 个元音符号分别映射到英文字母 i, u, e和 o, 1个长元音符号(◌ཱ)映射到英文字母 a。映射关系如表 1 所示。

根据表 1, 在深入研究和分析藏文文法[10–11]以及集合论的基础上, 建立以下藏文拼写文法的形式化描述。

藏文拼写文法 1 集合 Root={b1, b2, b3, b4, b5, …, b30, b31, b32, b33, b34, b35}的元素分别对应 30个藏文辅音字母和 5 个藏文反写字母, 则对于任意bi  Root 对应的藏文字符, 可构成藏文字的基字。

藏文拼写文法 2 对于集合 Prefix={b3, b11, b15, b16, b23}, Prefix  Root, 则任意 bi  Prefix (i=3, 11, 15, 16, 23)对应的藏文字符可构成藏文字的前加字。

藏文拼写文法 3 对于集合 Suffix={b3, b4, b11, b12, b15, b16, b23, b25, b26, b28}, Suffix  Root, 则任意bi  Suffix (i=3, 4, 11, 12, 15, 16, 23, 25, 26, 28)对应的藏文字符可构成藏文字的后加字。

藏文拼写文法 4 对于集合 Postfix={b11, b28},

Newspapers in Chinese (Simplified)

Newspapers from China

© PressReader. All rights reserved.