ACTA Scientiarum Naturalium Universitatis Pekinensis
An Individual-group-merchant Relation Model for Identifying Online Fake Reviews
YU Chuanming1, FENG Bolin1, ZUO Yuheng1, CHEN Baiyun1, AN Lu2,†
1. School of information and safety engineering, Zhongnan University of Economics and Law, Wuhan 430073; 2. School of Information Management, Wuhan University, Wuhan 430072; † Corresponding author, E-mail: anlu97@163.com
Abstract A novel individual-group-merchant relation model is proposed to automatically identify fake reviews on E-commerce platforms, which focuses on the characteristics of fake reviewers’ behaviors instead of review contents. Three sets of indicators are proposed, i.e. individual indicators, group indicators and merchants’ indicators. To validate the model, an empirical study of fake review identification from a Chinese E-commerce platform is implemented. A number of 97804 reviews posted from 9558 different IP addresses, which are related to 93 online stores, are selected as test data. Results show that the F1-measure values of the proposed model on identifying fake reviewers, online merchants and groups with credit manipulation are 82.62%, 59.26% and 95.12%, respectively. Utilizing logistic regression and K nearest neighbor classifier based on the comments of the content as the baseline methods, the F1-measure values are 52.63% and 76.75%, respectively. Thus, the IGMRM model outperforms traditional methods in identifying fake reviewers. Key words credit manipulation; fake review identification; user behavior modeling; IGMRM
随着电子商务的发展, 客户评论在网上交易中扮演着重要的角色。潜在买家通常首先阅读产品的评论, 并倾向于购买那些带有较多正面评论的产品。由于正面意见通常会带来显著收益, 于是一些不法商家或者个人通过幕后的评论操纵来提升其产品的声誉和人气, 从而获取更多利益[1]。研究表明,
在网络评论中存在一定数量的虚假评论者, 他们通过相互协作来发布虚假评论, 这些团体被称为虚假评论者群体[2]。
[3–5] Jindal 等 在针对虚假评论的研究中提出一些指标来挖掘虚假评论者的行为。这些研究专注于个人在网络平台上的虚假评论行为, 却忽略了与发
布虚假评论相关的商家。Xu 等[6]提出基于 KNN 和图的分类方法, 开展与群体级别的虚假评论者相关
[7]的实验, 验证了虚假评论群体的存在。Wang 等根据由评论者、群体和商家构成的关系图, 揭示他们之间的联系。但是, 如何量化虚假评论个人、群体和商家的行为特征, 如何揭示虚假评论个体、群体以及商家之间的关系, 目前还没有系统性的相关研究。鉴于此, 本文尝试构建虚假评论个体、群体和商家的行为指标体系, 提出基于个人–群体–商户的主体关系模型 (indivual-group-merchant relation model, IGMRM), 并验证其有效性, 以期为识别虚假评论个人、群体和商家提供一种新思路。
1 相关研究
当前关于虚假评论的识别主要分为两类: 一类是采用有监督的机器学习方法, 将虚假评论的识别过程视为一个分类过程, 结合心理学与计算语言学方法, 抽取评论的语言内容线索, 利用有监督的支持向量机、决策树等分类器, 对手工标注的虚假评论集进行学习, 建立统计模型来检测虚假评论[8]。这类有监督的机器学习算法的准确率在极大程度上依赖于人工标注。对于海量的评论数据, 人工所能识别的虚假评论数量极为有限, 极大地制约了虚假评论识别研究的发展[9]。尽管已采取一系列的方法来改进标注集的准确度, 但在真实商业情境下的分类效果不理想。例如, Ott 等[10]利用亚马逊的 AMT工具, 模拟生成虚假评论数据作为标注集, 在虚拟评论分类识别中取得很好的效果, 但在真实的商业数据集(Yelp 的评论数据)中, 由于真实数据与模拟数据的差异性, 导致识别效果不理想[11]。可见, 受限于高质量标注集的获取, 有监督的分类方法对虚假评论的识别有一定的局限性。另一类是采用非监督的方法进行虚假评论识
[12]别。Li 等 提出基于 Pu-learing 的半监督方法,使用少量的标注数据和大量的非标注数据来识别虚
[2]假评论。Mukherjee 等 率先使用非监督算法, 探讨虚假评论者的行为特征, 建立群体、个人和产品间的 3 个二元关系模型, 然后根据每组模型中二者之间的关系, 进行相互迭代推理, 得到一组稳定的标识评论者群体虚假程度的数据, 并据此识别虚假评论者, 进而识别虚假评论。Mukherjee 等[13]探索了聚类算法在虚假评论识别中的有效性, 通过分析虚假评论发布人和真实评论发布人行为上的差异,
区分虚假评论者和正常评论者, 进而识别虚假评
[14]论。Akoglu 等 从网络结构特征入手, 结合评论者和产品的网络结构信息来发现虚假评论者, 能够很好地避免人工标注的数据集质量和数量问题, 也极大地提升了虚假评论识别的效率。
在国内, 邱云飞等[15]从虚假评论者的行为目的出发, 研究了 5 种行为模式, 以此为指标进行标注,设计了有监督的线性回归模型, 预测潜在的虚假评
[16]论者。孙升芸等 定义了虚假评论者常见的三类行为模式, 通过人工评判以及计算 NDCG (normalize discount cumulative gain)值的方法来计算虚假
[17]评论者的虚假程度(spam score)。李霄等 从评论、评论者和被评论的商品角度选择多个特征, 使用支持向量机模型识别虚假商品评论。邓莎莎等[18]结合心理学的欺骗理论, 根据欺骗语言线索提取特征, 并验证其在虚假评论识别中的有效性。宋海霞等[8]在研究评论者的行为特征基础上, 提出基于评论者行为特征的自适应聚类的虚假评论检测方法。此外, 还有学者从虚假评论发布者行为动机、虚假评论形成路径等角度着手, 力图还原虚假评论
[19]者行为。孟美任等 将虚假评论者的评论动机分为推销、诋毁、干扰和无意义等 4 个方面, 并逐个
[20]分析其特点和危害性。陈燕方等 分析了虚假评论涉及的四大主体——在线评论者、在线商家、电商平台、虚假评论——构成的虚假评论的六大路径及其动因和特点, 对虚假评论者的行为特征研究奠定了一定的基础。
2 数据与方法
本文用虚假度(degree of fakeness)来衡量评论个人、群体及商家虚假程度的指标。为了统一所有指标的量纲, 减少数据倾斜带来的误差, 我们将虚假度的值定义在[0, 1]范围内, 越接近 1, 虚假度越高; 越接近 0, 虚假度越低。
2.1 行为指标
通过对电商网站数据进行统计和分析, 我们建立了多项行为指标。
在评论者层面, 注册账号率(register user ratio, RUR)和注册账号时间间隔(user register window, URW)是对评论者注册账号行为异常性的度量, 能够有效地揭示虚假评论者和正常评论者在注册账号数量和时间间隔上的差异性。对样本数据的统计表明, 正常评论者在特定时间内注册账号的数量通常
在一定的范围之内。如果评论者在短时间内账号注册数量超过一定阈值, 则存在异常的可能性高于普通用户。与此类似, 正常评论者注册多个账号的注册时间间隔通常高于一定的阈值, 如果评论者注册账号时间间隔低于该阈值, 则存在异常的可能性有所提升。
发布评论数量比(review ratio, RR)、各商铺评论数量比(review per merchant ratio, RMR)和对各商铺评论时间间隔(review per merchant time window, RMTW)度量评论者发布评论的数量和时间间隔的异常性, 能够有效地揭示评论者对所有商铺或某一特定商铺发表评论的数量和时间间隔的差异性。普通用户在一段时间内, 发布评论的数量和时间间隔通常在一定范围之内, 若发布评论的数量和时间间隔越过正常范围, 则存在异常的可能性较大。
与 RR 和 RMTW 类似, 群组对各商家发布评论数量比率(group review per merchant ratio, GMR)和群组对各商家发布评论时间间隔(group review per merchant time window, GMTW)从评论者群体角度对其发布评论数量和时间间隔的异常性进行度量。
在商家指标部分, 转化率(conversion rate ratio, Crr)和商龄率(shop age ratio, SAR)量化了店铺日成交量与日访问人数的比值及其与店铺年龄之间的关系。店铺浏览量通常远大于成交量, 若两者数量极为接近(尤其是对于新开店铺而言), 则存在信用操纵的可能性高于普通店铺。
转化率异常时间比(CR above_avg days ratio, CRADR)量化了店铺的异常行为所占比率, 可以解决商家为了规避电商平台的检查而将信用操纵行为分散到不同时间段的问题。
2.1.1 评论个人行为的指标体系
2.2.1 商户–个人(M-U)关系模型
商户–个人(M-U)关系模型描述商户与个人之间虚假程度的相互影响。商户虚假度越高, 则其相关评论者虚假度越高; 评论者虚假度越高, 则其评论的商户虚假度也越高。利用涉及商户–个人虚假度的指标 RMR(UI, mj), Rmcs(ui,mj), Rmtw(ui,mj), CRR(MJ), SAR(MJ)和 CRADR(MJ), 来计算商户与评论者个人虚假度的相互影响程度。为了简化模型,采用取均值的方式:
2.2.4 虚假度迭代流程
通过前面构建的 3 个主体关系矩阵, 迭代计算各自的虚假度。首先初始定义某一主体的虚假度向量(例如商户的虚假度初始值设为 0.5), 然后迭代计算其他主体的虚假度, 将上一轮迭代的输出作为下一轮迭代的输入, 直到输出一组稳定的数据, 并对其进行排序。这组数据包含所有评论者个体的虚假度、群组虚假度以及商铺虚假度。具体实现流程如图 1 所示。
3实验结果与分析3.1实验数据
本文以国内某大型电商平台的部分商家数据为样本, 进行实证研究。选择食品领域的 100 家商铺的 100000 条评论数据作为样本, 再根据评论数据中记录的用户信息, 关联提取用户数据, 剔除不合理的数据(比如 IP 为 127.0.0.1 的用户评论、网吧、学校等公用 IP 地址数据), 最终选取 93 家店铺、9558 个 IP 代表的不同评论者以及 97804 条评论数据作为样本。为了检验模型的有效性, 我们从数据集中随机抽取部分数据进行人工标注。选择 3 名对电商领域网络评论有深入了解的专业人员作为评论标注者, 通过投票的方式进行标注, 如果对一条评
论 3 人都认为是虚假评论, 则该评论的虚假度置为 1; 如果 3 人都认为是真实评论, 则虚假度置为0; 如果 3 人意见不统一, 则该条评论不加入测试集。为了提高标注的准确性, 我们为标注者提供包括评论文本内容在内的评论发布账号、时间、对应商家等数据。验证所使用的数据集为 13925 条人工标注数据, 涉及 114 个用户、55个商家和 82个群体。
3.2 虚假评论识别指标体系的参数确定及有效性评估
统计样本数据, 以验证所定义指标是否合理。1) 注册账号率(RUR)。通过对样本数据的分析,得到如图 2 所示的用户–账号数频率分布。从图 2可知, 在样本数据中, 8944 个用户(独立 IP 地址)对应的注册账户数小于等于 3, 占样本数据量的87.55%; 838 个用户对应的注册账户数大于等于 10,占样本数据量的 8.20%。因此取评论者账号阈值(式(1)中的 1 )为 10。
2) 注册账号时间间隔(URW)。样本数据中账号注册时间间隔分布(以对应账号数大于 3 的用户为例)如图 3所示。样本数据中共有 1270 个用户注 册超过 3 个的账号, 其中注册账号时间间隔小于 1天的用户有 564 个, 仅 37 个用户注册账号时间间隔大于 90 天, 占样本数据量的 3%。考虑到部分用户因账号遗忘需重新注册的因素, 将时间间隔阈值(式(2)中的1)定为 7 天。
3) 发布评论数量比(RR)。样本数据分析结果表明, 超过 80%的用户在统计期内(2014 年 7 月 1
日至 12 月 31 日)发布的评论数少于 10 条, 在相同时间段内, 部分用户发布的评论数量显著高于其他用户, 如图 4 所示。
从图 4 可知, 5400 个用户在统计期内仅发布了1 条评论, 9224 个用户发布评论小于等于 50 条; 335个用户在统计期内发布评论多于 100 条, 显著高于正常用户。这表明, 大量用户在线消费后, 往往不会或者仅进行少量评论。通过对 335 个用户的评论数据进行分析, 发现这些用户存在信用操纵的可能性较高, 由此定义指标发布评论数量比(RR)对应阈值2为 100。
4) 对各商户评论数量比(RMR)。图 5 显示每个用户对某个商铺的评论数频率分布。从图 5 可知,在统计期内, 约 5%的用户对单个商户发布评论数大于等于 50, 其余 95%的用户对同一商户评论数在 50 以内, 由此将单个用户对商户评论阈值3 设为 50。
5) 对各商户评论时间间隔(RMTW)。根据对样本数据分析, 对同一店铺发布评论数多于 1 条的 IP评论时间间隔频率分布情况如图 6 所示。根据对样本数据的分析, 用户对同一家店铺的重复评论的平均时间间隔为 3.62 天, 用户对同一家店铺的评论时间越集中, 那么该用户的虚假度越高。
通过初步的统计设置阈值, 使用逻辑回归对现有个人虚假度指标(RUR, URW, RR, RCS 和 RTW)进行假设检验, 结果如表 1 所示。
从表 1 可以看出, RR 和 RTW 的效果非常显著, RUR 比较显著, URW 和 RCS(评论内容相似度)的 p值显著。
3.3 IGMRM 模型实验分析
通过式(16)、(19)和(22), 计算 3 组贡献度矩阵W , WUG 和WGM , 将其作为虚假评论识别模型的输UM入, 然后根据式(17)~(18)以及(20)~(24)进行迭代。每次迭代后, 都对个人、商家和群组的虚假度向量进行标准化处理。设置迭代终止条件参数 < 0.001,取虚假度向量中的前 k 个对象, 将其判断为假, 其余为真。采用 P, R和 F1 值评价实验结果, 表 2 为个人、商家和群组取不同 k 值时对应的分类效果(F1 值排名前 8)。
表 2 显示, k值越接近人工标注的虚假个数, 分类效果越好。当 k 值为 104 时, 虚假评论者识别的F1 值达到 82.47%。当 k 值为 40 时, 商家的 F1 值最高为 58.28%。当 k 值为 80 时, 群组的 F1 值为95.12%。在识别效果方面, F1 值从高到低依次为群组、个人、商家, 表明 IGMRM 能够较好地识别虚假群组和个人, 而对商家的识别效果一般。这可能
与在标注存在信用操纵商家的过程中, 不同专家之间的分歧比标注个人和群组时大有关。
实验得到的商户、评论者 IP 和评论者群体代表的用户虚假度排序结果如表 3~5 所示。限于篇幅, 仅列出排名前 10 的结果。
3.4 模型的适应性分析
为了检验模型中先验参数的变化对实验结果的影响, 从而增强模型的可用度和可信度, 我们对RUR, RR, RMR 和 RMTW 等 4 项指标涉及的先验参数(1, 2, 3和)进行调整, 并取得相应的实验结果, 如图 7 所示。
从图 7(a)可以看出, 先验参数1 在 3~30 之间时, 虚假评论者识别的 F1 值无显著变化; 在 取
1值为 10 和 30 时, 商家的 F1 值取得最优(0.5744, K= 34); 在1 取值为 20 时,群组的 F1 值取得最优(0.9026, K = 68)。图 7(b)表明, 先验参数 在
2 50~400 之间时, 虚假评论者识别的 F1 值无显著变 化; 在2 取值为 100 时, 商家和群组的 F1 值取得最优(商家为 0.5744, K= 34; 群组为 0.9441, K= 76)。从图 7(c)可以看出, 先验参数3 在 10~300 之间时,
1.1 表示方式的不足
1) 汉字的笔画和部件难以输入。编码汉字系统中, 只有编了码的文字才可输入。目前, 很多汉字(特别是古文字)尚无编码。
2) 汉字笔画难以分解。传统编码汉字字形中,除楷体字库中有笔画的分解信息外, 其他汉字笔画分解非常困难。
3) 汉字错字难以编辑。汉字教学中, 错字和不规范字是最基本的教学元素, 但目前的编码汉字系统却没有办法实现, 这不仅影响数字化汉语教学的发展, 也为自然语言的深度计算研究带来困难。
4) 汉字个性化难以体现。数字化时代汉字失去了非常重要的特征——个性化字体, 尽管可以由字库开发商制作个人字体, 但实现还是非常困难。
1.2 编码方式的不足
1) 异体字的编码问题。汉字编码解决了汉字的交换问题和常用汉字的数字化出版问题, 但是对异体字和古汉字的编码非常困难, 影响了汉字数字化和信息化技术的发展。
2) “提笔忘字”问题。编码汉字时代, 只要输入拼音就可以自动引导出汉字, 使得汉字的书写失去了意义。一字一码、整字编码是导致提笔忘字现象的重要因素。
3) 个人字库问题。数字化时代, 很难见到“见信如面”的问候方式, 尽管在个人终端上可以按照自己的风格书写, 但对方收到的短信或微信, 都会变成“黑”“宋”“楷”“仿”4 张面孔。经过几十年的发展, 汉字信息处理技术研究已经从宏观走向微观、从通用走向个性化、从规模处理走向精细处理, 用户对个性化的汉字表达和快速汉字生成技术的需求日益增强。例如, 在云计算环境下, 原来的单机文件系统已经扩展到网络和分布式文件服务系统, 信息文档不再是一种静态内容和单一版本, 而是具有动态性、时空立体性、多用户性、多安全等级、多媒体性与多版本性的“活”性文档。如何动态地表示这些“活”结构化的信息和文档, 是实现汉字信息在云计算服务时代个性化表示的关键。
汉字的个性化表示属性有很多方面, 其中最基本的属性是汉字结构和汉字的风格。汉字是汉字结构和笔画风格高度融合的艺术。传统的信息存储方式是以结构化文档的方式(如数据库)进行存储, 与此相关的汉字是以标准的信息编码形式进行计算, 这一策略的最大缺点是很难对汉字的结构和风格进行独立计算。与英文字母相比, 汉字数量巨大, 结构复杂, 实现个性化表示几乎不可能; 在风格上,汉字笔画的书写变化多端, 很难用统一的形式化方
[1–2]法表达。近年来, 研究者分别从笔画分解 、汉字生成[3–4]、笔画生成[5–6]以及汉字的编码和描述技术等方面进行了研究。
2 汉字的自动化生成技术
汉字自动化生成技术的主要目的是解决汉字字形的快速生成以及个性化的计算机书写。目前汉字的生成技术主要分为两类: 一类是基于汉字编码的静态生成方法, 另一类是基于汉字描述的动态生成方法。
2.1 基于编码汉字的静态生成方法
汉字的静态生成方法是基于现代汉字固定的编码属性, 以固定的汉字结构, 对汉字的笔画和结构进行构造的汉字计算模型。
1) 基于部件的拼字方法。利用汉字由偏旁部首组成的特点, 通过设计少量的汉字笔画和部件,拼成整个汉字的方法, 如表 1 所示。尽管部件拼字的结果是一种新字形的动态组合, 但由于笔画结构的可变性较差, 因此也属于静态的汉字生成方法。
2) 笔画组字法。基于不同汉字中笔画风格的不同, 分别设计不同的笔画来组成不同字体。
3) 系列字生成法。将一种风格的字做成从粗到细的一系列字库, 以适应正文、大小标题等不同应用。系列字的风格相同, 只是笔画的粗细不同。可以先做出最粗和最细两款字, 然后自动生成中间粗细不等的字。
虽然上述 3 种方法可以实现部分字形的自动化生成, 但基本上都是针对某一字体而言, 并且对生成的部件和笔画的依赖性较大(例如, 黑体字可以
生成不同的黑变体, 隶书体可以生成隶变体), 并且在生成变体的质量和数量上还需要很大的改进。
2.2 基于描述汉字的动态生成方法
编码是复杂对象的简单表示, 其主要目的是信息交换, 缺乏对汉字字形的特征空间描述, 因此编码汉字系统不适合汉字字形的动态组合和生成。为了解决这一问题, 一些学者通过定义汉字的结构和生成规则, 动态地生成汉字。为了与编码汉字的生成方法相区别, 本文将此方法归结为基于描述汉字的动态生成方法。目前, 主要的动态汉字生成方法有以下几种。1) 基于汉字部件和笔画描述的动态组字方法。此方法针对表示信息的汉字数量巨大, 汉字的机器组字、组词效率较低等问题, 使用特殊标签表示汉字的不同部件和笔画, 代表性的有香港浸会大学 Candy 等[7]提出的 Han Glyph, 以及美国加州大学伯克利分校 Cook[8]提出的基于笔画和汉字部件的字形描述语言 CDL (character description language)等。Han Glyph 和 CDL 兼顾部件和笔画描述方法的组合, 将汉字分为控制点、骨架和轮廓 3 个层次结构, 将部件描述进一步细化成笔画描述。在 CDL的基础上, Peebles[9]提出一种将字形和结构融合,进行综合描述的方法——SCML (structural character modeling language)。
以组字为目的的汉字部件和笔画的描述, 绝大部分使用数字标签对汉字的结构进行标记, 其目的是实现汉字智能输入和文档的智能识别, 特点是在汉字整体结构描述的基础上, 加入汉字笔画结构的描述, 在笔画分解、识别和计算上优于用整字为单位的字词描述方案。
2) 以罕用字的表示为目的的汉字字形的笔段描述。笔段描述是将汉字部件描述继续细化的描述方法, 笔段是笔画的子集, 可以是笔画或笔画的一
部分。文献[10]就是基于笔段的汉字形式化描述,提出基于笔段网格的生僻字、错字输入方案。3) 以动态组字和生成字形为目的的笔元描
[11]述。笔元是有方向的笔段 。依据汉字的书写特性, 在笔段描述的同时加入汉字书写过程中行笔方向性属性描述, 并且将笔画或笔段之间的连接点以界点、驻点或势点进行分类描述, 使描述过程更加简洁, 更适合汉字(包括各类字体)的字形计算。汉字字体的生成技术与汉字字形描述技术有直接的关系, 科学的汉字字形描述方案有利于汉字字形的自动化生成和识别。本文基于描述汉字的动态特性, 探讨汉字字形的生成技术, 研究新的字形生成算法, 为个性化汉字字形服务奠定理论基础。
3 汉字的结构和风格
编码汉字系统是一种信息交换系统(或信息转换系统), 而不是完整的字形服务系统, 因此不能提供大范围的字形服务。为了解决此问题, 必须扩展现有汉字系统的字形服务功能, 建立一种与汉字字形服务相适应的汉字服务系统。本文将汉字字形分解为结构和风格两个层次, 其中, 结构层用于服务器端汉字字形结构的存储, 风格层用于客户端各类汉字笔画的生成。以“安”为例, 说明汉字可以分解成部件, 部件可以再分解成笔元, 如图 1 所示, 其中,v表示组成笔元的特征点。
3.1 汉字的结构
字符是信息表示的基本元素, 汉字是一种特殊的字符, 一般由基本笔画按照一定的空间关系和构字规范构成偏旁部首, 再由偏旁部首根据一定的间架结构布局构成汉字字符。因此, 汉字是一种具有层次结构的字符, 层结构是汉字的一个基本特征。汉字层结构的数据表示可以通过以下方式来实现。
1)汉字结构的抽象。为了向用户提供更大范围
的字形服务, 将不同字形抽象为相同或相似的结构,实现汉字结构和风格分离。如图 2 所示, 3 个不同字体的“江”字抽象为相同的结构。
2) 汉字笔画的抽象。汉字笔画的抽象是将一个完整的笔画抽象为一个或多个二元组的过程。以点笔画为例, 抽象过程包括提取轮廓、确定轮廓特征点、特征点矢量化转换和笔画矢量提取等几个步骤, 如图 3 所示。
3)书写汉字的抽象。书写汉字是个性化汉字的最基本表现形式, 在线书写汉字的抽象不仅要抽象汉字的书写特征, 还要给出书写速度、运笔方向和方式等特征的抽象描述。因此, 手写汉字的笔画可以抽象为落笔点、收笔点及行笔过程中特征点的集合{s, i1, i2, …, in, e}, 分析特征点的集合就可以抽象出若干笔元。图 4 为在撇笔画的特征点集合中, 抽 象出 3个笔元的示意图。
3.2 汉字的风格
汉字的风格是汉字书写和形成过程中表现出来的个体特色和特征的概括, 结构相同的汉字可以有不同的风格。汉字风格主要通过笔画的风格以及偏旁、部首的风格来体现。
1) 汉字笔画和部件的风格。同一字体的标准字形或同一类型的笔画和部件在不同的汉字中可以有不同的风格表现, 即使是标准的印刷字体, 这一现象也很普遍。如图 5 所示, 同属于一种笔画的“斜钩”和同一部件“曰”在不同汉字或不同偏旁部首中都存在细微的变化。
2) 汉字的风格。不同笔画和部件的组合构成不同的汉字风格。汉字的风格表示十分丰富, 目前印刷汉字字体的不同主要是通过风格来体现。图 6为微软美黑、琥珀、仿宋和楷书 4 种字体的风格示意图。
汉字的不同风格源于不同的字体设计[1,8–9]。图7 示意王选在方正字库设计中对楷体字形的风格定义。基于笔画的汉字计算机自动生成技术采用与人工设计汉字字体类似的方法, 通过输入不同的笔画生成指令, 完成笔画的计算机设计, 然后再根据汉字的结构对笔画进行组合, 形成新的汉字字形。
3) 书写汉字的风格。汉字的书写风格因人而异, 千变万化, 如图 8 所示。如何将这些不同的风格输入计算机, 让机器和人一样有不同的输出风格,是汉字计算的重要内容之一。为了更好地实现汉字结构和风格的描述, 文献[2, 6, 11]提出一种汉字动态描述方法。该方法定义比汉字笔画更小的描述单位——笔元, 基于笔元设计点笔画的生成过程和方法。本文在此基础上将此