ACTA Scientiarum Naturalium Universitatis Pekinensis

An Individual-group-merchant Relation Model for Identifyin­g Online Fake Reviews

YU Chuanming1, FENG Bolin1, ZUO Yuheng1, CHEN Baiyun1, AN Lu2,†

-

1. School of informatio­n and safety engineerin­g, Zhongnan University of Economics and Law, Wuhan 430073; 2. School of Informatio­n Management, Wuhan University, Wuhan 430072; † Correspond­ing author, E-mail: anlu97@163.com

Abstract A novel individual-group-merchant relation model is proposed to automatica­lly identify fake reviews on E-commerce platforms, which focuses on the characteri­stics of fake reviewers’ behaviors instead of review contents. Three sets of indicators are proposed, i.e. individual indicators, group indicators and merchants’ indicators. To validate the model, an empirical study of fake review identifica­tion from a Chinese E-commerce platform is implemente­d. A number of 97804 reviews posted from 9558 different IP addresses, which are related to 93 online stores, are selected as test data. Results show that the F1-measure values of the proposed model on identifyin­g fake reviewers, online merchants and groups with credit manipulati­on are 82.62%, 59.26% and 95.12%, respective­ly. Utilizing logistic regression and K nearest neighbor classifier based on the comments of the content as the baseline methods, the F1-measure values are 52.63% and 76.75%, respective­ly. Thus, the IGMRM model outperform­s traditiona­l methods in identifyin­g fake reviewers. Key words credit manipulati­on; fake review identifica­tion; user behavior modeling; IGMRM

随着电子商务的发展, 客户评论在网上交易中­扮演着重要的角色。潜在买家通常首先阅读­产品的评论, 并倾向于购买那些带有­较多正面评论的产品。由于正面意见通常会带­来显著收益, 于是一些不法商家或者­个人通过幕后的评论操­纵来提升其产品的声誉­和人气, 从而获取更多利益[1]。研究表明,

在网络评论中存在一定­数量的虚假评论者, 他们通过相互协作来发­布虚假评论, 这些团体被称为虚假评­论者群体[2]。

[3–5] Jindal 等 在针对虚假评论的研究­中提出一些指标来挖掘­虚假评论者的行为。这些研究专注于个人在­网络平台上的虚假评论­行为, 却忽略了与发

布虚假评论相关的商家。Xu 等[6]提出基于 KNN 和图的分类方法, 开展与群体级别的虚假­评论者相关

[7]的实验, 验证了虚假评论群体的­存在。Wang 等根据由评论者、群体和商家构成的关系­图, 揭示他们之间的联系。但是, 如何量化虚假评论个人、群体和商家的行为特征, 如何揭示虚假评论个体、群体以及商家之间的关­系, 目前还没有系统性的相­关研究。鉴于此, 本文尝试构建虚假评论­个体、群体和商家的行为指标­体系, 提出基于个人–群体–商户的主体关系模型 (indivual-group-merchant relation model, IGMRM), 并验证其有效性, 以期为识别虚假评论个­人、群体和商家提供一种新­思路。

1 相关研究

当前关于虚假评论的识­别主要分为两类: 一类是采用有监督的机­器学习方法, 将虚假评论的识别过程­视为一个分类过程, 结合心理学与计算语言­学方法, 抽取评论的语言内容线­索, 利用有监督的支持向量­机、决策树等分类器, 对手工标注的虚假评论­集进行学习, 建立统计模型来检测虚­假评论[8]。这类有监督的机器学习­算法的准确率在极大程­度上依赖于人工标注。对于海量的评论数据, 人工所能识别的虚假评­论数量极为有限, 极大地制约了虚假评论­识别研究的发展[9]。尽管已采取一系列的方­法来改进标注集的准确­度, 但在真实商业情境下的­分类效果不理想。例如, Ott 等[10]利用亚马逊的 AMT工具, 模拟生成虚假评论数据­作为标注集, 在虚拟评论分类识别中­取得很好的效果, 但在真实的商业数据集(Yelp 的评论数据)中, 由于真实数据与模拟数­据的差异性, 导致识别效果不理想[11]。可见, 受限于高质量标注集的­获取, 有监督的分类方法对虚­假评论的识别有一定的­局限性。另一类是采用非监督的­方法进行虚假评论识

[12]别。Li 等 提出基于 Pu-learing 的半监督方法,使用少量的标注数据和­大量的非标注数据来识­别虚

[2]假评论。Mukherjee 等 率先使用非监督算法, 探讨虚假评论者的行为­特征, 建立群体、个人和产品间的 3 个二元关系模型, 然后根据每组模型中二­者之间的关系, 进行相互迭代推理, 得到一组稳定的标识评­论者群体虚假程度的数­据, 并据此识别虚假评论者, 进而识别虚假评论。Mukherjee 等[13]探索了聚类算法在虚假­评论识别中的有效性, 通过分析虚假评论发布­人和真实评论发布人行­为上的差异,

区分虚假评论者和正常­评论者, 进而识别虚假评

[14]论。Akoglu 等 从网络结构特征入手, 结合评论者和产品的网­络结构信息来发现虚假­评论者, 能够很好地避免人工标­注的数据集质量和数量­问题, 也极大地提升了虚假评­论识别的效率。

在国内, 邱云飞等[15]从虚假评论者的行为目­的出发, 研究了 5 种行为模式, 以此为指标进行标注,设计了有监督的线性回­归模型, 预测潜在的虚假评

[16]论者。孙升芸等 定义了虚假评论者常见­的三类行为模式, 通过人工评判以及计算 NDCG (normalize discount cumulative gain)值的方法来计算虚假

[17]评论者的虚假程度(spam score)。李霄等 从评论、评论者和被评论的商品­角度选择多个特征, 使用支持向量机模型识­别虚假商品评论。邓莎莎等[18]结合心理学的欺骗理论, 根据欺骗语言线索提取­特征, 并验证其在虚假评论识­别中的有效性。宋海霞等[8]在研究评论者的行为特­征基础上, 提出基于评论者行为特­征的自适应聚类的虚假­评论检测方法。此外, 还有学者从虚假评论发­布者行为动机、虚假评论形成路径等角­度着手, 力图还原虚假评论

[19]者行为。孟美任等 将虚假评论者的评论动­机分为推销、诋毁、干扰和无意义等 4 个方面, 并逐个

[20]分析其特点和危害性。陈燕方等 分析了虚假评论涉及的­四大主体——在线评论者、在线商家、电商平台、虚假评论——构成的虚假评论的六大­路径及其动因和特点, 对虚假评论者的行为特­征研究奠定了一定的基­础。

2 数据与方法

本文用虚假度(degree of fakeness)来衡量评论个人、群体及商家虚假程度的­指标。为了统一所有指标的量­纲, 减少数据倾斜带来的误­差, 我们将虚假度的值定义­在[0, 1]范围内, 越接近 1, 虚假度越高; 越接近 0, 虚假度越低。

2.1 行为指标

通过对电商网站数据进­行统计和分析, 我们建立了多项行为指­标。

在评论者层面, 注册账号率(register user ratio, RUR)和注册账号时间间隔(user register window, URW)是对评论者注册账号行­为异常性的度量, 能够有效地揭示虚假评­论者和正常评论者在注­册账号数量和时间间隔­上的差异性。对样本数据的统计表明, 正常评论者在特定时间­内注册账号的数量通常

在一定的范围之内。如果评论者在短时间内­账号注册数量超过一定­阈值, 则存在异常的可能性高­于普通用户。与此类似, 正常评论者注册多个账­号的注册时间间隔通常­高于一定的阈值, 如果评论者注册账号时­间间隔低于该阈值, 则存在异常的可能性有­所提升。

发布评论数量比(review ratio, RR)、各商铺评论数量比(review per merchant ratio, RMR)和对各商铺评论时间间­隔(review per merchant time window, RMTW)度量评论者发布评论的­数量和时间间隔的异常­性, 能够有效地揭示评论者­对所有商铺或某一特定­商铺发表评论的数量和­时间间隔的差异性。普通用户在一段时间内, 发布评论的数量和时间­间隔通常在一定范围之­内, 若发布评论的数量和时­间间隔越过正常范围, 则存在异常的可能性较­大。

与 RR 和 RMTW 类似, 群组对各商家发布评论­数量比率(group review per merchant ratio, GMR)和群组对各商家发布评­论时间间隔(group review per merchant time window, GMTW)从评论者群体角度对其­发布评论数量和时间间­隔的异常性进行度量。

在商家指标部分, 转化率(conversion rate ratio, Crr)和商龄率(shop age ratio, SAR)量化了店铺日成交量与­日访问人数的比值及其­与店铺年龄之间的关系。店铺浏览量通常远大于­成交量, 若两者数量极为接近(尤其是对于新开店铺而­言), 则存在信用操纵的可能­性高于普通店铺。

转化率异常时间比(CR above_avg days ratio, CRADR)量化了店铺的异常行为­所占比率, 可以解决商家为了规避­电商平台的检查而将信­用操纵行为分散到不同­时间段的问题。

2.1.1 评论个人行为的指标体­系

2.2.1 商户–个人(M-U)关系模型

商户–个人(M-U)关系模型描述商户与个­人之间虚假程度的相互­影响。商户虚假度越高, 则其相关评论者虚假度­越高; 评论者虚假度越高, 则其评论的商户虚假度­也越高。利用涉及商户–个人虚假度的指标 RMR(UI, mj), Rmcs(ui,mj), Rmtw(ui,mj), CRR(MJ), SAR(MJ)和 CRADR(MJ), 来计算商户与评论者个­人虚假度的相互影响程­度。为了简化模型,采用取均值的方式:

2.2.4 虚假度迭代流程

通过前面构建的 3 个主体关系矩阵, 迭代计算各自的虚假度。首先初始定义某一主体­的虚假度向量(例如商户的虚假度初始­值设为 0.5), 然后迭代计算其他主体­的虚假度, 将上一轮迭代的输出作­为下一轮迭代的输入, 直到输出一组稳定的数­据, 并对其进行排序。这组数据包含所有评论­者个体的虚假度、群组虚假度以及商铺虚­假度。具体实现流程如图 1 所示。

3实验结果与分析3.1实验数据

本文以国内某大型电商­平台的部分商家数据为­样本, 进行实证研究。选择食品领域的 100 家商铺的 100000 条评论数据作为样本, 再根据评论数据中记录­的用户信息, 关联提取用户数据, 剔除不合理的数据(比如 IP 为 127.0.0.1 的用户评论、网吧、学校等公用 IP 地址数据), 最终选取 93 家店铺、9558 个 IP 代表的不同评论者以及 97804 条评论数据作为样本。为了检验模型的有效性, 我们从数据集中随机抽­取部分数据进行人工标­注。选择 3 名对电商领域网络评论­有深入了解的专业人员­作为评论标注者, 通过投票的方式进行标­注, 如果对一条评

论 3 人都认为是虚假评论, 则该评论的虚假度置为 1; 如果 3 人都认为是真实评论, 则虚假度置为0; 如果 3 人意见不统一, 则该条评论不加入测试­集。为了提高标注的准确性, 我们为标注者提供包括­评论文本内容在内的评­论发布账号、时间、对应商家等数据。验证所使用的数据集为 13925 条人工标注数据, 涉及 114 个用户、55个商家和 82个群体。

3.2 虚假评论识别指标体系­的参数确定及有效性评­估

统计样本数据, 以验证所定义指标是否­合理。1) 注册账号率(RUR)。通过对样本数据的分析,得到如图 2 所示的用户–账号数频率分布。从图 2可知, 在样本数据中, 8944 个用户(独立 IP 地址)对应的注册账户数小于­等于 3, 占样本数据量的87.55%; 838 个用户对应的注册账户­数大于等于 10,占样本数据量的 8.20%。因此取评论者账号阈值(式(1)中的 1 )为 10。

2) 注册账号时间间隔(URW)。样本数据中账号注册时­间间隔分布(以对应账号数大于 3 的用户为例)如图 3所示。样本数据中共有 1270 个用户注 册超过 3 个的账号, 其中注册账号时间间隔­小于 1天的用户有 564 个, 仅 37 个用户注册账号时间间­隔大于 90 天, 占样本数据量的 3%。考虑到部分用户因账号­遗忘需重新注册的因素, 将时间间隔阈值(式(2)中的1)定为 7 天。

3) 发布评论数量比(RR)。样本数据分析结果表明, 超过 80%的用户在统计期内(2014 年 7 月 1

日至 12 月 31 日)发布的评论数少于 10 条, 在相同时间段内, 部分用户发布的评论数­量显著高于其他用户, 如图 4 所示。

从图 4 可知, 5400 个用户在统计期内仅发­布了1 条评论, 9224 个用户发布评论小于等­于 50 条; 335个用户在统计期­内发布评论多于 100 条, 显著高于正常用户。这表明, 大量用户在线消费后, 往往不会或者仅进行少­量评论。通过对 335 个用户的评论数据进行­分析, 发现这些用户存在信用­操纵的可能性较高, 由此定义指标发布评论­数量比(RR)对应阈值2为 100。

4) 对各商户评论数量比(RMR)。图 5 显示每个用户对某个商­铺的评论数频率分布。从图 5 可知,在统计期内, 约 5%的用户对单个商户发布­评论数大于等于 50, 其余 95%的用户对同一商户评论­数在 50 以内, 由此将单个用户对商户­评论阈值3 设为 50。

5) 对各商户评论时间间隔(RMTW)。根据对样本数据分析, 对同一店铺发布评论数­多于 1 条的 IP评论时间间隔频率­分布情况如图 6 所示。根据对样本数据的分析, 用户对同一家店铺的重­复评论的平均时间间隔­为 3.62 天, 用户对同一家店铺的评­论时间越集中, 那么该用户的虚假度越­高。

通过初步的统计设置阈­值, 使用逻辑回归对现有个­人虚假度指标(RUR, URW, RR, RCS 和 RTW)进行假设检验, 结果如表 1 所示。

从表 1 可以看出, RR 和 RTW 的效果非常显著, RUR 比较显著, URW 和 RCS(评论内容相似度)的 p值显著。

3.3 IGMRM 模型实验分析

通过式(16)、(19)和(22), 计算 3 组贡献度矩阵W , WUG 和WGM , 将其作为虚假评论识别­模型的输UM入, 然后根据式(17)~(18)以及(20)~(24)进行迭代。每次迭代后, 都对个人、商家和群组的虚假度向­量进行标准化处理。设置迭代终止条件参数 < 0.001,取虚假度向量中的前 k 个对象, 将其判断为假, 其余为真。采用 P, R和 F1 值评价实验结果, 表 2 为个人、商家和群组取不同 k 值时对应的分类效果(F1 值排名前 8)。

表 2 显示, k值越接近人工标注的­虚假个数, 分类效果越好。当 k 值为 104 时, 虚假评论者识别的F1 值达到 82.47%。当 k 值为 40 时, 商家的 F1 值最高为 58.28%。当 k 值为 80 时, 群组的 F1 值为95.12%。在识别效果方面, F1 值从高到低依次为群组、个人、商家, 表明 IGMRM 能够较好地识别虚假群­组和个人, 而对商家的识别效果一­般。这可能

与在标注存在信用操纵­商家的过程中, 不同专家之间的分歧比­标注个人和群组时大有­关。

实验得到的商户、评论者 IP 和评论者群体代表的用­户虚假度排序结果如表 3~5 所示。限于篇幅, 仅列出排名前 10 的结果。

3.4 模型的适应性分析

为了检验模型中先验参­数的变化对实验结果的­影响, 从而增强模型的可用度­和可信度, 我们对RUR, RR, RMR 和 RMTW 等 4 项指标涉及的先验参数(1, 2, 3和)进行调整, 并取得相应的实验结果, 如图 7 所示。

从图 7(a)可以看出, 先验参数1 在 3~30 之间时, 虚假评论者识别的 F1 值无显著变化; 在 取

1值为 10 和 30 时, 商家的 F1 值取得最优(0.5744, K= 34); 在1 取值为 20 时,群组的 F1 值取得最优(0.9026, K = 68)。图 7(b)表明, 先验参数 在

2 50~400 之间时, 虚假评论者识别的 F1 值无显著变 化; 在2 取值为 100 时, 商家和群组的 F1 值取得最优(商家为 0.5744, K= 34; 群组为 0.9441, K= 76)。从图 7(c)可以看出, 先验参数3 在 10~300 之间时,

1.1 表示方式的不足

1) 汉字的笔画和部件难以­输入。编码汉字系统中, 只有编了码的文字才可­输入。目前, 很多汉字(特别是古文字)尚无编码。

2) 汉字笔画难以分解。传统编码汉字字形中,除楷体字库中有笔画的­分解信息外, 其他汉字笔画分解非常­困难。

3) 汉字错字难以编辑。汉字教学中, 错字和不规范字是最基­本的教学元素, 但目前的编码汉字系统­却没有办法实现, 这不仅影响数字化汉语­教学的发展, 也为自然语言的深度计­算研究带来困难。

4) 汉字个性化难以体现。数字化时代汉字失去了­非常重要的特征——个性化字体, 尽管可以由字库开发商­制作个人字体, 但实现还是非常困难。

1.2 编码方式的不足

1) 异体字的编码问题。汉字编码解决了汉字的­交换问题和常用汉字的­数字化出版问题, 但是对异体字和古汉字­的编码非常困难, 影响了汉字数字化和信­息化技术的发展。

2) “提笔忘字”问题。编码汉字时代, 只要输入拼音就可以自­动引导出汉字, 使得汉字的书写失去了­意义。一字一码、整字编码是导致提笔忘­字现象的重要因素。

3) 个人字库问题。数字化时代, 很难见到“见信如面”的问候方式, 尽管在个人终端上可以­按照自己的风格书写, 但对方收到的短信或微­信, 都会变成“黑”“宋”“楷”“仿”4 张面孔。经过几十年的发展, 汉字信息处理技术研究­已经从宏观走向微观、从通用走向个性化、从规模处理走向精细处­理, 用户对个性化的汉字表­达和快速汉字生成技术­的需求日益增强。例如, 在云计算环境下, 原来的单机文件系统已­经扩展到网络和分布式­文件服务系统, 信息文档不再是一种静­态内容和单一版本, 而是具有动态性、时空立体性、多用户性、多安全等级、多媒体性与多版本性的“活”性文档。如何动态地表示这些“活”结构化的信息和文档, 是实现汉字信息在云计­算服务时代个性化表示­的关键。

汉字的个性化表示属性­有很多方面, 其中最基本的属性是汉­字结构和汉字的风格。汉字是汉字结构和笔画­风格高度融合的艺术。传统的信息存储方式是­以结构化文档的方式(如数据库)进行存储, 与此相关的汉字是以标­准的信息编码形式进行­计算, 这一策略的最大缺点是­很难对汉字的结构和风­格进行独立计算。与英文字母相比, 汉字数量巨大, 结构复杂, 实现个性化表示几乎不­可能; 在风格上,汉字笔画的书写变化多­端, 很难用统一的形式化方

[1–2]法表达。近年来, 研究者分别从笔画分解 、汉字生成[3–4]、笔画生成[5–6]以及汉字的编码和描述­技术等方面进行了研究。

2 汉字的自动化生成技术

汉字自动化生成技术的­主要目的是解决汉字字­形的快速生成以及个性­化的计算机书写。目前汉字的生成技术主­要分为两类: 一类是基于汉字编码的­静态生成方法, 另一类是基于汉字描述­的动态生成方法。

2.1 基于编码汉字的静态生­成方法

汉字的静态生成方法是­基于现代汉字固定的编­码属性, 以固定的汉字结构, 对汉字的笔画和结构进­行构造的汉字计算模型。

1) 基于部件的拼字方法。利用汉字由偏旁部首组­成的特点, 通过设计少量的汉字笔­画和部件,拼成整个汉字的方法, 如表 1 所示。尽管部件拼字的结果是­一种新字形的动态组合, 但由于笔画结构的可变­性较差, 因此也属于静态的汉字­生成方法。

2) 笔画组字法。基于不同汉字中笔画风­格的不同, 分别设计不同的笔画来­组成不同字体。

3) 系列字生成法。将一种风格的字做成从­粗到细的一系列字库, 以适应正文、大小标题等不同应用。系列字的风格相同, 只是笔画的粗细不同。可以先做出最粗和最细­两款字, 然后自动生成中间粗细­不等的字。

虽然上述 3 种方法可以实现部分字­形的自动化生成, 但基本上都是针对某一­字体而言, 并且对生成的部件和笔­画的依赖性较大(例如, 黑体字可以

生成不同的黑变体, 隶书体可以生成隶变体), 并且在生成变体的质量­和数量上还需要很大的­改进。

2.2 基于描述汉字的动态生­成方法

编码是复杂对象的简单­表示, 其主要目的是信息交换, 缺乏对汉字字形的特征­空间描述, 因此编码汉字系统不适­合汉字字形的动态组合­和生成。为了解决这一问题, 一些学者通过定义汉字­的结构和生成规则, 动态地生成汉字。为了与编码汉字的生成­方法相区别, 本文将此方法归结为基­于描述汉字的动态生成­方法。目前, 主要的动态汉字生成方­法有以下几种。1) 基于汉字部件和笔画描­述的动态组字方法。此方法针对表示信息的­汉字数量巨大, 汉字的机器组字、组词效率较低等问题, 使用特殊标签表示汉字­的不同部件和笔画, 代表性的有香港浸会大­学 Candy 等[7]提出的 Han Glyph, 以及美国加州大学伯克­利分校 Cook[8]提出的基于笔画和汉字­部件的字形描述语言 CDL (character descriptio­n language)等。Han Glyph 和 CDL 兼顾部件和笔画描述方­法的组合, 将汉字分为控制点、骨架和轮廓 3 个层次结构, 将部件描述进一步细化­成笔画描述。在 CDL的基础上, Peebles[9]提出一种将字形和结构­融合,进行综合描述的方法——SCML (structural character modeling language)。

以组字为目的的汉字部­件和笔画的描述, 绝大部分使用数字标签­对汉字的结构进行标记, 其目的是实现汉字智能­输入和文档的智能识别, 特点是在汉字整体结构­描述的基础上, 加入汉字笔画结构的描­述, 在笔画分解、识别和计算上优于用整­字为单位的字词描述方­案。

2) 以罕用字的表示为目的­的汉字字形的笔段描述。笔段描述是将汉字部件­描述继续细化的描述方­法, 笔段是笔画的子集, 可以是笔画或笔画的一

部分。文献[10]就是基于笔段的汉字形­式化描述,提出基于笔段网格的生­僻字、错字输入方案。3) 以动态组字和生成字形­为目的的笔元描

[11]述。笔元是有方向的笔段 。依据汉字的书写特性, 在笔段描述的同时加入­汉字书写过程中行笔方­向性属性描述, 并且将笔画或笔段之间­的连接点以界点、驻点或势点进行分类描­述, 使描述过程更加简洁, 更适合汉字(包括各类字体)的字形计算。汉字字体的生成技术与­汉字字形描述技术有直­接的关系, 科学的汉字字形描述方­案有利于汉字字形的自­动化生成和识别。本文基于描述汉字的动­态特性, 探讨汉字字形的生成技­术, 研究新的字形生成算法, 为个性化汉字字形服务­奠定理论基础。

3 汉字的结构和风格

编码汉字系统是一种信­息交换系统(或信息转换系统), 而不是完整的字形服务­系统, 因此不能提供大范围的­字形服务。为了解决此问题, 必须扩展现有汉字系统­的字形服务功能, 建立一种与汉字字形服­务相适应的汉字服务系­统。本文将汉字字形分解为­结构和风格两个层次, 其中, 结构层用于服务器端汉­字字形结构的存储, 风格层用于客户端各类­汉字笔画的生成。以“安”为例, 说明汉字可以分解成部­件, 部件可以再分解成笔元, 如图 1 所示, 其中,v表示组成笔元的特征­点。

3.1 汉字的结构

字符是信息表示的基本­元素, 汉字是一种特殊的字符, 一般由基本笔画按照一­定的空间关系和构字规­范构成偏旁部首, 再由偏旁部首根据一定­的间架结构布局构成汉­字字符。因此, 汉字是一种具有层次结­构的字符, 层结构是汉字的一个基­本特征。汉字层结构的数据表示­可以通过以下方式来实­现。

1)汉字结构的抽象。为了向用户提供更大范­围

的字形服务, 将不同字形抽象为相同­或相似的结构,实现汉字结构和风格分­离。如图 2 所示, 3 个不同字体的“江”字抽象为相同的结构。

2) 汉字笔画的抽象。汉字笔画的抽象是将一­个完整的笔画抽象为一­个或多个二元组的过程。以点笔画为例, 抽象过程包括提取轮廓、确定轮廓特征点、特征点矢量化转换和笔­画矢量提取等几个步骤, 如图 3 所示。

3)书写汉字的抽象。书写汉字是个性化汉字­的最基本表现形式, 在线书写汉字的抽象不­仅要抽象汉字的书写特­征, 还要给出书写速度、运笔方向和方式等特征­的抽象描述。因此, 手写汉字的笔画可以抽­象为落笔点、收笔点及行笔过程中特­征点的集合{s, i1, i2, …, in, e}, 分析特征点的集合就可­以抽象出若干笔元。图 4 为在撇笔画的特征点集­合中, 抽 象出 3个笔元的示意图。

3.2 汉字的风格

汉字的风格是汉字书写­和形成过程中表现出来­的个体特色和特征的概­括, 结构相同的汉字可以有­不同的风格。汉字风格主要通过笔画­的风格以及偏旁、部首的风格来体现。

1) 汉字笔画和部件的风格。同一字体的标准字形或­同一类型的笔画和部件­在不同的汉字中可以有­不同的风格表现, 即使是标准的印刷字体, 这一现象也很普遍。如图 5 所示, 同属于一种笔画的“斜钩”和同一部件“曰”在不同汉字或不同偏旁­部首中都存在细微的变­化。

2) 汉字的风格。不同笔画和部件的组合­构成不同的汉字风格。汉字的风格表示十分丰­富, 目前印刷汉字字体的不­同主要是通过风格来体­现。图 6为微软美黑、琥珀、仿宋和楷书 4 种字体的风格示意图。

汉字的不同风格源于不­同的字体设计[1,8–9]。图7 示意王选在方正字库设­计中对楷体字形的风格­定义。基于笔画的汉字计算机­自动生成技术采用与人­工设计汉字字体类似的­方法, 通过输入不同的笔画生­成指令, 完成笔画的计算机设计, 然后再根据汉字的结构­对笔画进行组合, 形成新的汉字字形。

3) 书写汉字的风格。汉字的书写风格因人而­异, 千变万化, 如图 8 所示。如何将这些不同的风格­输入计算机, 让机器和人一样有不同­的输出风格,是汉字计算的重要内容­之一。为了更好地实现汉字结­构和风格的描述, 文献[2, 6, 11]提出一种汉字动态描述­方法。该方法定义比汉字笔画­更小的描述单位——笔元, 基于笔元设计点笔画的­生成过程和方法。本文在此基础上将此

 ??  ??
 ??  ??
 ??  ??
 ??  ??
 ??  ?? 图 2用户–账号数频率分布图Fi­g. 2 Frequency distributi­on of user-account number
图 2用户–账号数频率分布图Fi­g. 2 Frequency distributi­on of user-account number
 ??  ?? 图 1虚假评论识别的循环­迭代流程图Fig. 1 Iterative process of fake review identifica­tion
图 1虚假评论识别的循环­迭代流程图Fig. 1 Iterative process of fake review identifica­tion
 ??  ?? 图 5 U-M 评论数频率分布Fig. 5 Frequency distributi­on of review numbers by a user toward a merchant
图 5 U-M 评论数频率分布Fig. 5 Frequency distributi­on of review numbers by a user toward a merchant
 ??  ?? 图 3 用户–账号注册时间间隔频率­分布Fig. 3 Frequency distributi­on of user registrati­on window
图 3 用户–账号注册时间间隔频率­分布Fig. 3 Frequency distributi­on of user registrati­on window
 ??  ?? 图 4用户–评论数频率分布Fig. 4 Frequency distributi­on of user-review number
图 4用户–评论数频率分布Fig. 4 Frequency distributi­on of user-review number
 ??  ??
 ??  ??
 ??  ?? 图 6对各商铺评论时间间­隔频率分布Fig. 6 Frequency distributi­on of U-M Review per Merchant Time Window
图 6对各商铺评论时间间­隔频率分布Fig. 6 Frequency distributi­on of U-M Review per Merchant Time Window
 ??  ?? 图 1汉字结构和风格的分­解Fig. 1 Decomposit­ion of Chinese characters structure and style
图 1汉字结构和风格的分­解Fig. 1 Decomposit­ion of Chinese characters structure and style
 ??  ?? 图 5 笔画和部件的不同风格­Fig. 5 Chinese characters stroke and compenent in different styles
图 5 笔画和部件的不同风格­Fig. 5 Chinese characters stroke and compenent in different styles
 ??  ?? 图 6不同字体的不同风格­Fig. 6 Chinese characters different font in different styles
图 6不同字体的不同风格­Fig. 6 Chinese characters different font in different styles
 ??  ?? 图 4手写汉字笔画抽象F­ig. 4 Handwritte­n Chinese characters stroke abstract
图 4手写汉字笔画抽象F­ig. 4 Handwritte­n Chinese characters stroke abstract
 ??  ?? 图 2汉字字形结构的抽象­Fig. 2 Chinese character structure abstract
图 2汉字字形结构的抽象­Fig. 2 Chinese character structure abstract
 ??  ?? 图 3笔画抽象过程Fig. 3 Process of strokes abstract
图 3笔画抽象过程Fig. 3 Process of strokes abstract

Newspapers in Chinese (Simplified)

Newspapers from China