ACTA Scientiarum Naturalium Universitatis Pekinensis
Toponym Resolution Based on Geo-relevance and D-S Theory
WANG Xingguang, ZHANG Ruijie, ZHANG Yi†
Institute of Remote Sensing and Geographical Information Systems, Peking University, Beijing 100871; † Corresponding author, E-mail: zy@pku.edu.cn
Abstract Aiming at the situation that previous toponym resolution researches largely lack theoretical basis and a general formal way, a concept of geo-relevance based on Tobler’s Frist Law is proposed to formalize vicinity among geographic entities. Then a toponym resolution computing model based on dempster-shafer (D-S) theory is proposed to represent and combine co-occurring toponym evidences in context. The cognitive process of human reading and understanding spatiotemporal semantics in text are simulated by D-S theory, while a general and scalable formal framework for toponym resolution is provided. Finally, an experiment evaluation is given with a good result of F1 value (89.60%). Key words geographic information retrieval; toponym resolution; geo-relevance; dempster-shafer theory
在日常交流中, 人们使用定性表达的地名陈述表示空间位置信息。不同于定量地理参照系统, 地名通常只在一定的地理范围内具有唯一性[1]。例如,全世界共有 30 多个称为“伦敦”的城市, 但是在加拿大安大略省只有一个城市叫做“伦敦”。这种同时指称多个地理实体的地名叫做歧义地名。在蕴含丰富空间信息的文本中, 地名歧义现象比较普遍。根据 Smith 等[2]的研究, Perseus 数字图书馆项目(http:// www.perseus.tufts.edu/hopper/)中历史文本语料的地
[3]名歧义高达 92%。Amitay 等 发现, web 页面中37%的地名存在一词多义现象, 平均每个地名有两
个不同含义。基于新闻语料库的调查发现, 新闻文本中约有 68%的地名指称不同的地理实体[4]。文本中的地名歧义现象制约了对文本时空语义的理解,该问题的解决有助于消除文本与 GIS 之间的鸿沟,促进文本空间信息智能处理的发展。
地名消歧(toponym resolution, TR)是一项根据语境消除地名歧义以确定地名所指的技术[5], 最初源于数字图书馆文档自动空间化的需要[2,67], 目前在地理信息检索(geographic information retrieval, GIR)技术的推动下有了较大的发展[8]。地名消歧的方法大致有两类: 基于规则的方法和数据驱动的方
法[910]。常见的数据驱动方法有基于地名共现统计
[1112] [1315]的方法 和基于机器学习分类的方法 。由于缺乏足够的训练集, 数据驱动的方法在地名消歧领域中应用较少。基于规则的方法往往利用先验知识或者文本上下文的规则线索来消除地名歧义, 实际上与人们阅读文本和理解文本时空语义的策略一致[8]。目前基于规则的方法是地名消歧领域的主流方法。
文献[16]对已有地名消歧规则进行梳理, 将它们分为三类: 语用规则、语法规则和语义规则。在实际应用中, 主要依据共现地名的语义实现地名消歧。最简单的语义规则是使用缺省地理实体作为歧义地名的实际指称物。缺省地理实体是歧义地名所有指称中最重要的地理实体。衡量地理实体重要性
[3,1718] [2,1822] [23]的因素有人口 、类型 、面积 、出现
[21,2426] [27]词频 和网页链入度 等。另一类语义规则利用共现地名之间的语义关系消歧, 如包含关系规则[13,1718,2831]、空间相近规则[2,1819,23,3234]等,这些规则假设在文本中相近出现的地名具有地理空间上的邻近性。缺省规则简单、易实现, 因此应用比较
[3,18,35]广泛, 但是准确度较低 。邻近规则的消歧结果普遍好于缺省规则[2,2425,36],但是也存在若干问题: 1) 缺乏科学的符合认知的邻近性形式化方法,例如对不同拓扑关系进行专家打分或者采用定量地理距离[2,19,32]; 2) 对于多个证据缺乏科学合理的证据合成方式, 例如采用简单的算术累加[3,18]。
针对以上问题, 本文提出地理语义关联度的概念, 用于形式化地理实体之间的邻近性,并以此为基础, 发展一个基于证据理论的地名消歧计算模型。该模型模拟人类阅读理解文本空间语义的认知过程, 并且易于扩展, 从而使得消歧结果更准确, 也更符合人类的认知结果。1地名消歧与地理关联度1.1一个实例
“鼓楼区, 南京市中心城区之一, 江苏省党政军首脑机关所在地。它西越秦淮河, 直抵长江之滨”。全国总共有 4 个鼓楼区, 分别属于南京、福州、徐州和开封。因此, “鼓楼区”是一个歧义地名。1.2 消歧原理用于消除地名歧义的线索通常来自歧义地名所处的语境。例如, 在南京市说到鼓楼区, 通常指南
京市下辖的鼓楼区。除空间、时间和情景等语境因素外, 在词义消歧领域最常用的是上下文, 即文本中歧义词所处位置前后的一组特征词, 一般是上下文中共现的地名序列[37]。
在基于规则的方法中, 文本中共现地名之间的语义关联是重要的消歧线索。根据文献[38], 导致地名共现的语义关联主要有 4 类: 1) 包含关系, 例如, “鼓楼区是南京市中心城区之一”; 2) 邻近关系,例如, “环渤海经济区以北京和天津为中心”; 3) 空间交互, 例如, “新开通的京广高铁北起北京, 南到广州”; 4) 类属关系, 例如, “北京和伦敦都是首都, 是本国的政治经济文化中心”。根据是否受距离影响,又可以将它们分为两大类: 地理语义关联和非地理语义关联。由于非地理语义关联的含义过于宽泛和模糊, 因此 GIR 领域中主要使用地理关联作为消歧规则。本文的消歧证据也限定在地理关联范围之内。地理包含和相近规则是采用最多的地理语义规则。研究者普遍认为, 地名出现在同一文本中的主要原因是它们所指的地理实体之间存在着空间包含关系或者地理邻近关系。它的理论基础来自Tobler[39]的地理学第一定律, 即“所有事物都是相关的, 并且事物在空间上越相近其相关性就越大”。1.3 地理关联度的概念
本文提出地理关联度的概念, 用于形式化地理学第一定律。我们认为任意两个地理实体之间存在着地理关联, 关联的程度由两个实体之间的地理距离决定。用于衡量两个实体地理关联程度的指标是地理关联度, 它可以用一个介于 0 与 1 之间的二元函数表示:
G Rel( x , y) (0,1]( x, y G),
G 是论域中所有地理实体的集合。如果 Grel(x, y) =0, 则表示 x 与 y 没有关联, 这就违背了地理学第一定律, 因此 Grel(x, y)>0。grel(x, y)越趋近 1, 关联程度越高。如果 Grel(x, y)=1, 则表示 x 与 y 相等或者包含。地理语义关联度的大小由地理实体之间的距离决定, 距离越近, 关联度越大; 反之, 关联度越小。根据地名消歧原理, 如果一个歧义地名的某个可能所指与上下文中其他地名所指实体的地理关联程度越高, 则该可能所指是歧义地名实际所指的可能性就越大。