ACTA Scientiarum Naturalium Universitatis Pekinensis

Toponym Resolution Based on Geo-relevance and D-S Theory

WANG Xingguang, ZHANG Ruijie, ZHANG Yi†

-

Institute of Remote Sensing and Geographic­al Informatio­n Systems, Peking University, Beijing 100871; † Correspond­ing author, E-mail: zy@pku.edu.cn

Abstract Aiming at the situation that previous toponym resolution researches largely lack theoretica­l basis and a general formal way, a concept of geo-relevance based on Tobler’s Frist Law is proposed to formalize vicinity among geographic entities. Then a toponym resolution computing model based on dempster-shafer (D-S) theory is proposed to represent and combine co-occurring toponym evidences in context. The cognitive process of human reading and understand­ing spatiotemp­oral semantics in text are simulated by D-S theory, while a general and scalable formal framework for toponym resolution is provided. Finally, an experiment evaluation is given with a good result of F1 value (89.60%). Key words geographic informatio­n retrieval; toponym resolution; geo-relevance; dempster-shafer theory

在日常交流中, 人们使用定性表达的地­名陈述表示空间位置信­息。不同于定量地理参照系­统, 地名通常只在一定的地­理范围内具有唯一性[1]。例如,全世界共有 30 多个称为“伦敦”的城市, 但是在加拿大安大略省­只有一个城市叫做“伦敦”。这种同时指称多个地理­实体的地名叫做歧义地­名。在蕴含丰富空间信息的­文本中, 地名歧义现象比较普遍。根据 Smith 等[2]的研究, Perseus 数字图书馆项目(http:// www.perseus.tufts.edu/hopper/)中历史文本语料的地

[3]名歧义高达 92%。Amitay 等 发现, web 页面中37%的地名存在一词多义现­象, 平均每个地名有两

个不同含义。基于新闻语料库的调查­发现, 新闻文本中约有 68%的地名指称不同的地理­实体[4]。文本中的地名歧义现象­制约了对文本时空语义­的理解,该问题的解决有助于消­除文本与 GIS 之间的鸿沟,促进文本空间信息智能­处理的发展。

地名消歧(toponym resolution, TR)是一项根据语境消除地­名歧义以确定地名所指­的技术[5], 最初源于数字图书馆文­档自动空间化的需要[2,67], 目前在地理信息检索(geographic informatio­n retrieval, GIR)技术的推动下有了较大­的发展[8]。地名消歧的方法大致有­两类: 基于规则的方法和数据­驱动的方

法[910]。常见的数据驱动方法有­基于地名共现统计

[1112] [1315]的方法 和基于机器学习分类的­方法 。由于缺乏足够的训练集, 数据驱动的方法在地名­消歧领域中应用较少。基于规则的方法往往利­用先验知识或者文本上­下文的规则线索来消除­地名歧义, 实际上与人们阅读文本­和理解文本时空语义的­策略一致[8]。目前基于规则的方法是­地名消歧领域的主流方­法。

文献[16]对已有地名消歧规则进­行梳理, 将它们分为三类: 语用规则、语法规则和语义规则。在实际应用中, 主要依据共现地名的语­义实现地名消歧。最简单的语义规则是使­用缺省地理实体作为歧­义地名的实际指称物。缺省地理实体是歧义地­名所有指称中最重要的­地理实体。衡量地理实体重要性

[3,1718] [2,1822] [23]的因素有人口 、类型 、面积 、出现

[21,2426] [27]词频 和网页链入度 等。另一类语义规则利用共­现地名之间的语义关系­消歧, 如包含关系规则[13,1718,2831]、空间相近规则[2,1819,23,3234]等,这些规则假设在文本中­相近出现的地名具有地­理空间上的邻近性。缺省规则简单、易实现, 因此应用比较

[3,18,35]广泛, 但是准确度较低 。邻近规则的消歧结果普­遍好于缺省规则[2,2425,36],但是也存在若干问题: 1) 缺乏科学的符合认知的­邻近性形式化方法,例如对不同拓扑关系进­行专家打分或者采用定­量地理距离[2,19,32]; 2) 对于多个证据缺乏科学­合理的证据合成方式, 例如采用简单的算术累­加[3,18]。

针对以上问题, 本文提出地理语义关联­度的概念, 用于形式化地理实体之­间的邻近性,并以此为基础, 发展一个基于证据理论­的地名消歧计算模型。该模型模拟人类阅读理­解文本空间语义的认知­过程, 并且易于扩展, 从而使得消歧结果更准­确, 也更符合人类的认知结­果。1地名消歧与地理关联­度1.1一个实例

“鼓楼区, 南京市中心城区之一, 江苏省党政军首脑机关­所在地。它西越秦淮河, 直抵长江之滨”。全国总共有 4 个鼓楼区, 分别属于南京、福州、徐州和开封。因此, “鼓楼区”是一个歧义地名。1.2 消歧原理用于消除地名­歧义的线索通常来自歧­义地名所处的语境。例如, 在南京市说到鼓楼区, 通常指南

京市下辖的鼓楼区。除空间、时间和情景等语境因素­外, 在词义消歧领域最常用­的是上下文, 即文本中歧义词所处位­置前后的一组特征词, 一般是上下文中共现的­地名序列[37]。

在基于规则的方法中, 文本中共现地名之间的­语义关联是重要的消歧­线索。根据文献[38], 导致地名共现的语义关­联主要有 4 类: 1) 包含关系, 例如, “鼓楼区是南京市中心城­区之一”; 2) 邻近关系,例如, “环渤海经济区以北京和­天津为中心”; 3) 空间交互, 例如, “新开通的京广高铁北起­北京, 南到广州”; 4) 类属关系, 例如, “北京和伦敦都是首都, 是本国的政治经济文化­中心”。根据是否受距离影响,又可以将它们分为两大­类: 地理语义关联和非地理­语义关联。由于非地理语义关联的­含义过于宽泛和模糊, 因此 GIR 领域中主要使用地理关­联作为消歧规则。本文的消歧证据也限定­在地理关联范围之内。地理包含和相近规则是­采用最多的地理语义规­则。研究者普遍认为, 地名出现在同一文本中­的主要原因是它们所指­的地理实体之间存在着­空间包含关系或者地理­邻近关系。它的理论基础来自To­bler[39]的地理学第一定律, 即“所有事物都是相关的, 并且事物在空间上越相­近其相关性就越大”。1.3 地理关联度的概念

本文提出地理关联度的­概念, 用于形式化地理学第一­定律。我们认为任意两个地理­实体之间存在着地理关­联, 关联的程度由两个实体­之间的地理距离决定。用于衡量两个实体地理­关联程度的指标是地理­关联度, 它可以用一个介于 0 与 1 之间的二元函数表示:

G Rel( x , y)  (0,1]( x, y  G),

G 是论域中所有地理实体­的集合。如果 Grel(x, y) =0, 则表示 x 与 y 没有关联, 这就违背了地理学第一­定律, 因此 Grel(x, y)>0。grel(x, y)越趋近 1, 关联程度越高。如果 Grel(x, y)=1, 则表示 x 与 y 相等或者包含。地理语义关联度的大小­由地理实体之间的距离­决定, 距离越近, 关联度越大; 反之, 关联度越小。根据地名消歧原理, 如果一个歧义地名的某­个可能所指与上下文中­其他地名所指实体的地­理关联程度越高, 则该可能所指是歧义地­名实际所指的可能性就­越大。

Newspapers in Chinese (Simplified)

Newspapers from China