南非 时区(南非时区代码)满满干货
作 者 信 息焦晨焱,成 毅,葛 文,徐 立(信息工程大学,河南 郑州 450001)“【摘要】为实现非洲地区开源地名数据的优化利用,本文基于Geonames与OSM地名数据,通过绘制统
作 者 信 息焦晨焱,成 毅,葛 文,徐 立(信息工程大学,河南 郑州 450001)“【摘要】为实现非洲地区开源地名数据的优化利用,本文基于Geonames与OSM地名数据,通过绘制统计图表、要素分布密度图等统计方法,对比分析两种地名数据质量差异。
研究结果表明:①非洲西部、南部等沿海国家地名数据质量高于中部地区;②OSM数据总量高于Geonames,其中OSM在喀麦隆、索莱托等地区自然点特征类型数据量较高;③点状居民地数据分布与人口分布相关,主要集中在西非撒哈拉以南地区、非洲北部沿海地区及中部地区;④Geonames现势性较低,一半以上数据年龄大于5年。
【关键词】非洲;地名;开源;数据质量【中图分类号】TU201.2 【文献标识码】A 【文章编号】1672-1586(2021)02-0095-05”引文格式:焦晨焱,成 毅,葛 文,等. 非洲开源地名库数据质量分析及可用性研究[J].地理信息世界,2021,28(2):95-99.
正文0 引 言地名是人们赋予某一特定空间位置上自然或人文地理实体的专有名称,不仅是一个地理符号,更是蕴藏着丰富的人文和历史内涵非洲经历了漫长的殖民统治时期,其地名的历史渊源与殖民统治有不可分割的关系,部分国家名称或城市地名甚至直接使用殖民者名字命名。
20世纪后半叶,随着非洲各国相继独立,为了摆脱殖民文化影响,地名不断发生变化非洲拥有包括英语、法语、葡萄牙语、阿拉伯语以及本土语言等2000多种语言,语言文化多样性导致非洲地名也极为复杂非洲大部分国家为经济落后地区,传统测绘地理信息建设存在周期长、成本高等问题,使得非洲国家地名数据库建设落后。
2007年GoodChild首次提出志愿者地理信息(Volunteered Geographic Information,VGI),这是一种用户通过在线协作的方式自发地贡献地理空间信息,具有建设维护成本低、现势性强、内容丰富等诸多优势。
实际上,包括开源地名数据在内的VGI数据得到了诸多非洲国家的青睐目前,典型的开源地名辞典数据库主要有Geonames、Open Street Map(OSM)、GEONet Names Server、Wikipedia等,也正积极致力于绘制非洲人道主义地图。
开源地名库数据质量是影响数据使用的重要因素之一,且目前的研究多集中于欧洲、南北美洲、亚洲等发达国家和地区Haklay先后将英国的OSM数据与军械测量局(OS)的数据集进行了两次比较,结果表明OSM路网覆盖具有明显的差异,不同地区的覆盖率与详细程度不同。
张一帆等对中国的OSM路网数据与高德地图进行比较,实验结果表明二者具有较高的一致性Ahlers分别从位置精度、分类正确性、链接质量等对中美洲、德国等地区的Geonames地名数据进行质量评价,结果表明Geonames数据位置精度具有明显的截断误差,在特征分类、链接质量方面也均存在误差。
与直接评价空间数据质量不同,赵肄江等从贡献者信誉角度出发提出了基于VGI的用户信誉模型来评价OSM数据质量,实验结果表明空间对象的质量和其可信度值成正相关关系相比研究较多的发达地区地名数据质量问题,非洲欠发达地区的开源地名数据质量相关研究则较少。
因此,本文基于Geonames和OSM数据,从数据完备性、完整性以及现势性等多个方面对非洲地区的地名数据质量及可用性分析,旨在帮助地名数据使用者了解非洲地区的数据质量及其适用性1 Geonames与OSM地名数据类型及结构
Geonames地名数据主要来源于美国国家相关机构,同时还包含来自其他地区机构和组织以及公开开放的地名词典等Geonames中所有地名相关数据均以文本形式储存,字段间以制表符分隔,主要包括地名、别名、行政区划、特征类别、时区、国家、语言等信息。
本文基于地名数据分析,Geonames数据中共包含地名ID、地名名称、地理坐标、特征类别、人口、海拔、数字高程模型等19种属性,数据结构依据测绘地理框架OSM数据主要由志愿者通过使用航空图像、GPS设备与传统的地区地图上传。
它提供XML和Shapfile两种格式数据,涵盖空间数据和属性数据XML格式数据主要包括节点(Nodes)、路径(Ways)和关系(Relations)3种类型,其中节点定义了空间点的位置,路径定义了线或区域,关系定义了元素间的关系。
shape file格式数据包含点、线、面3种数据类型宋华标等详细描述了Geonames与OSM两种数据源数据结构差异2 Geonames与OSM地名数据质量对比评价2.1 地名数据质量评价内容及方法
地理信息质量元素是从不同方面反映地理信息数据质量的重要指标ISO19113-2002标准从完整性、逻辑一致性、位置精度、时间精度、专题精度等控制地理信息数据质量地名数据主要包括空间数据、属性数据及时域数据3个基本部分,郭丰堂等认为影响地名数据质量的元素主要有:名称描述不准确、数据遗漏、几何位置错误、地址数据不健全;秦学秀等认为地名数据质量元素有:属性项完备性、现势性、地名完整性等。
目前对于地名数据质量主流的评价方法主要有基于参考权威数据的评价方法和直接评价法,包括层次分析法(AHP)、缓冲区叠置分析法等文本主要基于非洲Geonames与OSM两种数据源进行对比分析,一方面,Geonames与OSM地名数据库与传统地名数据库有本质不同,另一方面,开源地名数据库是非洲地区未来地理信息数据发展的必然趋势之一。
选取地名数据质量评价元素主要包括要素完备性、内容完整性、现势性及可用性等几个方面实验数据从Geonames与OSM官方网站下载并经过合并整理,范围涵盖非洲主要国家和地区,数据更新日期为2020年7月20日。
2.2 要素类型完备性要素类型完备性能够反映地名语义描述的详细程度特征分类的准确性能可以降低地名属性特征归属的模糊性和不确定性,从而提高属性精度Geonames与OSM采用截然不同的特征分类方式Geonames地名特征分类依据美国国家地理信息分类分级标准,一级分类包含 A(行政区划)、H(水文)、L(土地利用)、R(交通)、S(居民地附属设施)、T(地貌)、 V(植被)、U(水下)、P(点状居民地)共9大类,二级分类680多个。
这种分类方式一方面有利于规范地名数据管理,另一方面则便于与标准地名数据库融合,有利于地名数据的完善和补充OSM自定义特征分类规则,一级分类包含点状居民地、关注点、朝拜地、自然、交通、运输共6大类,二级分类49种及三级分类共计219种。
这种分类方式符合社会生活习惯,更有利于知识素质不一的志愿者上传和使用地名数据,从而使得OSM得以更好推广编码方式不同Geonames以特征类名称简写作为特征编码方式这种方式有利于地名语义的表达及特征类之间的关联关系,如ADM1、ADM2、ADM3表示不同等级行政区划;××H(history)表示曾经存在过的地名等。
OSM则以四位数字形式编码,前两位为父类特征编码,后两位为子类特征编码这种编码方式具有规律性,能够直观反映子类特征的父类特征归属本文以点状居民地特征分类为例建立特征分类映射表,见表1发现Geonames与OSM点状居民地特征类存在一对多,一对空的映射关系。
OSM能够清晰描述city、town、 village等不同规模的居民地,而Geonames则以PPL唯一表示居民地在非洲地区Geonames数据中,PPL类数据占P类数据的96%以上实际上,PPL二级分类一程度上相当于OSM中的Place一级分类。
由此可见,虽然Geonames中P类数据具有多个二级分类,但其实际语义描述效果不如OSM表1 点状居民地特征分类映射表Tab.1 Population places classification mapping table
2.3 要素内容完整性数据完整性是指空间数据与真实地理世界的覆盖度和属性信息的完整性非洲拥有丰富的动植物、矿产资源及其独特的地貌影响人口分布,数据内容完整性能够反映要素分布差异本文分别从各类特征数量及所占总量比重分布考察其要素完整性,从名称命名率考察其属性完整性,从覆盖程度考察其空间完整性。
首先,对比Geonames与OSM各特征类型数量(如图1所示)及各个国家地名数量对比(如图2所示)非洲地区Goenames数据共1268626条,OSM数据共3194129条Geonames中数据主要类型包括点状居民地、水文、地貌等,其中点状居民地名数量多于总量的1/3,而居民地附属设施等所占比重较少。
OSM中数据主要类型依次为自然点、关注点和点状居民地,其中自然点占总量的1/2以上,关注点及点状居民地所占比重较少两种数据特征类型差异主要体现在植被特征点,如OSM数据中喀麦隆首都植被点数量多达50多万条,南部国家索莱托18多万条植被点。
不同国家和地区也存在不同程度差异,其中喀麦隆、摩洛哥、阿尔及利亚和索莱托等差异较大
图1 Geonames与OSM各类特征数量对比 Fig.1 Comparison of the numbers of various features between Geonames and OSM
图2 Geonames与OSM各国家数量对比Fig.2 Comparison of the numbers of Geonames and OSMcountries在Geonames地名库中,摩洛哥、南非、津巴布韦、布隆迪等国家拥有地名数据量较多,而在OSM地名库中,喀麦隆、乌干达、坦桑尼亚、南非、阿尔及利亚等国家拥有OSM地名数据量较多。
从整体来看,非洲大部分国家正在积极参与开源地名库的建设然而,个别国家却持有封闭保护态度而不乐于分享基础地名数据标准地名数据库的建设与维护需要消耗大量人力财力,而开源地名库具有建设与维护成本低、数据更新快、本地知识丰富、语言相通等诸多优势,能够为当地经济、文化及社会的发展带来巨大便利,如便利设施、商店等地名信息直接为当地居民生活提供便利条件。
同时,开源地名库在应对霍乱、埃博拉等疫情及重大自然灾害等风险防控中发挥至关重要的作用由于经济状况、志愿者知识素质、采集设备及网络条件等诸多因素,与发达地区相比非洲地区的开源地名库亟待发展与完善地名数据库的统计分析研究能够帮助非洲国家清楚认识到开源地名库建设的薄弱方面,从而加强与完善。
为进一步研究特征类型的分布差异,绘制不同特征类型地名数据分布图,如图3所示在Geonames中,在西非南岸,点状居民地特征类型较多在中部地区,特征类型几乎为点状居民地与水文特征非洲相对富裕国家主要分布在非洲南北及北部沿岸地区,该区域居民地附属设施所占比重比其他地区相对较多。
非洲南部及东部有三大高原,此区域地貌类特征点所占比重较中部及西非地区较多在OSM中,除刚果、喀麦隆、索莱托地区自然点占有极高的比重,其他区各类特征点所占比重偏好不一非洲南部、西部地区的关注点所占比重较非洲东部地区比重要高。
以非洲点状居民地为例,以名称命名率考察其属性完整性非洲地区点状居民地的命名率见表2Geonames地名数据均有名称,而OSM数据命名率仅为72%左右地理名称是地名数据的最基本要素之一,无名的点状居民地数据影响了地名数据的使用。
因此OSM数据需要完善基本地名名称表2 Geonames与OSM中各类特征命名率Tab.2 The naming rates of various features in Geonames and OSM
图3 Geonames与OSM各类特征分布对比Fig.3 Comparison of various feature distributions between Geonames and OSM为考察点状居民地数据的分布与人口分布关系,分别绘制非洲人口分布图,Geonames与OSM点状居民的分布图,如图4所示。
结果表明,Geonames与OSM非洲各国家和地区的点状居民的数量分布与人口分布基本一致
图4 非洲人口及点状居民地数据分布对比Fig.4 Comparison of data distribution of African population and spot residential areas
为进一步评估非洲点状居民地空间分布完整性,以覆盖度作为指标,绘制Geonames和OSM点状居民地数据60km×60km格网密度图,如图5所示整体而言, Geonames与OSM点状居民地覆盖密度聚集性明显,Geonames与OSM数据覆盖密度对比差异不大。
非洲北部撒哈拉沙漠地区点状居民地覆盖密度较低高密度覆盖区主要集中在西非撒哈拉以南至南海岸地区、北部与西班牙隔海相望沿岸地区以及埃及尼罗河三角洲地区在中部地区,卢旺达及乌干达首都坎帕拉地名覆盖度高,与南部相接壤的布隆迪地区地名覆盖差异明显。
2.4 数据现势性随着非洲经济发展,城市空间扩张及去殖民化等因素,对地名数据现势性要求逐渐提高开源地名数据中用户可以随时随地上传、修改地名数据,及时更新地名数据,保证地名数据的现势性在Geonames中,地名数据的更新频率为1天,每天定时公布前一天的数据删除和修改结果。
OSM地名数据的更新频率为1天,历史数据库提供了数据上传以后所有的编辑信息,可以从中提取用户名称、修改时间、编辑内容等信息,但这些信息并非免费提供基于Geonames数据中提供的数据最后修改时间绘制近10年非洲地区各类数据更新变化曲线,如图6所示。
2010—2020年近10年间,每年均有大量Geonames数据被更新,截至2020年7月,数据沿用2012年以及2016年数据更新量最多其中近5年的数据修改量占总量不足1/2因此,非洲地区并没有利用Geonames开源地名数据库的优势,及时更新数据。
图6 2010—2020年Geonames各类特征数据更新趋势Fig.6 The update trend of various feature data of Geonames from 2010—2020
2.5 Geonames与OSM地名数据可用性分析通过对非洲地区Geonames与OSM地名数据要素类型完备性、特征类型完整性、名称属性完整性、空间分布完整性及数据现势性等评价分析,结果表明Geonames与OSM具有完备地名框架,能够满足非洲各种要素类型的上传和使用。
Geonames与OSM中现有非洲地名数据不同特征类型数据呈现不平衡状态,居民地附属设施、关注点等特征类型数据量较少点状居民地数据分布差异明显,在OSM中存在较多无名点状居民地Geonames数据现势性较低。
目前,非洲Geonames与OSM地名数据发展和建设尚处于起步阶段,其数据质量较低,因此非洲Geonames与OSM可作为权威地名数据的参考补充数据使用3 结束语本文依据地名数据质量评价元素,通过绘制要素映射表、要素内容统计图表、要素分布密度图等,从要素类型完备性、内容完整性、现势性及可用性等多角度对非洲地区Geonames与OSM数据进行对比分析,为非洲地区开源地名库数据质量提供一个直观分析结果。
分析结果表明:①整体而言,非洲地区Geonames与OSM数据质量较低,非洲西部、南部等沿岸国家地名数据质量高于中部地区;②Geonames与OSM具有完整的要素类型,能够满足非洲地区地名数据库的使用,但Geonames点状居民地类型语义描述实际利用较低;③OSM数据总量高于Geonames,特征类型的差异主要集中在自然点类型,地区差异主要表现在喀麦隆、摩洛哥等国家;④点状居民地分布密度与人口分布相关,主要集中在非洲北部沿海、西部撒哈拉以南及南非地区;⑤Geonames的现势性较低,一半以上数据的“年龄”大于5年。
本文研究内容能在一定程度上反映非洲开源地名数据质量及适用性,但还需更加合理的评价体系作者简介:焦晨焱(1994—),男,河南中牟人,测绘工程专业硕士研究生,主要研究方向为地理信息系统应用E-mail:834362624@qq.com
本期回顾
《地理信息世界》2021年2期速览· 《地理信息世界》2021年2期速览地理信息科学一流本科专业建设· 新时代GIS高等教育的改革和探索· 地理信息科学一流人才培养的探索与实践· “我眼中的地图”开放式问题分析
·地理大数据背景下空间分析课程教学改革探索·农业院校遥感原理课程教学改革探讨· 疫情防控下全国大学生专业技能竞赛的改革创新 ——以地理信息 科学专业为例理论研究· 武汉市汉剧剧场的时空分布特征分析·中国城市建设用地扩展模式与PM2.5关系探究
·城市群飞地型斑块空间活力对比 ——以中国三大城市群为例·基于无人机巡检倾斜影像的绝缘子爆片自动检测方法·基于参数约束的隧道断面抗差拟合研究·基于InVEST模型的杭州市生态系统服务评估·青海省地级以上城市多年度城区扩张研究
创新应用·学科科研产出主题与空间分布规律研究 ——以地理学与测绘学为例· 风力发电机对荒漠草原地表温度及蒸散发的影响·东北地区城市网络系统传染性疾病事件传播模拟分析·应用地表覆盖数据估算LiDAR内业工作量的方法研究
- 标签:
- 编辑:李松一
- 相关文章
-
女子网球排名(wta女子网球最新排名)学会了吗
国际女子网球协会(WTA)今日公布2020赛季年终排名。来自澳大利亚的巴蒂连续两年收获单打年终第一的排名。双打方面,来自中国台…
-
爱尔兰国家队(爱尔兰橄榄球国家队)新鲜出炉
NO MEANS NO
- 爱尔兰国家队(爱尔兰橄榄球国家队)学会了吗
- 阿拉蕾是什么(阿拉蕾是什么人)全程干货
- 阿拉蕾是什么(阿拉蕾是什么人)一篇读懂
- 克鲁日(克鲁日拿波卡)深度揭秘
- 克鲁日(克鲁日拿波卡)一篇读懂