空间数据分析入门POI与莫兰指数基础知识笔记

1. 空间分析与POI

1.1. 什么是POI

POI是“Polnt of Information”的缩写,中文可以翻译为“信息点”。POI是地图上任何非地理意义的有意义的点,如商店、酒吧、加油站、医院、车站等。这些点通常包括名称、类别、经纬度和地址等基本信息。此外,POI数据还可以进一步扩展,包括营业时间、联系电话、人均消费等信息,以满足不同应用场景的需求。

POI数据的应用场景非常广泛,包括但不限于:

  • 城市规划和管理:POI数据可以帮助城市规划者了解城市的功能区分布、中心识别和业态集聚等情况,以便更好地制定城市规划和管理的策略。
  • 商业选址和营销:商家可以通过POI数据了解目标区域的商业分布和竞争情况,选择合适的店铺位置并进行精准营销,提高市场占有率和营业额。
  • 智能交通和导航:POI数据可以帮助导航系统实现更精准的定位和路线规划,为驾驶员提供更加便捷的出行路线和实时交通信息。
  • 社交媒体和广告:POI数据可以帮助社交媒体平台了解用户的行为和兴趣,推送更加精准的广告和个性化推荐内容。
  • 旅游和文化:POI数据可以帮助旅游和文化部门了解旅游景点的分布和特点,提供更加便捷的旅游信息和宣传推广。
  • 公共服务和民生:POI数据可以帮助政府和公共服务机构了解市民的需求和分布情况,提供更加贴心和便捷的民生服务。

总之,POI数据在城市规划和管理、商业选址和营销、智能交通和导航、社交媒体和广告、旅游和文化以及公共服务和民生等领域都具有广泛的应用前景。

1.2. POI的来源

序号 分类 来源 说明
1 科研机构 北大地理数据;科学院地理科学与资源研究所 geodata.pku.edu.cn,www.resdc.cn
2 地图服务提供商 百度,高德,腾讯,谷歌等
3 地图软件 水经注、BIGEMAP地图、小O地图、ArcGIS
4 在线地图坐标拾取工具 规划云 www.guihuayun.com
5 社交媒体 大众点评、小红书 社交媒体平台上有用户自发贡献的POI信息
6 商业数据提供商
7 政府机构或公共部门 城市内的公交站点,交通信号灯 /www.openstreetmap.org

需要注意的是,不同来源的POI数据的质量和可靠性可能存在差异,同时不同的应用场景也需要不同类型的POI数据。因此,在选择和使用POI数据时,需要根据具体需求进行评估和筛选。

1.3. POI坐标及标准

当前互联网地图的坐标系主要分为地球坐标 (WGS84)是国际标准,从 GPS 设备中取出的数据的坐标系,国际地图提供商使用的都是这个坐标系。

火星坐标 (GCJ-02)也叫国测局坐标系,中国标准,从国行移动设备中定位获取的坐标数据使用这个坐标系,国家规定:国内出版的各种地图系统(包括电子形式),必须至少采用GCJ-02对地理位,置进行首次加密。Google国内地图(.cn域名下)腾讯搜搜、阿里系高德地图都是这个坐标系。

百度坐标 (BD-09),百度标准,百度 SDK,百度地图,Geocoding 使用(本来就乱了,百度又在火星坐标上来个二次加密)。

综上所述,以上方法获取的POI需要根据来源进行坐标转换至通用的WGS84坐标系下进行处理。

1.4. 空间分析与POI

空间分析与POI(Point of Interest,兴趣点)数据的结合可以帮助我们深入了解地理空间中的特征、趋势和关联性。下面是一些关于空间分析与POI数据的观点:

  • 地理空间特征分析: 使用空间分析技术,可以帮助我们理解地理空间中不同区域的特征和分布。通过对POI数据进行空间分析,可以发现不同区域的POI分布模式、密度分布、集聚特征等,从而了解城市的功能分布、交通流量、人口分布等信息。

  • 地理空间趋势探测: 通过对历史POI数据的空间分析,可以发现地理空间中的发展趋势和变化。可以观察不同时间段内POI的新增、消失、迁移等情况,分析城市发展的动态变化、商业热点的演变等。

  • 空间关联性分析: 空间分析可以帮助我们理解不同POI之间的空间关联性。通过空间自相关分析、热点检测、空间插值等技术,可以发现不同类型POI之间的空间关联关系,例如商业中心和餐饮区域的空间聚集关系、交通枢纽和商业中心的空间联系等。

  • 基于空间分析的POI应用: 空间分析为POI数据的应用提供了重要支持。基于空间分析的POI应用包括城市规划、商业选址、交通规划、旅游推荐等。通过空间分析,可以优化POI数据的利用,提高应用的效果和准确性。

  • 空间数据可视化与交互: 空间分析与POI数据的结合还可以支持空间数据的可视化与交互。通过地图可视化、空间数据查询、交互式分析等技术,可以直观展示POI数据的空间分布特征,帮助用户理解地理空间中的信息和关联性。

综上所述,空间分析与POI数据的结合可以为我们提供丰富的地理空间信息,帮助我们理解城市的发展特征、商业格局、人口流动等,为城市管理、规划和决策提供重要参考。

1.5. 分析方法案例

核心思想

核心思想是特定类型的POI组合空间聚集在一起可以支持特定的城市功能区。比如在典型的中央商务区,聚集着办公类型的场所,商业服务设施,餐馆,酒店公寓等;而在飞机场附近则更多是酒店和物流集散中心等的共现;大型购物区域是各类衣包鞋和餐饮类POI的聚集共现。

分析方法

例如分析方法是在机器学习和自然语言处理中常用的主题模型(Topic Model),用来在一系列自然语言描述的文档中发现抽象主题的一种统计模型。但是考虑到POI分布和场所特征的独特性,比如一个橄榄球场馆附近有很多餐馆和酒吧,但是球馆只有一个,如果计算词频只是1,但是它却对于这个功能区域的特征贡献很大。本研究并没有直接通过传统的自然语言处理TF-IDF分析,而是同时结合了位置社交媒体(Foursquare)上的签到数据来刻画一个POI的受欢迎程度,在模型训练过程中实现重采样,得到更符合地理场所空间分布特征和使用强度的主题。下图为几个常见功能区所具有的不同类别POI的共现概率分布。

2. 莫兰指数

2.1. 什么是莫兰指数

一般说来,莫兰指数分为全局莫兰指数(GlobalMoran’s I)和安瑟伦局部莫兰指数(AnselinLocal Moran’s I)。其中,莫兰指数是澳大利亚统计学家莫兰(Patrick Alfred PierceMoran)在1950年提出的,安瑟伦局部莫兰指数是美国亚利桑那州立大学地理与规划学院院长Luc Anselin教授在1995年提出的。

莫兰指数(Moran’s I)是一种用于衡量空间自相关性的统计指标,它可以帮助我们理解地理空间数据中是否存在空间集聚或空间分散的现象。莫兰指数的大小和方向可以告诉我们数据的空间分布特征。

莫兰指数(Moran’s I)的计算公式如下:

I = n ∑ i = 1 n ∑ j = 1 n w i j × ∑ i = 1 n ∑ j = 1 n w i j ( x i − x ˉ ) ( x j − x ˉ ) ∑ i = 1 n ( x i − x ˉ ) 2 I = \frac{n}{\sum_{i=1}^{n}\sum_{j=1}^{n}w_{ij}} \times \frac{\sum_{i=1}^{n}\sum_{j=1}^{n}w_{ij}(x_i - \bar{x})(x_j - \bar{x})}{\sum_{i=1}^{n}(x_i - \bar{x})^2} I=i=1nj=1nwijn×i=1n(xixˉ)2i=1nj=1nwij(xixˉ)(xjxˉ)

其中:

  • n n n 是观测值的数量。
  • x i x_i xi x j x_j xj 是第 i i i 和第 j j j 个观测值。
  • x ˉ \bar{x} xˉ 是观测值的均值。
  • w i j w_{ij} wij 是第 i i i 个观测值和第 j j j 个观测值之间的空间权重。

莫兰指数用于衡量空间自相关性,它的值范围在 -1 到 1 之间:

  • 当莫兰指数接近 1 时,表明数据呈现正相关性,即相似的值聚集在一起。
  • 当莫兰指数接近 -1 时,表明数据呈现负相关性,即相反的值聚集在一起。
  • 当莫兰指数接近 0 时,表明数据之间不存在空间自相关性。

莫兰指数的计算需要依赖空间权重矩阵 w i j w_{ij} wij,它反映了不同地理位置之间的空间关联程度。常用的空间权重矩阵包括邻近权重矩阵和边界权重矩阵。

莫兰指数中的空间权重通常用于衡量空间数据中不同地理位置之间的关联程度。常见的空间权重矩阵包括邻近权重矩阵和边界权重矩阵。下面分别介绍它们的计算公式:

  • 邻近权重矩阵(Contiguity Weight Matrix):
    邻近权重矩阵用于衡量空间上相邻地理单元之间的关联程度。常见的邻近权重矩阵包括二元邻近权重矩阵和连续邻近权重矩阵。

    • 二元邻近权重矩阵(Binary Contiguity Weight Matrix): 如果两个地理单元相邻,则它们之间的权重为1,否则为0。其计算公式为:
      w i j = { 1 , if  i  and  j  are adjacent 0 , otherwise w_{ij} = \begin{cases} 1, & \text{if } i \text{ and } j \text{ are adjacent} \\ 0, & \text{otherwise} \end{cases} wij={1,0,if i and j are adjacentotherwise

    • 连续邻近权重矩阵(Row-standardized Contiguity Weight Matrix): 权重的大小取决于两个地理单元之间的距离,通常使用距离的倒数或指数函数来衰减权重。常见的计算方式是将每一行的权重进行标准化,使得每一行的权重之和为1。

  • 边界权重矩阵(Boundary Weight Matrix):
    边界权重矩阵用于衡量地理单元之间的边界关系。如果两个地理单元共享边界,则它们之间的权重为1,否则为0。其计算方式与二元邻近权重矩阵类似。

在计算莫兰指数时,通常会根据具体的分析需求选择合适的空间权重矩阵。这些权重矩阵的构建方法可以根据空间关系的定义和数据的特征进行调整,以反映不同地理单元之间的空间关联程度。

2.2. 在空间大数据的情况下,莫兰指数意义

  • 空间相关性识别: 莫兰指数可以帮助我们识别地理空间数据中的集聚模式。通过分析莫兰指数,我们可以确定数据是否在空间上呈现出聚集或分散的趋势。这对于了解地理现象的空间分布模式至关重要。

  • 空间规划和决策支持: 对于城市规划、资源配置和决策制定等领域,了解空间数据的分布模式至关重要。莫兰指数可以为决策者提供空间分析的依据,以更好地制定政策和规划。

  • 空间数据挖掘: 在空间大数据时代,了解数据的空间相关性有助于发现潜在的空间模式和关联。莫兰指数可以作为空间数据挖掘的一种工具,帮助我们从海量数据中找到有意义的空间模式和关联规律。

  • 空间预测和模型建立: 莫兰指数可以为空间预测模型提供重要的输入变量。通过了解空间数据的相关性,我们可以更准确地建立空间预测模型,从而提高预测的准确性和可靠性。

2.3. 莫兰指数的示例代码

下面是一个使用 Python 中的 pysal 库计算莫兰指数的示例代码:

from libpysal.weights.contiguity import Queen
import geopandas as gpd
from esda.moran import Moran

gdf = gpd.read_file('Guerry/Guerry.shp')
w = Queen.from_dataframe(gdf)
moran = Moran(y, w)
moran.I

print("Moran's I 值为:",moran.I)

在这个示例中,我们首先读取Guerry 数据集,然后创建了一个 Queen 邻接权重矩阵 w,该权重矩阵表示数据集中每个数据点的邻居。接下来,我们使用 pysal 中的 Moran 类来计算莫兰指数,其中传入了数据集 data 和权重矩阵 w。最后,我们打印了计算得到的莫兰指数和其统计显著性水平。

在实际应用中,你可以根据自己的数据和需求来替换示例中的数据集和权重矩阵,并根据莫兰指数的结果来进行进一步的空间数据分析。

参考:

[1]. 小理头脑风暴中. 什么是POI|POI获取方式(数据可分享). 知乎. 2022.08
[2]. 未名时空. 学术成果|利用POI共现规律和签到数据提取城市功能区. 知乎. 2019.01
[3]. java060515. 深度学习在高德POI鲜活度提升中的演进. 博客园. 2020.05
[4]. 录城PinSurvey. 大数据可视化 POI数据有什么用. 知乎. 2023.03
[5]. 虾神说D. 白话空间统计番外:再谈莫兰指数(Moran’s I). CSDN博客. 2016.03
[6]. 虾神说D. 白话空间统计之:Moran’s I(莫兰指数). CSDN博客. 2015.07
[7]. 吴忠才,唐红涛.基于POI大数据的城市商圈业态组合及优化研究[J].湖南理工学院学报:自然科学版,2018,31(4):36-45

你可能感兴趣的:(数据分析,人工智能及Python,数据分析,空间数据分析,POI,莫兰指数,python)