0

0

全解Python的地理编码

WBOY

WBOY

发布时间:2023-04-14 16:55:03

|

1408人浏览过

|

来源于51CTO.COM

转载

译者 | 崔皓

审校 | 孙淑娟

1、简介

 大家在处理机器学习的大型数据集时,是否会遇到如下的地址栏?

图片

上面的位置数据非常混乱,难以处理。对地址进行编码是很困难的,因为它们具有非常高基数。如果你试图用单次编码技术来对某列进行编码,就会导致高维度的结果,这会导致机器学习模型表现欠佳。解决问题的最简单方法就是对列进行地理编码。

2、什么是地理编码?

地理编码是将地址转换为地理坐标,这意味着将把原始地址转化为经度/纬度的方式。

3、Python中的地理编码

有许多不同的库可以帮助你用Python进行地理编码。最快的是谷歌地图提供的API,如果有超过1000个地址需要在短时间内转换,我推荐你使用。然而,谷歌地图的API并不是免费的,你需要为每1000个请求支付约5美元。

谷歌地图API的免费替代品是OpenStreetMap API。然而,OpenStreetMap API的速度比起谷歌地图来说要慢得多,而且准确性也稍差。

在这篇文章中,我将指导你使用上述两个API完成地理编码过程。

4、谷歌地图API

让我们首先使用谷歌地图API将地址转换成精度/纬度。首先需要创建一个谷歌云账户,并输入信用卡信息。虽然这是一项付费服务,但当你第一次创建谷歌云账户时,谷歌会给你200美元的免费信用。这意味着,在你被收费之前,你可以用他们的地理编码API进行大约40,000次调用。只要你没有达到这个限制,你的账户就不会被收费。

首先,在谷歌云上建立一个免费账户。然后,一旦你建立了一个账户,你就可以按照这个教程来获得你的谷歌地图API密钥。

一旦你收到API密钥,就可以开始编码了!

(1)前提条件

在本教程中使用Zomato餐厅Kaggle数据集。确保在你的路径中安装了该数据集。然后,用这个命令安装googlemaps API包。

pip install -U googlemaps

(2)读取数据集

现在,让我们读取数据集并检查数据帧的头部。

data = pd. read_csv('zomato.csv',encoding="ISO-8859-1")
df = data.copy()
df.head()

图片

这个数据集合有21列,9551行。

只需要针对地址列来进行地理编码,所以去掉所有其他的列。然后,再去掉重复记录,最后只得到地址列信息。

df = df[['地址']]
df = df. drop_duplicates()

再看一下数据框架的头部,在处理之后就只看到地址信息了。

图片

接下来,就可以开始地理编码了。

(3)地理编码

首先,用Python访问我们的API密钥,运行下面几行代码来完成这个任务。

gmaps_key = googlemaps.Client(key="your_API_key")

现在,让我们先尝试对一个地址进行地理编码,并看看输出结果。

Cursor
Cursor

一个新的IDE,使用AI来帮助您重构、理解、调试和编写代码。

下载
add_1 = df['地址'][0]
g = gmaps_key. geocode(add_1)
lat = g[0]["geometry"]["location"]["lat"]
long = g[0]["geometry"]["location"]["lng"]
print('Latitude: '+str(lat)+', Longitude: '+str(long))

运行上述代码,得到类似如下的输出结果。

 

图片

如果你得到上述输出,很好!表示一切顺利。我们可以针对整个数据集应用类似的处理,过程如下:

def geocode(add):
g = gmaps_key. geocode(add)
lat = g[0]["geometry"]["location"]["lat"]
lng = g[0]["geometry"]["location"]["lng"]
return(lat, lng)。
df['geocoded'] = df['Address']. apply(geocode)

再次检查数据集合的头部,看看代码是否生效。

df.head()

图片

如果输出类似上面的截图,恭喜你!你已经成功地对整个数据框架中的地址进行了地理编码。

5、OpenStreetMap API

OpenStreetMap API是完全免费的,但与谷歌地图API相比,速度较慢,精确度较低。这个API无法定位数据集中的许多地址,所以这次我们将使用地点栏来代替。在开始学习教程之前,让我们先看看地址栏和位置栏的区别。运行下面几行代码来完成这个任务。

print('Address: '+data['Address'][0]+'nnLocality: '+data['Locality'][0] )

图片

地址栏(Address)比地点(Locality)栏细化得多,它提供了餐厅的确切位置,包括楼层号。这可能是地址不被OpenStreetMap API识别,而地点却被识别的原因。

让我们对第一个Locality进行地理编码,看看输出结果。

地理编码

运行以下几行代码。

Import url
Import requests

data = data[['Locality']]

url = 'https://nominatim.openstreetmap.org/search/' + urllib. parse. quote(df['Locality'][0]) +'?format=json' 。
response = requests.get(url).json()
print('Latitude: '+response[0]['lat']+', Longitude: '+response[0]['lon'] )

左右滑动查看完整代码

上述代码的输出与谷歌地图API生成的结果非常相似。

图片

现在,让我们创建一个函数来寻找整个数据集合的坐标。

def geocode2(locality):
url = 'https://nominatim.openstreetmap.org/search/' + urllib. parse. quote(locality) +'?format=json'
response = requests.get(url).json()
if (len(response)!=0)。
return(response[0]['lat'], response[0]['lon'] )
else:
return('-1')

data['geocoded'] = data['Locality']. apply(geocode2)

很好!现在,让我们来看看数据集合的头部。

Data.head(15)

请注意,这个API无法为数据集合中的一些地方提供坐标。

虽然它是谷歌地图API的免费替代品,如果用OpenStreetMap进行地理编码,有可能会失去大量的数据。本教程到此结束!希望你从这里学到了一些新的东西,并对处理地理空间数据有了更好的理解。

原文链接:https://www.kdnuggets.com/2022/11/geocoding-python-complete-guide.html

译者介绍

崔皓,51CTO社区编辑,资深架构师,拥有18年的软件开发和架构经验,10年分布式架构经验。

相关专题

更多
Java JVM 原理与性能调优实战
Java JVM 原理与性能调优实战

本专题系统讲解 Java 虚拟机(JVM)的核心工作原理与性能调优方法,包括 JVM 内存结构、对象创建与回收流程、垃圾回收器(Serial、CMS、G1、ZGC)对比分析、常见内存泄漏与性能瓶颈排查,以及 JVM 参数调优与监控工具(jstat、jmap、jvisualvm)的实战使用。通过真实案例,帮助学习者掌握 Java 应用在生产环境中的性能分析与优化能力。

4

2026.01.20

PS使用蒙版相关教程
PS使用蒙版相关教程

本专题整合了ps使用蒙版相关教程,阅读专题下面的文章了解更多详细内容。

55

2026.01.19

java用途介绍
java用途介绍

本专题整合了java用途功能相关介绍,阅读专题下面的文章了解更多详细内容。

75

2026.01.19

java输出数组相关教程
java输出数组相关教程

本专题整合了java输出数组相关教程,阅读专题下面的文章了解更多详细内容。

37

2026.01.19

java接口相关教程
java接口相关教程

本专题整合了java接口相关内容,阅读专题下面的文章了解更多详细内容。

10

2026.01.19

xml格式相关教程
xml格式相关教程

本专题整合了xml格式相关教程汇总,阅读专题下面的文章了解更多详细内容。

12

2026.01.19

PHP WebSocket 实时通信开发
PHP WebSocket 实时通信开发

本专题系统讲解 PHP 在实时通信与长连接场景中的应用实践,涵盖 WebSocket 协议原理、服务端连接管理、消息推送机制、心跳检测、断线重连以及与前端的实时交互实现。通过聊天系统、实时通知等案例,帮助开发者掌握 使用 PHP 构建实时通信与推送服务的完整开发流程,适用于即时消息与高互动性应用场景。

17

2026.01.19

微信聊天记录删除恢复导出教程汇总
微信聊天记录删除恢复导出教程汇总

本专题整合了微信聊天记录相关教程大全,阅读专题下面的文章了解更多详细内容。

153

2026.01.18

高德地图升级方法汇总
高德地图升级方法汇总

本专题整合了高德地图升级相关教程,阅读专题下面的文章了解更多详细内容。

139

2026.01.16

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 6.8万人学习

Django 教程
Django 教程

共28课时 | 3.3万人学习

SciPy 教程
SciPy 教程

共10课时 | 1.2万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号