0

0

使用Selenium从Google地图提取商家评分与评论数量的实战教程

花韻仙語

花韻仙語

发布时间:2025-07-16 20:02:02

|

267人浏览过

|

来源于php中文网

原创

使用selenium从google地图提取商家评分与评论数量的实战教程

本教程详细介绍了如何利用Python和Selenium库从Google地图抓取商家(如花园)的评分和评论数量。文章将涵盖Selenium环境配置、搜索查询、处理无限滚动加载以及最关键的动态网页元素定位策略,特别是针对Google地图中评分和评论等信息的正确XPath定位方法,以克服常见的抓取挑战,并提供完整的示例代码和实践建议。

1. 环境准备与Selenium基础配置

在开始之前,请确保您的Python环境中已安装Selenium库,并下载与您的Chrome浏览器版本兼容的ChromeDriver。

pip install selenium

然后,我们需要初始化WebDriver并配置一些基本选项,例如保持浏览器开启状态(detach=True)以便观察自动化过程,并设置显式等待(WebDriverWait)以提高脚本的健壮性。

from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver import ActionChains
from selenium.webdriver.support.ui import WebDriverWait
import time

# 配置Chrome选项,保持浏览器开启
chrome_options = Options()
chrome_options.add_experimental_option("detach", True)

# 初始化WebDriver
driver = webdriver.Chrome(options=chrome_options)
# 初始化ActionChains用于模拟用户操作,如滚动
actionChains = ActionChains(driver)
# 初始化WebDriverWait用于显式等待元素
wait = WebDriverWait(driver, 20)

2. 导航与搜索操作

首先,我们需要导航到Google地图并执行搜索。为了确保页面加载完全,我们会在关键步骤后加入适当的延时或显式等待。

# 访问Google主页并接受cookie(如果出现)
driver.get("https://www.google.com/")
try:
    # 尝试点击接受cookie按钮,可能因页面语言或版本不同而异
    wait.until(EC.element_to_be_clickable((By.ID, "L2AGLb"))).click()
except:
    pass # 如果没有找到按钮或不需要点击,则跳过

# 访问Google地图
driver.get("https://www.google.com/maps")

# 等待搜索框加载并输入查询
time.sleep(3) # 简单等待,可以替换为更健壮的显式等待
search_box = wait.until(EC.presence_of_element_located((By.ID, "searchboxinput")))
search_box.send_keys("jardins in toulouse")
search_box.send_keys(Keys.RETURN)

# 等待搜索结果加载
time.sleep(5) # 简单等待,可以替换为显式等待特定元素出现

3. 处理无限滚动加载

Google地图的搜索结果通常采用无限滚动加载机制。为了获取尽可能多的结果,我们需要模拟用户滚动操作,直到无法加载更多内容为止。这里采用了一种巧妙的策略:滚动到列表底部元素,然后通过模拟键盘向下箭头键来触发更多加载,并判断最后一个元素是否变化来决定是否停止。

Voicenotes
Voicenotes

Voicenotes是一款简单直观的多功能AI语音笔记工具

下载
# 定义一个辅助函数,用于等待元素位置稳定
# 这对于处理动态加载或动画效果的元素非常有用,确保元素在操作前不再移动
def wait_for_element_location_to_be_stable(element):
    initial_location = element.location
    previous_location = initial_location
    start_time = time.time()
    while time.time() - start_time < 1: # 在1秒内位置没有变化则认为稳定
        current_location = element.location
        if current_location != previous_location:
            previous_location = current_location
            start_time = time.time() # 位置变化,重置计时器
        time.sleep(0.4) # 短暂等待,避免CPU空转

# 定位搜索结果列表中的所有商家链接元素
# 这些元素通常具有相同的class属性,如'hfpxzc'
results = wait.until(EC.presence_of_all_elements_located((By.XPATH, "//a[@class='hfpxzc']")))

break_condition = False
# 定位一个可以接收键盘焦点的元素,通常是搜索框或某个输入框
focus_element = driver.find_element(By.ID, 'searchboxinput') # 使用searchboxinput作为焦点元素

while not break_condition:
    # 记录当前列表的最后一个元素,用于判断是否加载了新内容
    temp = results[-1]

    # 滚动到当前列表的最后一个元素,确保其可见
    actionChains.scroll_to_element(results[-1]).perform()

    # 将焦点移到某个元素(如搜索框)并点击,确保后续的键盘操作生效
    actionChains.move_to_element(focus_element).click().perform()

    # 模拟按下几次向下箭头键,触发页面滚动和新内容加载
    for i in range(3):
        actionChains.send_keys(Keys.ARROW_DOWN).perform()
        time.sleep(0.5) # 短暂等待,给页面加载时间

    # 等待最后一个元素的位置稳定,确保页面渲染完成
    wait_for_element_location_to_be_stable(temp)

    # 重新获取所有商家链接元素,检查是否有新元素加载
    results = wait.until(EC.presence_of_all_elements_located((By.XPATH, "//a[@class='hfpxzc']")))

    # 如果重新获取的列表的最后一个元素与之前的最后一个元素相同,
    # 说明没有新的内容加载,可以停止滚动
    if results[-1] == temp:
        break_condition = True

4. 准确提取评分和评论数量

这是本教程的核心部分,也是原问题中遇到的主要挑战。最初的代码尝试使用绝对XPath来定位评分,但这种方法在动态网页中极易失效,因为它依赖于元素在DOM中的精确位置,而这个位置可能会随着页面加载或内容变化而改变。

正确的做法是使用相对XPath,并从当前结果元素的上下文(即每个商家链接元素)出发去查找其关联的评分和评论信息。通过分析Google地图的DOM结构,我们发现评分信息通常位于商家链接元素的父级容器中,并且具有特定的类名。

  • 问题分析: 原始的`rating_xpath = "/

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
chrome什么意思
chrome什么意思

chrome是浏览器的意思,由Google开发的网络浏览器,它在2008年首次发布,并迅速成为全球最受欢迎的浏览器之一。本专题为大家提供chrome相关的文章、下载、课程内容,供大家免费下载体验。

830

2023.08.11

chrome无法加载插件怎么办
chrome无法加载插件怎么办

chrome无法加载插件可以通过检查插件是否已正确安装、禁用和启用插件、清除插件缓存、更新浏览器和插件、检查网络连接和尝试在隐身模式下加载插件方法解决。更多关于chrome相关问题,详情请看本专题下面的文章。php中文网欢迎大家前来学习。

743

2023.11.06

DOM是什么意思
DOM是什么意思

dom的英文全称是documentobjectmodel,表示文件对象模型,是w3c组织推荐的处理可扩展置标语言的标准编程接口;dom是html文档的内存中对象表示,它提供了使用javascript与网页交互的方式。想了解更多的相关内容,可以阅读本专题下面的文章。

3308

2024.08.14

PHP 命令行脚本与自动化任务开发
PHP 命令行脚本与自动化任务开发

本专题系统讲解 PHP 在命令行环境(CLI)下的开发与应用,内容涵盖 PHP CLI 基础、参数解析、文件与目录操作、日志输出、异常处理,以及与 Linux 定时任务(Cron)的结合使用。通过实战示例,帮助开发者掌握使用 PHP 构建 自动化脚本、批处理工具与后台任务程序 的能力。

41

2025.12.13

俄罗斯Yandex引擎入口
俄罗斯Yandex引擎入口

2026年俄罗斯Yandex搜索引擎最新入口汇总,涵盖免登录、多语言支持、无广告视频播放及本地化服务等核心功能。阅读专题下面的文章了解更多详细内容。

143

2026.01.28

包子漫画在线官方入口大全
包子漫画在线官方入口大全

本合集汇总了包子漫画2026最新官方在线观看入口,涵盖备用域名、正版无广告链接及多端适配地址,助你畅享12700+高清漫画资源。阅读专题下面的文章了解更多详细内容。

28

2026.01.28

ao3中文版官网地址大全
ao3中文版官网地址大全

AO3最新中文版官网入口合集,汇总2026年主站及国内优化镜像链接,支持简体中文界面、无广告阅读与多设备同步。阅读专题下面的文章了解更多详细内容。

64

2026.01.28

php怎么写接口教程
php怎么写接口教程

本合集涵盖PHP接口开发基础、RESTful API设计、数据交互与安全处理等实用教程,助你快速掌握PHP接口编写技巧。阅读专题下面的文章了解更多详细内容。

2

2026.01.28

php中文乱码如何解决
php中文乱码如何解决

本文整理了php中文乱码如何解决及解决方法,阅读节专题下面的文章了解更多详细内容。

4

2026.01.28

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 22.3万人学习

Django 教程
Django 教程

共28课时 | 3.6万人学习

SciPy 教程
SciPy 教程

共10课时 | 1.3万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号