
本教程旨在解决使用python抓取html数据并追加到pandas dataframe时,因数据列不匹配导致的“cannot set a row with mismatched columns”错误。文章提供了两种核心策略:一是通过条件判断跳过不完整的数据行;二是用`np.nan`填充缺失列,以确保数据完整性。同时,强调了通过先收集数据再一次性构建dataframe的性能优化方法,提升数据处理效率和代码健壮性。
在进行网页数据抓取(Web Scraping)时,我们经常会遇到HTML表格数据结构不一致的情况。特别是当表格中的某些行缺少部分列数据时,直接将其追加到预定义列数的Pandas DataFrame中会导致“cannot set a row with mismatched columns”错误。这种错误通常发生在尝试将一个长度不匹配的列表赋值给DataFrame的某一行时。
例如,考虑以下数据片段,其中“Albania”一行缺少2022和2023年的数据:
Country (or dependent territory) 2020 2021 2022 2023 Afghanistan 20,136 14,941 19,083 23,032 Albania 15,192 17,984 Algeria 145,656 163,138 195,060 224,107
如果我们的目标DataFrame预设了“2020”、“2021”、“2022”、“2023”这四列,当处理到“Albania”这一行时,由于其只提供了两个数据点,直接使用df.loc[length] = row_data的方式就会引发列不匹配的错误。
为了有效地处理这类问题,我们提供两种主要的策略,并结合性能优化建议。
立即学习“前端免费学习笔记(深入)”;
策略一:跳过不完整的数据行
这种方法的核心思想是,在将数据追加到DataFrame之前,先检查当前行的数据长度是否与DataFrame预期的列数完全匹配。如果不匹配,则直接跳过该行数据。这确保了DataFrame中的每一行都具有完整且一致的数据结构。
实现步骤:
- 定义DataFrame的列名。
- 遍历抓取到的每一行数据。
- 提取行中的所有单元格数据。
- 检查提取出的数据列表长度是否等于预期的列数。
- 如果长度匹配,则将该行数据添加到临时列表中。
- 循环结束后,使用收集到的完整数据一次性创建DataFrame。
示例代码:
import pandas as pd
import numpy as np # 虽然此策略未使用,但通常与Pandas一起导入
# 假设 GDP_2020 是已经抓取到的HTML行数据列表,每项是一个BeautifulSoup的Tag对象
# 模拟 GDP_2020 的结构,实际应通过 BeautifulSoup 等库解析HTML
class MockRow:
def __init__(self, data_list):
self._data = data_list
def find_all(self, tag):
return [MockTag(d) for d in self._data]
class MockTag:
def __init__(self, text):
self.text = text
def strip(self):
return self.text.strip()
GDP_2020_mock_data = [
MockRow(['Country', '2020', '2021', '2022', '2023']), # 标题行,通常跳过
MockRow(['Afghanistan', '20,136', '14,941', '19,083', '23,032']),
MockRow(['Albania', '15,192', '17,984']), # 不完整数据
MockRow(['Algeria', '145,656', '163,138', '195,060', '224,107'])
]
# 实际应用中 GDP_2020 会是 BeautifulSoup 解析后的结果,例如 soup.find_all('tr')
years = ['2020','2021','2022','2023']
expected_columns_count = len(years)
all_rows_data = [] # 用于存储所有符合条件的数据行
for row in GDP_2020_mock_data[1:]: # 跳过标题行
row_cells = row.find_all('td') # 查找行中的所有标签
individual_row_data = [data.text.strip() for data in row_cells]
# 检查数据长度是否与预期列数匹配
if len(individual_row_data) == expected_columns_count:
all_rows_data.append(individual_row_data)
# 一次性创建DataFrame,效率更高
GDP = pd.DataFrame(all_rows_data, columns=years)
print("策略一:跳过不完整数据")
print(GDP)优点: 确保了DataFrame中数据的完整性和一致性,避免了NaN值的引入,简化了后续数据清洗工作。
缺点: 会丢失所有不完整的数据行,可能导致信息损失。
策略二:用缺失值填充不完整数据
这种方法旨在保留所有抓取到的数据,即使它们不完整。对于那些缺少列的行,我们会用np.nan(Not a Number)来填充缺失的位置,使其长度与DataFrame的预期列数一致。
实现步骤:
- 定义DataFrame的列名。
- 遍历抓取到的每一行数据。
- 提取行中的所有单元格数据。
- 计算当前行数据与预期列数之间的差值。
- 如果存在差值(即数据不完整),则用np.nan填充到数据列表的末尾,直到长度匹配。
- 将处理后的数据行添加到临时列表中。
- 循环结束后,使用收集到的所有数据一次性创建DataFrame。
示例代码:
import pandas as pd
import numpy as np
# 沿用上面的 GDP_2020_mock_data
years = ['2020','2021','2022','2023']
expected_columns_count = len(years)
all_rows_data = [] # 用于存储所有处理后的数据行
for row in GDP_2020_mock_data[1:]: # 跳过标题行
row_cells = row.find_all('td')
individual_row_data = [data.text.strip() for data in row_cells]
# 计算需要填充的NaN数量
missing_columns_count = expected_columns_count - len(individual_row_data)
if missing_columns_count > 0:
# 用 np.nan 填充缺失的列
individual_row_data.extend([np.nan] * missing_columns_count)
all_rows_data.append(individual_row_data)
# 一次性创建DataFrame
GDP = pd.DataFrame(all_rows_data, columns=years)
print("\n策略二:用缺失值填充不完整数据")
print(GDP)优点: 保留了所有可用的数据,避免了信息丢失。np.nan是Pandas处理缺失值的标准方式,便于后续的数据清洗和分析。
缺点: 引入了np.nan值,后续可能需要进行缺失值处理(如填充、删除等)。此方法默认缺失的列位于行尾,如果缺失发生在中间,则需要更复杂的逻辑来匹配数据到正确的列。
优化数据追加效率
无论是采用哪种策略,都强烈建议避免在循环中反复使用DataFrame.append()或DataFrame.loc来逐行添加数据。Pandas DataFrame的每次追加操作都会创建一个新的DataFrame,这在处理大量数据时会造成显著的性能开销。
推荐的做法是:
- 创建一个空的Python列表(例如all_rows_data)。
- 在循环中,将每一行处理后的数据(无论是过滤后的完整行还是填充了np.nan的行)作为子列表添加到这个主列表中。
- 循环结束后,使用这个包含所有数据行的列表一次性创建Pandas DataFrame。
上述两种策略的示例代码都已采纳了这种优化方法,通过all_rows_data.append(individual_row_data)收集数据,最后通过pd.DataFrame(all_rows_data, columns=years)一次性构建DataFrame。这种方法能够显著提升数据处理的效率,尤其是在处理大型数据集时。
注意事项与高级考量
-
缺失值位置的假设: 策略二默认缺失数据位于行的末尾。在许多HTML表格中,这通常是正确的(例如,较新的年份数据缺失)。然而,如果数据缺失发生在中间列(例如,2020和2022有数据,但2021缺失),则需要更复杂的逻辑来识别并正确填充对应的列。这可能涉及到根据列名进行更精确的映射,而不是简单地按顺序填充。
-
数据类型转换: 抓取到的数据通常是字符串类型。在创建DataFrame后,可能需要将数值型列转换为适当的数值类型(例如,pd.to_numeric()),并处理可能存在的非数字字符(如逗号)。
-
错误处理: 在实际的网页抓取项目中,应考虑更全面的错误处理机制,例如使用try-except块来捕获网络请求失败、HTML解析错误等问题,增强代码的健壮性。
总结
在从HTML表格抓取数据并构建Pandas DataFrame时,处理因数据不一致导致的列不匹配错误是常见的挑战。通过采纳“跳过不完整数据”或“用缺失值填充”这两种策略,并结合“先收集数据再一次性构建DataFrame”的性能优化实践,我们可以有效地解决这些问题,确保数据处理流程的顺畅和高效。选择哪种策略取决于具体的数据分析需求:如果完整性是首要考量,则选择跳过;如果最大化数据保留是目标,则选择填充缺失值。
相关文章
Python 如何让 dict 按照插入顺序遍历(OrderedDict vs 3.7+)
Python pandas 如何让 read_csv 自动识别哪些列是日期
Python 如何让一个函数记住它的调用次数和历史参数
Python 如何判断一个文件是否正在被其他进程写入
Python 如何让一个异步函数既能 await 也能直接调用
相关标签:
本站声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
热门AI工具
更多
相关专题
更多
python开发工具
php中文网为大家提供各种python开发工具,好的开发工具,可帮助开发者攻克编程学习中的基础障碍,理解每一行源代码在程序执行时在计算机中的过程。php中文网还为大家带来python相关课程以及相关文章等内容,供大家免费下载使用。
755
2023.06.15
python能做什么
python能做的有:可用于开发基于控制台的应用程序、多媒体部分开发、用于开发基于Web的应用程序、使用python处理数据、系统编程等等。本专题为大家提供python相关的各种文章、以及下载和课程。
760
2023.07.25
format在python中的用法
Python中的format是一种字符串格式化方法,用于将变量或值插入到字符串中的占位符位置。通过format方法,我们可以动态地构建字符串,使其包含不同值。php中文网给大家带来了相关的教程以及文章,欢迎大家前来阅读学习。
618
2023.07.31
python环境变量的配置
Python是一种流行的编程语言,被广泛用于软件开发、数据分析和科学计算等领域。在安装Python之后,我们需要配置环境变量,以便在任何位置都能够访问Python的可执行文件。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。
547
2023.08.04
python eval
eval函数是Python中一个非常强大的函数,它可以将字符串作为Python代码进行执行,实现动态编程的效果。然而,由于其潜在的安全风险和性能问题,需要谨慎使用。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。
578
2023.08.04
scratch和python区别
scratch和python的区别:1、scratch是一种专为初学者设计的图形化编程语言,python是一种文本编程语言;2、scratch使用的是基于积木的编程语法,python采用更加传统的文本编程语法等等。本专题为大家提供scratch和python相关的文章、下载、课程内容,供大家免费下载体验。
708
2023.08.11
热门下载
更多
相关下载
更多
精品课程
更多
相关推荐 /
热门推荐 /
最新课程
最新文章
更多
Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号





