解决在使用 Map 和 Partial 方法后 for 循环的意外行为

DDD

发布时间：2025-09-13 18:33:01

412人浏览过

来源于php中文网

原创

解决在使用 map 和 partial 方法后 for 循环的意外行为

本文旨在解决在使用 Map 函数和 Partial 方法结合 ThreadPoolExecutor 时，for 循环只迭代一次的问题。通过分析问题代码，指出使用 enumerate 函数直接迭代 DataFrame 列的错误，并提供使用 itertuples 方法正确迭代 DataFrame 行的解决方案，确保循环能够处理所有数据。

在使用 ThreadPoolExecutor 的 map 函数结合 partial 方法处理 DataFrame 数据时，可能会遇到 for 循环只执行一次的意外行为。这通常是由于对 DataFrame 的迭代方式不正确导致的。下面将详细分析问题原因并提供解决方案。

问题分析

原始代码中使用 enumerate 函数直接迭代 DataFrame 的某一列，例如 _df[[f'{_link_column}']]。这种方式实际上迭代的是一个 DataFrame 对象，而不是预期的链接序列。因此，循环只会执行一次，导致只有第一行数据被处理。

解决方案：使用 itertuples 方法

itertuples 方法是 pandas DataFrame 提供的一种高效的行迭代方式。它将 DataFrame 的每一行转换为一个 namedtuple 对象，从而可以方便地访问每一列的值。

以下是修改后的 get_the_text 函数：

皮卡智能

AI驱动高效视觉设计平台

下载

import pandas as pd

def get_the_text(_df, _firms: list, _link_column: str):
    """
    发送请求以接收文章的文本

    参数
    ----------
    _df : DataFrame

    返回
    -------
    dataframe with the text of the articles
    """
    _df.reset_index(inplace=True)
    print(_df)
    for row in _df.itertuples(index=False):
        link = getattr(row, f'{_link_column}')
        print(link)
        if link:
            website_text = list()
            try:
                # 假设 send_two_requests 函数已定义
                page_status_code, page_content, page_url = send_two_requests(link)
                # 在这里添加处理 page_content 的代码
                website_text.append(page_content) # 示例
            except Exception as e:
                print(f"Error processing link {link}: {e}")
            # 在这里添加将 website_text 添加到 _df 的代码
    return _df # 返回修改后的 DataFrame

代码解释：

_df.itertuples(index=False): 使用 itertuples 方法迭代 DataFrame 的每一行。 index=False 参数表示不包含索引列。
row = _df.itertuples(index=False): 循环变量 row 现在是一个 namedtuple 对象，包含了 DataFrame 的每一列的值。
link = getattr(row, f'{_link_column}'): 使用 getattr 函数获取 row 对象中名为 _link_column 的属性值，即链接地址。
错误处理: 增加 try...except 块来捕获和处理请求过程中可能发生的异常，避免程序崩溃。
返回 DataFrame: 确保函数返回修改后的 DataFrame。

完整示例代码:

import pandas as pd
from functools import partial
from concurrent.futures import ThreadPoolExecutor
import requests
from bs4 import BeautifulSoup

# 模拟 send_two_requests 函数
def send_two_requests(url):
    try:
        response = requests.get(url)
        response.raise_for_status()  # 检查请求是否成功
        soup = BeautifulSoup(response.content, 'html.parser')
        return response.status_code, soup.get_text(), url
    except requests.exceptions.RequestException as e:
        print(f"Request failed for {url}: {e}")
        return None, None, url

def get_the_text(_df, _firms: list, _link_column: str):
    """
    发送请求以接收文章的文本

    参数
    ----------
    _df : DataFrame

    返回
    -------
    dataframe with the text of the articles
    """
    _df.reset_index(inplace=True)
    print(_df)
    for row in _df.itertuples(index=False):
        link = getattr(row, f'{_link_column}')
        print(link)
        if link:
            website_text = list()
            try:
                page_status_code, page_content, page_url = send_two_requests(link)
                # 在这里添加处理 page_content 的代码
                if page_content:
                    website_text.append(page_content) # 示例
            except Exception as e:
                print(f"Error processing link {link}: {e}")
            # 在这里添加将 website_text 添加到 _df 的代码，例如：
            # _df.loc[_df[_link_column] == link, 'text'] = ' '.join(website_text) # 示例
    return _df # 返回修改后的 DataFrame

# 示例数据
data = {
    'index': [1366, 4767, 6140, 11898],
    'DATE': ['2014-01-12', '2014-01-12', '2014-01-12', '2014-01-12'],
    'SOURCES': ['go.com', 'bloomberg.com', 'latimes.com', 'usatoday.com'],
    'SOURCEURLS': [
        'http://abcnews.go.com/Business/wireStory/mercedes-recalls-372k-suvs-21445846',
        'http://www.bloomberg.com/news/2014-01-12/vw-patent-application-shows-in-car-gas-heater.html',
        'http://www.latimes.com/business/autos/la-fi-hy-autos-recall-mercedes-20140112-story.html',
        'http://www.usatoday.com/story/money/cars/2014/01/12/mercedes-recall/4437279/'
    ],
    'Tone': [-0.375235, -1.842752, 1.551724, 2.521008],
    'Positive_Score': [2.626642, 1.228501, 3.275862, 3.361345],
    'Negative_Score': [3.001876, 3.071253, 1.724138, 0.840336],
    'Polarity': [5.628518, 4.299754, 5.0, 4.201681],
    'Activity_Reference_Density': [22.326454, 18.918919, 22.931034, 19.327731],
    'Self_Group_Reference_Density': [0.0, 0.0, 0.344828, 0.840336],
    'Year': [2014, 2014, 2014, 2014],
    'Month': [1, 1, 1, 1],
    'Day': [12, 12, 12, 12],
    'Hour': [0, 0, 0, 0],
    'Minute': [0, 0, 0, 0],
    'Second': [0, 0, 0, 0],
    'Mentioned_firms': ['mercedes', 'vw', 'mercedes', 'mercedes'],
    'text': ['', '', '', '']
}

# 创建 DataFrame
df = pd.DataFrame(data)

# 使用 ThreadPoolExecutor 和 partial
_link_column = 'SOURCEURLS'
_firms = ['mercedes', 'vw']
get_the_text_par = partial(get_the_text, _link_column=_link_column, _firms=_firms)

with ThreadPoolExecutor() as executor:
    chunk_size = len(df) if len(df) < 10 else len(df) // 10
    chunks = [df.iloc[i:i + chunk_size] for i in range(0, len(df), chunk_size)]
    result = list(executor.map(get_the_text_par, chunks))

print("处理完成!")

注意事项：

确保 send_two_requests 函数能够正确处理各种网络请求情况，并进行适当的错误处理。
根据实际需求，调整 chunk_size 的大小，以优化并行处理的效率。
根据实际需求，在 get_the_text 函数中添加将提取到的文本信息添加到 DataFrame 中的代码。
在实际应用中，可能需要添加更完善的错误处理机制，例如重试机制等。

总结

通过使用 itertuples 方法，可以正确地迭代 DataFrame 的每一行，从而解决在使用 Map 函数和 Partial 方法后 for 循环只执行一次的问题。同时，需要注意错误处理和数据处理的细节，以确保代码的健壮性和可靠性。

Flask前端动画失效的常见原因与解决方案

如何使用 Selenium 遍历 Power BI 下拉菜单中的全部选项

Flask 表单提交后实时更新页面：传递处理结果到模板并动态渲染

如何使用 Python 从 HTML 片段中精准提取纯文本内容

如何用 Python 精准提取 HTML 元素中的纯文本内容

相关专题

Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧，涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估，以及基于实际业务场景的时间序列项目实操，帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

2025.12.04

Python 数据清洗与预处理实战

本专题系统讲解 Python 在数据清洗与预处理中的核心技术，包括使用 Pandas 进行缺失值处理、异常值检测、数据格式化、特征工程与数据转换，结合 NumPy 高效处理大规模数据。通过实战案例，帮助学习者掌握如何处理混乱、不完整数据，为后续数据分析与机器学习模型训练打下坚实基础。

2026.01.31

golang map内存释放

本专题整合了golang map内存相关教程，阅读专题下面的文章了解更多相关内容。

2025.09.05

golang map相关教程

本专题整合了golang map相关教程，阅读专题下面的文章了解更多详细内容。

2025.11.16

golang map原理

本专题整合了golang map相关内容，阅读专题下面的文章了解更多详细内容。

2025.11.17

java判断map相关教程

本专题整合了java判断map相关教程，阅读专题下面的文章了解更多详细内容。

2025.11.27

Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开，系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示，帮助开发者构建稳定高效的 Go 并发任务处理系统，提高系统在高负载环境下的处理能力与稳定性。

2026.03.10

Kotlin Android模块化架构与组件化开发实践

本专题围绕 Kotlin 在 Android 应用开发中的架构实践展开，重点讲解模块化设计与组件化开发的实现思路。内容包括项目模块拆分策略、公共组件封装、依赖管理优化、路由通信机制以及大型项目的工程化管理方法。通过真实项目案例分析，帮助开发者构建结构清晰、易扩展且维护成本低的 Android 应用架构体系，提升团队协作效率与项目迭代速度。

2026.03.09

JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开，系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理，以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例，帮助开发者理解浏览器底层工作原理，并掌握提升网页加载速度与交互体验的实用技巧。

2026.03.06

热门下载

网站特效

网站源码

网站素材

前端模板