0

0

解决在使用 Map 和 Partial 方法后 for 循环的意外行为

DDD

DDD

发布时间:2025-09-13 18:33:01

|

412人浏览过

|

来源于php中文网

原创

解决在使用 map 和 partial 方法后 for 循环的意外行为

本文旨在解决在使用 Map 函数和 Partial 方法结合 ThreadPoolExecutor 时,for 循环只迭代一次的问题。通过分析问题代码,指出使用 enumerate 函数直接迭代 DataFrame 列的错误,并提供使用 itertuples 方法正确迭代 DataFrame 行的解决方案,确保循环能够处理所有数据。

在使用 ThreadPoolExecutor 的 map 函数结合 partial 方法处理 DataFrame 数据时,可能会遇到 for 循环只执行一次的意外行为。 这通常是由于对 DataFrame 的迭代方式不正确导致的。下面将详细分析问题原因并提供解决方案。

问题分析

原始代码中使用 enumerate 函数直接迭代 DataFrame 的某一列,例如 _df[[f'{_link_column}']]。 这种方式实际上迭代的是一个 DataFrame 对象,而不是预期的链接序列。 因此,循环只会执行一次,导致只有第一行数据被处理。

解决方案:使用 itertuples 方法

itertuples 方法是 pandas DataFrame 提供的一种高效的行迭代方式。 它将 DataFrame 的每一行转换为一个 namedtuple 对象,从而可以方便地访问每一列的值。

以下是修改后的 get_the_text 函数:

皮卡智能
皮卡智能

AI驱动高效视觉设计平台

下载
import pandas as pd

def get_the_text(_df, _firms: list, _link_column: str):
    """
    发送请求以接收文章的文本

    参数
    ----------
    _df : DataFrame

    返回
    -------
    dataframe with the text of the articles
    """
    _df.reset_index(inplace=True)
    print(_df)
    for row in _df.itertuples(index=False):
        link = getattr(row, f'{_link_column}')
        print(link)
        if link:
            website_text = list()
            try:
                # 假设 send_two_requests 函数已定义
                page_status_code, page_content, page_url = send_two_requests(link)
                # 在这里添加处理 page_content 的代码
                website_text.append(page_content) # 示例
            except Exception as e:
                print(f"Error processing link {link}: {e}")
            # 在这里添加将 website_text 添加到 _df 的代码
    return _df # 返回修改后的 DataFrame

代码解释:

  1. _df.itertuples(index=False): 使用 itertuples 方法迭代 DataFrame 的每一行。 index=False 参数表示不包含索引列。
  2. row = _df.itertuples(index=False): 循环变量 row 现在是一个 namedtuple 对象,包含了 DataFrame 的每一列的值。
  3. link = getattr(row, f'{_link_column}'): 使用 getattr 函数获取 row 对象中名为 _link_column 的属性值,即链接地址。
  4. 错误处理: 增加 try...except 块来捕获和处理请求过程中可能发生的异常,避免程序崩溃。
  5. 返回 DataFrame: 确保函数返回修改后的 DataFrame。

完整示例代码:

import pandas as pd
from functools import partial
from concurrent.futures import ThreadPoolExecutor
import requests
from bs4 import BeautifulSoup

# 模拟 send_two_requests 函数
def send_two_requests(url):
    try:
        response = requests.get(url)
        response.raise_for_status()  # 检查请求是否成功
        soup = BeautifulSoup(response.content, 'html.parser')
        return response.status_code, soup.get_text(), url
    except requests.exceptions.RequestException as e:
        print(f"Request failed for {url}: {e}")
        return None, None, url

def get_the_text(_df, _firms: list, _link_column: str):
    """
    发送请求以接收文章的文本

    参数
    ----------
    _df : DataFrame

    返回
    -------
    dataframe with the text of the articles
    """
    _df.reset_index(inplace=True)
    print(_df)
    for row in _df.itertuples(index=False):
        link = getattr(row, f'{_link_column}')
        print(link)
        if link:
            website_text = list()
            try:
                page_status_code, page_content, page_url = send_two_requests(link)
                # 在这里添加处理 page_content 的代码
                if page_content:
                    website_text.append(page_content) # 示例
            except Exception as e:
                print(f"Error processing link {link}: {e}")
            # 在这里添加将 website_text 添加到 _df 的代码,例如:
            # _df.loc[_df[_link_column] == link, 'text'] = ' '.join(website_text) # 示例
    return _df # 返回修改后的 DataFrame

# 示例数据
data = {
    'index': [1366, 4767, 6140, 11898],
    'DATE': ['2014-01-12', '2014-01-12', '2014-01-12', '2014-01-12'],
    'SOURCES': ['go.com', 'bloomberg.com', 'latimes.com', 'usatoday.com'],
    'SOURCEURLS': [
        'http://abcnews.go.com/Business/wireStory/mercedes-recalls-372k-suvs-21445846',
        'http://www.bloomberg.com/news/2014-01-12/vw-patent-application-shows-in-car-gas-heater.html',
        'http://www.latimes.com/business/autos/la-fi-hy-autos-recall-mercedes-20140112-story.html',
        'http://www.usatoday.com/story/money/cars/2014/01/12/mercedes-recall/4437279/'
    ],
    'Tone': [-0.375235, -1.842752, 1.551724, 2.521008],
    'Positive_Score': [2.626642, 1.228501, 3.275862, 3.361345],
    'Negative_Score': [3.001876, 3.071253, 1.724138, 0.840336],
    'Polarity': [5.628518, 4.299754, 5.0, 4.201681],
    'Activity_Reference_Density': [22.326454, 18.918919, 22.931034, 19.327731],
    'Self_Group_Reference_Density': [0.0, 0.0, 0.344828, 0.840336],
    'Year': [2014, 2014, 2014, 2014],
    'Month': [1, 1, 1, 1],
    'Day': [12, 12, 12, 12],
    'Hour': [0, 0, 0, 0],
    'Minute': [0, 0, 0, 0],
    'Second': [0, 0, 0, 0],
    'Mentioned_firms': ['mercedes', 'vw', 'mercedes', 'mercedes'],
    'text': ['', '', '', '']
}

# 创建 DataFrame
df = pd.DataFrame(data)

# 使用 ThreadPoolExecutor 和 partial
_link_column = 'SOURCEURLS'
_firms = ['mercedes', 'vw']
get_the_text_par = partial(get_the_text, _link_column=_link_column, _firms=_firms)

with ThreadPoolExecutor() as executor:
    chunk_size = len(df) if len(df) < 10 else len(df) // 10
    chunks = [df.iloc[i:i + chunk_size] for i in range(0, len(df), chunk_size)]
    result = list(executor.map(get_the_text_par, chunks))

print("处理完成!")

注意事项:

  • 确保 send_two_requests 函数能够正确处理各种网络请求情况,并进行适当的错误处理。
  • 根据实际需求,调整 chunk_size 的大小,以优化并行处理的效率。
  • 根据实际需求,在 get_the_text 函数中添加将提取到的文本信息添加到 DataFrame 中的代码。
  • 在实际应用中,可能需要添加更完善的错误处理机制,例如重试机制等。

总结

通过使用 itertuples 方法,可以正确地迭代 DataFrame 的每一行,从而解决在使用 Map 函数和 Partial 方法后 for 循环只执行一次的问题。 同时,需要注意错误处理和数据处理的细节,以确保代码的健壮性和可靠性。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
Python 时间序列分析与预测
Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧,涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估,以及基于实际业务场景的时间序列项目实操,帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

78

2025.12.04

Python 数据清洗与预处理实战
Python 数据清洗与预处理实战

本专题系统讲解 Python 在数据清洗与预处理中的核心技术,包括使用 Pandas 进行缺失值处理、异常值检测、数据格式化、特征工程与数据转换,结合 NumPy 高效处理大规模数据。通过实战案例,帮助学习者掌握 如何处理混乱、不完整数据,为后续数据分析与机器学习模型训练打下坚实基础。

32

2026.01.31

golang map内存释放
golang map内存释放

本专题整合了golang map内存相关教程,阅读专题下面的文章了解更多相关内容。

77

2025.09.05

golang map相关教程
golang map相关教程

本专题整合了golang map相关教程,阅读专题下面的文章了解更多详细内容。

40

2025.11.16

golang map原理
golang map原理

本专题整合了golang map相关内容,阅读专题下面的文章了解更多详细内容。

67

2025.11.17

java判断map相关教程
java判断map相关教程

本专题整合了java判断map相关教程,阅读专题下面的文章了解更多详细内容。

47

2025.11.27

Go高并发任务调度与Goroutine池化实践
Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开,系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示,帮助开发者构建稳定高效的 Go 并发任务处理系统,提高系统在高负载环境下的处理能力与稳定性。

22

2026.03.10

Kotlin Android模块化架构与组件化开发实践
Kotlin Android模块化架构与组件化开发实践

本专题围绕 Kotlin 在 Android 应用开发中的架构实践展开,重点讲解模块化设计与组件化开发的实现思路。内容包括项目模块拆分策略、公共组件封装、依赖管理优化、路由通信机制以及大型项目的工程化管理方法。通过真实项目案例分析,帮助开发者构建结构清晰、易扩展且维护成本低的 Android 应用架构体系,提升团队协作效率与项目迭代速度。

48

2026.03.09

JavaScript浏览器渲染机制与前端性能优化实践
JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开,系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理,以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例,帮助开发者理解浏览器底层工作原理,并掌握提升网页加载速度与交互体验的实用技巧。

93

2026.03.06

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Bootstrap 5教程
Bootstrap 5教程

共46课时 | 3.6万人学习

AngularJS教程
AngularJS教程

共24课时 | 4.1万人学习

CSS教程
CSS教程

共754课时 | 42万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号