Flask 中正确传递与渲染清洗后的爬虫数据教程

霞舞

发布时间：2026-02-19 11:29:08

521人浏览过

来源于php中文网

原创

Flask 中正确传递与渲染清洗后的爬虫数据教程

本文详解如何在 flask 应用中将 python 爬取并清洗后的结构化数据（如简历信息）准确传递至 html 模板并渲染展示，重点解决因变量名不一致导致的模板渲染失败问题。

本文详解如何在 flask 应用中将 python 爬取并清洗后的结构化数据（如简历信息）准确传递至 html 模板并渲染展示，重点解决因变量名不一致导致的模板渲染失败问题。

在构建基于 Flask 的招聘数据采集系统时，一个典型流程是：用户通过 upload.html 选择岗位领域、上传含 LinkedIn URL 的 CSV 文件 → 后端调用爬虫模块抓取原始数据 → 经清洗模块标准化字段 → 最终在 display.html 中以表格形式呈现结果。然而，许多开发者会遇到“数据未显示”或“Jinja2 变量未定义”错误——其根本原因往往不是逻辑缺陷，而是模板中引用的变量名与视图函数返回的上下文键名不匹配。

回顾您提供的 Flask 路由代码：

@app.route('/upload', methods=['POST'])
def upload():
    file = request.files['file']
    df = pd.read_csv(file)
    data = scrape_data(df)           # 原始爬取数据（list of dicts）
    cleandata = clean_data(data)     # 清洗后数据（list of lists）
    return render_template('display.html', data=cleandata)

此处，render_template() 显式传入了关键字参数 data=cleandata，意味着模板中可通过 {{ data }} 或 {% for item in data %} 访问该变量。但您的 display.html 中却存在如下关键片段：

{% for item in data %}
  <tr>
    <td>{{ item["Name"] }}</td>
    <!-- 其他字段 -->
  </tr>
{% endfor %}

表面看似乎正确——但请注意：clean_data() 函数返回的是 df.values.tolist()，即一个二维列表（List[List[Any]]），而非原始的字典列表（List[Dict[str, Any]]）。这意味着 item 实际上是类似 ['Alice Smith', 'Senior FrontEnd Developer', 'Remote', ...] 的列表，不支持 item["Name"] 这种键访问语法，会导致 TypeError: list indices must be integers or slices。

SoundRaw AI

面向创作者的 AI 音乐生成器，只需选择情绪、流派和长度，SoundRaw AI就能为你生成优美的歌曲。

下载

✅ 正确做法分两步：

1. 保持数据结构一致性（推荐）
修改 clean_data()，确保返回仍为字典列表，并保留字段名：

# data_cleaning.py
def clean_data(data):
    df = pd.DataFrame(data)

    # 清洗空值（注意：replace 需作用于字符串列，且避免误改嵌套结构）
    for col in ['Location', 'Experiences', 'Education', 'Certifications', 'Skills', 'Languages']:
        if col in df.columns:
            # 将空列表 [] 替换为字符串 "None"，便于前端展示
            df[col] = df[col].apply(lambda x: "None" if isinstance(x, list) and len(x) == 0 else x)

    # 统一转小写（仅对字符串类型字段）
    str_cols = df.select_dtypes(include=['object']).columns
    for col in str_cols:
        df[col] = df[col].apply(lambda x: x.lower() if isinstance(x, str) else x)

    # 移除非字母数字字符（谨慎使用，避免破坏技能/证书名称中的空格和逗号）
    # df = df.replace(r'[^a-zA-Z\d,\s]', '', regex=True)

    # 关键：返回字典列表，而非二维列表
    return df.to_dict('records')  # ✅ 返回 List[Dict]

2. 在模板中使用正确的变量与访问方式
此时 display.html 中的循环可保持原样，但需确保字段名与清洗后 DataFrame 列名一致（默认继承自原始 scrape_data 输出）：

<tbody>
  {% for item in data %}
  <tr>
    <td>{{ item.Name | default('N/A') }}</td>
    <td>{{ item.Title | default('N/A') }}</td>
    <td>{{ item.Location | default('N/A') }}</td>
    <td>{{ item.Experiences | join(', ') | default('N/A') }}</td>
    <td>{{ item.Education | join(', ') | default('N/A') }}</td>
    <td>{{ item.Certifications | join(', ') | default('N/A') }}</td>
    <td>{{ item.Skills | join(', ') | default('N/A') }}</td>
    <td>{{ item.Languages | join(', ') | default('N/A') }}</td>
  </tr>
  {% endfor %}
</tbody>

? 提示：使用 Jinja2 的 | default('N/A') 过滤器可优雅处理缺失值；对列表字段使用 | join(', ') 转为可读字符串。

⚠️ 重要注意事项：

不要在 clean_data() 中调用 df.values.tolist()：这会丢失列名，使模板无法按字段名索引。to_dict('records') 是更安全的选择。
避免过度正则清洗：replace(r'[^a-zA-Z\d,\s]', '', regex=True) 会删除所有标点（包括技能间的逗号），建议仅对特定文本字段（如 Location）做轻量清洗。
前端健壮性：LinkedIn 爬取结果可能含 None、空列表或嵌套结构，模板中务必用 | default 和 | join 处理，防止渲染崩溃。
调试技巧：在路由中临时添加 print(type(cleandata), len(cleandata), cleandata[0] if cleandata else 'empty') 快速验证数据形态。

遵循以上规范，即可确保清洗后的高质量数据被准确、稳定地呈现于前端页面，真正实现“所爬即所见，所清即所显”。

如何精准提取亚马逊商品页面的真实价格（以印度站为例）

如何用html写一个百度百科

用html如何做一个百度热榜

如何从欧洲议会官网批量抓取议员信息并结构化存储

HTML5怎么标注重点会影响爬虫抓取正文吗_seo抓取策略调整说明【解答】

相关专题

Python Flask框架

本专题专注于 Python 轻量级 Web 框架 Flask 的学习与实战，内容涵盖路由与视图、模板渲染、表单处理、数据库集成、用户认证以及RESTful API 开发。通过博客系统、任务管理工具与微服务接口等项目实战，帮助学员掌握 Flask 在快速构建小型到中型 Web 应用中的核心技能。

2025.08.25

Python Flask Web框架与API开发

本专题系统介绍 Python Flask Web框架的基础与进阶应用，包括Flask路由、请求与响应、模板渲染、表单处理、安全性加固、数据库集成（SQLAlchemy）、以及使用Flask构建 RESTful API 服务。通过多个实战项目，帮助学习者掌握使用 Flask 开发高效、可扩展的 Web 应用与 API。

2025.12.15