python如何提取文本信息？

冷炫風刃

发布时间：2025-11-22 22:00:02

847人浏览过

来源于php中文网

原创

先读取文本内容，再根据结构选择字符串处理、正则表达式或专用库提取信息。1. 读取文件或字符串变量；2. 用split()、find()等方法提取固定格式信息；3. 用re.findall()提取邮箱、电话、日期等规律性信息；4. 对json、html、pdf等结构化文本分别使用json、beautifulsoup、pypdf2等工具解析后提取。

python如何提取文本信息？

提取文本信息在Python中很常见，主要根据文本来源和结构选择合适的方法。核心思路是读取文本内容后，用字符串处理、正则表达式或专用库进行信息抽取。

1. 读取文本内容

先将文本加载到程序中，常见方式有读取文件或处理字符串变量。

示例：

读取本地文本文件：

with open('text.txt', 'r', encoding='utf-8') as f:
    text = f.read()

处理字符串：

text = "这里是需要提取信息的文本内容"

2. 使用字符串方法提取简单信息

适用于格式固定的文本，比如提取关键词前后的内容。

淘客帝国免费版

淘客帝国免费版4.3，整合JSSDK，开放屏蔽词设置，优化效率。,感谢大家对淘客帝国的支持,因为有你们的支持,让我们不断前进,不断完善.淘客帝国团队向各位淘客致谢~我们一直在努力争取给淘客朋友们提供最好的淘客TOP API淘客程序!免费版我们一如既往会一直更新，希望大家关注免费版的最新版本号。随时保持版本更新。请仔细用10分钟时间查看以下信息!本程序以官方名义推荐。没有任何后门，大家可放心使用!

下载

split() 分割文本： 按分隔符切分，取所需部分
```
title = text.split("标题：")[1].split("\n")[0]
```

find() + 切片： 定位关键词位置并提取

start = text.find("电话：") + 3
end = text.find("\n", start)
phone = text[start:end]

3. 使用正则表达式提取复杂模式

适合提取电话号码、邮箱、日期等有规律的信息。

立即学习“Python免费学习笔记（深入）”；

示例：

提取邮箱：

import re
emails = re.findall(r'[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}', text)

提取手机号：

phones = re.findall(r'1[3-9]\d{9}', text)

提取日期（如2025-04-05）：

dates = re.findall(r'\d{4}-\d{2}-\d{2}', text)

4. 处理结构化文本（如JSON、HTML、PDF）

不同格式需用对应工具解析后再提取。

JSON 数据：

import json
data = json.loads(text)
value = data['key']

HTML 页面（用 BeautifulSoup）：

from bs4 import BeautifulSoup
soup = BeautifulSoup(text, 'html.parser')
titles = soup.find_all('h1')

PDF 文件（用 PyPDF2 或 pdfplumber）：

import PyPDF2
reader = PyPDF2.PdfReader('file.pdf')
text = reader.pages[0].extract_text()

基本上就这些。根据你的文本类型选对方法，再结合字符串操作和正则表达式，就能高效提取所需信息。

Python 字母矩阵中高亮显示单词的完整实现教程

Python装饰器怎么写_装饰器原理与实战示例

Python模块缓存机制_sys.modules工作原理

Python如何排序复杂对象_sort与key函数详解

Python日志怎么写_logging模块使用指南

python速学教程(入门到精通)

python怎么学习？python怎么入门？python在哪学？python怎么学才快？不用担心，这里为大家提供了python速学教程(入门到精通)，有需要的小伙伴保存下载就能学习啦！

下载

相关标签:

python html js json 正则表达式工具 ai pdf 邮箱 2025 json 正则表达式 beautifulsoup 字符串切片

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：如何使用python pyautogui模块绘制图形？下一篇：python中bytearray函数的作用是什么？

作者最新文章

苹果手机ID账号在哪里查的

2026-03-02 00:59

手机上怎么弄JPG照片手机图片转换为JPG格式方法

2026-03-02 03:25

苹果手机相机用不了怎么办相机无法使用解决方案

2026-03-02 05:23

苹果手机相机专业模式专业模式拍照功能介绍

2026-03-02 05:45

荣耀手机关闭后台应用荣耀手机清理最近使用应用技巧

2026-03-02 06:37

苹果手机照片变jpg格式苹果手机照片转换为JPG方法

2026-03-02 08:05

Linux 虚拟机快照管理与恢复

2026-03-02 08:40

IQOO怎么5G切换4G网络 IQOO网络模式切换教程

2026-03-02 09:05

苹果手机相机怎么调最清晰拍照清晰度优化设置

2026-03-02 09:15

GitHub 代码怎么复现？项目复现流程与注意事项

2026-03-02 10:43

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI编程开发 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

json数据格式

JSON是一种轻量级的数据交换格式。本专题为大家带来json数据格式相关文章，帮助大家解决问题。

452

2023.08.07

json是什么

JSON是一种轻量级的数据交换格式，具有简洁、易读、跨平台和语言的特点，JSON数据是通过键值对的方式进行组织，其中键是字符串，值可以是字符串、数值、布尔值、数组、对象或者null，在Web开发、数据交换和配置文件等方面得到广泛应用。本专题为大家提供json相关的文章、下载、课程内容，供大家免费下载体验。

546

2023.08.23