使用 Pandas DataFrame 数据更新文本文件中特定标识符后的数值

聖光之護

发布时间：2025-08-17 19:56:00

183人浏览过

来源于php中文网

原创

使用 pandas dataframe 数据更新文本文件中特定标识符后的数值

本文介绍如何使用 Python 的 Pandas 库，从 DataFrame 中提取特定行的数据，并将其更新到文本文件中特定标识符（如 "B" 或 "Name2"）后的相应位置。通过使用正则表达式，可以灵活地定位和替换文件中的目标数值，即使这些数值不在固定行上也能准确更新。

步骤详解

准备工作：导入必要的库

首先，需要导入 pandas 库来处理 DataFrame，以及 re 库来使用正则表达式进行文本匹配和替换。
```
import pandas as pd
import re
```

读取数据和定义变量

假设你已经有了一个 Pandas DataFrame df，并且知道要替换的行索引 idx 和要查找的标识符 to_replace。

# 示例 DataFrame
data = {'i': ['unit1', 1000, -3000, -2000, 900],
        'j': ['unit2', 100, 200, 90, 40],
        'k': ['unit3', 84, 60, 195, 209]}
df = pd.DataFrame(data)

idx = 3  # 要从 DataFrame 中提取的行索引
to_replace = "B"  # 要在文件中查找的标识符
input_file = "input_file.txt" #输入文件
output_file = "output_file.txt" #输出文件

读取文件内容

打开文本文件，读取其全部内容到一个字符串变量中。
```
with open(input_file, "r") as f_in:
    file_string = f_in.read()
```
从 DataFrame 中提取数值

使用 df.loc 方法，根据行索引 idx 和列名（"i", "j", "k"）从 DataFrame 中提取要替换的数值。

PatentPal专利申请写作
AI软件来为专利申请自动生成内容

下载
```
i, j, k = df.loc[idx, ["i", "j", "k"]]
```
使用正则表达式进行替换

这是核心步骤。使用 re.sub 函数，结合正则表达式，在 file_string 中查找匹配的内容，并进行替换。
- 正则表达式解释:
  - ^: 匹配行的开头。
  - ({to_replace}\s.*?): 匹配标识符 to_replace（例如 "B"），后跟任意空白字符 \s，以及任意字符 . 直到下一个模式。使用括号 () 创建一个捕获组，以便在替换时保留这部分内容。? 实现非贪婪匹配，防止跨越多个目标块。
  - i = \S+ j = \S+ k = \S+: 匹配 "i = "、"j = " 和 "k = "，以及它们后面的非空白字符 \S+（即数值）。
- 替换字符串解释:
  - \g<1>: 引用第一个捕获组的内容（即标识符 to_replace 及其前面的部分）。
  - f"i = {i} j = {j} k = {k}": 使用 f-string 格式化字符串，将从 DataFrame 中提取的数值插入到替换字符串中。
- re.M 和 re.S 标志:
  - re.M (re.MULTILINE): 使 ^ 匹配每行的开头，而不仅仅是字符串的开头。
  - re.S (re.DOTALL): 使 . 匹配包括换行符在内的所有字符。
```
file_string = re.sub(
    rf"^({to_replace}\s.*?)i = \S+ j = \S+ k = \S+",
    f"\g<1>i = {i} j = {j} k = {k}",
    file_string,
    flags=re.M | re.S,
)
```
将修改后的内容写入文件

打开输出文件，将修改后的 file_string 写入。
```
with open(output_file, "w") as f_out:
    f_out.write(file_string)
```

完整代码示例

import pandas as pd
import re

# 示例 DataFrame
data = {'i': ['unit1', 1000, -3000, -2000, 900],
        'j': ['unit2', 100, 200, 90, 40],
        'k': ['unit3', 84, 60, 195, 209]}
df = pd.DataFrame(data)

idx = 3  # 要从 DataFrame 中提取的行索引
to_replace = "B"  # 要在文件中查找的标识符
input_file = "input_file.txt" #输入文件
output_file = "output_file.txt" #输出文件

# 创建示例输入文件
with open(input_file, "w") as f:
    f.write("""A       first = 4 | 1_3_5_4        Name1
labelToSkip
i = 1000000 j = -3 k = -15
end

B       first = 4 | 9_2_2_4        Name2
labelToSkip
i = 150000 j = -3 k = -20
end
""")


with open(input_file, "r") as f_in:
    file_string = f_in.read()

    i, j, k = df.loc[idx, ["i", "j", "k"]]

    file_string = re.sub(
        rf"^({to_replace}\s.*?)i = \S+ j = \S+ k = \S+",
        f"\g<1>i = {i} j = {j} k = {k}",
        file_string,
        flags=re.M | re.S,
    )

with open(output_file, "w") as f_out:
    f_out.write(file_string)