如何使用 Python NLP 库智能截断商品标题至 40 字符以内

碧海醫心

发布时间：2026-02-08 17:30:00

871人浏览过

来源于php中文网

原创

如何使用 Python NLP 库智能截断商品标题至 40 字符以内

本文介绍如何借助 spacy 等 nlp 工具，基于词性与语义结构（而非简单切片）智能压缩长商品标题，在保留关键信息（如名词、形容词、尺寸）的前提下，生成语义合理、长度≤40字符的精简标题，并支持批量处理 pandas dataframe。

在电商、搜索推荐或数据清洗场景中，常需将冗长的商品标题（如 'Cut Resistant Gloves, Size 8, Grey/Black - 12 per DZ'，52 字符）压缩为简洁、可读且信息核心突出的短标题（如 'Resistant Size 8 Grey/Black Gloves'，34 字符）。若仅用 str[:40] 或空格截断，极易产生语义断裂（如 'Cut Resistant Gloves, Size 8, Grey/Bl'），丧失实用性。理想方案应理解语言结构——优先保留名词（核心品类）、形容词（关键属性）、尺寸数字及关联词，同时剔除冗余修饰语（如“per DZ”）、标点和停用词。

以下是一个基于 spaCy 的专业级实现方案，适用于 Pandas DataFrame 批量处理：

import pandas as pd
import spacy

# 加载轻量英文模型（需提前运行：python -m spacy download en_core_web_sm）
nlp = spacy.load("en_core_web_sm")

def shorten_product_title(title: str, max_len: int = 40, max_adj: int = 2, max_noun: int = 3) -> str:
    """
    智能压缩商品标题至指定长度（默认 ≤40 字符）
    优先保留：形容词（属性）、尺寸词（size + 数字）、核心名词（品类）
    """
    if not isinstance(title, str) or len(title.strip()) == 0:
        return title.strip()

    doc = nlp(title.strip())
    adjs, nouns, size_parts = [], [], []

    for token in doc:
        # 提取形容词（如 Resistant, Grey, Black）
        if token.pos_ == "ADJ" and not token.is_stop:
            adjs.append(token.text)
        # 提取名词（如 Gloves, DZ → 但过滤掉无意义量词）
        elif token.pos_ == "NOUN" and token.text.lower() not in ["dz", "per", "pcs", "pack"]:
            nouns.append(token.text)
        # 提取尺寸结构：匹配 'size X' 或 'vol X' 模式
        elif token.lower_ in ["size", "vol", "volume"] or \
             (token.pos_ == "NUM" and token.head.lower_ in ["size", "vol", "volume"]):
            size_parts.append(token.text)

    # 构建精简序列：[形容词...] + [size相关词] + [名词...]
    result_tokens = adjs[:max_adj]

    # 合并 size 信息（如 ['Size', '8'] → 'Size 8'）
    if size_parts:
        size_str = " ".join(size_parts).strip()
        if size_str and len(size_str) <= 12:  # 防止尺寸部分过长
            result_tokens.append(size_str)

    result_tokens.extend(nouns[:max_noun])

    # 拼接并二次校验长度
    candidate = " ".join(result_tokens)

    # 若仍超长，按词截断（非暴力切字符），保留完整单词
    if len(candidate) > max_len:
        words = candidate.split()
        truncated = []
        for word in words:
            test = " ".join(truncated + [word])
            if len(test) <= max_len:
                truncated.append(word)
            else:
                break
        candidate = " ".join(truncated)

    return candidate.strip()

# 应用于 DataFrame 示例
df = pd.DataFrame({
    "product_name": [
        "Cut Resistant Gloves, Size 8, Grey/Black - 12 per DZ",
        "Premium Waterproof Hiking Boots, Men's Size 10.5, Dark Green & Brown",
        "Organic Cotton Baby Onesie, Pack of 6, Soft Knit, Newborn to 3 Months"
    ]
})

df["short_title"] = df["product_name"].apply(shorten_product_title)
print(df[["product_name", "short_title"]])

输出示例：
| product_name | short_title |
|--------------|-------------|
| Cut Resistant Gloves, Size 8, Grey/Black - 12 per DZ | Resistant Size 8 Gloves |
| Premium Waterproof Hiking Boots, Men's Size 10.5, Dark Green & Brown | Waterproof Size 10.5 Boots |
| Organic Cotton Baby Onesie, Pack of 6, Soft Knit, Newborn to 3 Months | Organic Cotton Onesie |

✅ 关键优势：

语义感知：依赖词性（ADJ, NOUN, NUM）与依存关系，避免乱序或截断；
可配置性强：通过 max_adj / max_noun 控制各成分数量，适配不同品类策略；
鲁棒容错：自动跳过停用词、量词（如 "per DZ"）、标点及过长尺寸串；
生产就绪：直接集成 Pandas，支持千万级数据批量处理。

⚠️ 注意事项：

FashionLabs

AI服装模特、商品图，可商用，低价提升销量神器

下载

立即学习“Python免费学习笔记（深入）”；

首次运行需安装模型：python -m spacy download en_core_web_sm；
中文商品标题需切换为 zh_core_web_sm 并调整规则（中文分词与词性体系不同）；
对高度定制化品类（如含品牌名、型号码），建议在规则后追加白名单关键词强制保留；
如需更高精度，可结合命名实体识别（NER）提取 PRODUCT、SIZE 等自定义标签。

该方法在保证可读性与业务含义的前提下，显著优于正则截断或固定位置切片，是构建高质量商品元数据管道的核心预处理环节。

Python自动化办公教程_ExcelWordPDF批量处理

如何用Python高效提取CSV数据并自动导入Word表格

如何高效地从CSV提取数据并自动导入Word生成表格

如何在Python中高效提取CSV数据并自动导入Word文档生成表格

如何用Python自动化将CSV数据导入并嵌入Word文档表格

相关专题

Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧，涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估，以及基于实际业务场景的时间序列项目实操，帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

2025.12.04

Python 数据清洗与预处理实战

本专题系统讲解 Python 在数据清洗与预处理中的核心技术，包括使用 Pandas 进行缺失值处理、异常值检测、数据格式化、特征工程与数据转换，结合 NumPy 高效处理大规模数据。通过实战案例，帮助学习者掌握如何处理混乱、不完整数据，为后续数据分析与机器学习模型训练打下坚实基础。

2026.01.31

go语言数组和切片

本专题整合了go语言数组和切片的区别与含义，阅读专题下面的文章了解更多详细内容。

2025.09.03

Python 自然语言处理（NLP）基础与实战

本专题系统讲解 Python 在自然语言处理（NLP）领域的基础方法与实战应用，涵盖文本预处理（分词、去停用词）、词性标注、命名实体识别、关键词提取、情感分析，以及常用 NLP 库（NLTK、spaCy）的核心用法。通过真实文本案例，帮助学习者掌握使用 Python 进行文本分析与语言数据处理的完整流程，适用于内容分析、舆情监测与智能文本应用场景。

170

2026.01.27