TEI是什么人文研究领域的文本编码XML

畫卷琴夢

发布时间：2026-01-29 09:36:11

246人浏览过

来源于php中文网

原创

TEI是人文研究领域基于XML的文本结构化编码标准，提供540多个语义元素（如<gap>、<stage>、<corr>）显性化标注古籍残卷、诗歌韵律、戏剧对白等复杂结构，并强制要求<teiHeader>与<text>两大部分以支持学术元数据与可计算分析。

tei是什么人文研究领域的文本编码xml

TEI（Text Encoding Initiative，文本编码倡议）是人文研究领域广泛采用的、基于XML的文本结构化编码标准。它不是一种编程语言或软件，而是一套经过学界长期共识形成的规范体系，用于对文学、历史、语言学等学科的文本进行精细、可扩展、机器可读的标注。

TEI的核心定位：为人文文本提供“可计算的骨架”

人文文本常含复杂结构——比如古籍的残卷标记、诗歌的分行与韵律、戏剧的角色对白、手稿的修订痕迹、多语种混排等。TEI用540多个语义明确的XML元素（如<gap>标残缺、<stage>标舞台提示、<corr>标校勘修正），把这类隐性知识显性化、结构化。这种编码既保留学术判断，又支持检索、比对、可视化和长期归档。

一个典型TEI文档的基本组成

每份合规TEI文件都包含两大部分：

MaxAI

MaxAI.me是一款功能强大的浏览器AI插件，集成了多种AI模型。

下载

头部（<teiHeader>）：强制包含四大元数据区块——fileDesc（文献来源与物理描述）、encodingDesc（编码方法与依据）、profileDesc（内容特征，如语言、体裁、关键词）、revisionDesc（版本修订日志）；
正文（<text>）：按实际文本逻辑组织，支持嵌套层级（如<div type="act">套<sp>再套<speaker>和<p>），并可混合使用语义标签（<foreign>、<date>、<rs>等）与格式无关的描述性标注。

为什么人文学者要用TEI而不是普通XML或Markdown

因为TEI不只是“加标签”，而是承载学术惯例的编码语言：

它预置了200+文本类型模板（从词典、信札到碑刻、剧本），避免重复造轮子；
通过ODD（One Document Does it All）机制，项目可定制专属Schema，兼顾统一性与灵活性；
所有元素定义在公开XML Schema中，支持自动验证（如用Trafilatura或oXygen校验），确保数据可信、可交换；
与XSLT、Python（tei_reader）、LaTeX（ekdosis宏包）等工具链深度集成，能一键转HTML展示、PDF出版或DataFrame分析。

实际应用场景举例

不靠抽象概念，看几个真实落地方式：

秦汉简牍数字化：用<gap reason="illegible">标模糊字迹，用<supplied reason="lost">补推测文字，同时保留原始图像链接；
《莎士比亚全集》早期印刷本比对：用<app>（校勘 apparatus）包裹异文，内嵌<rdg>（读法）与<wit>（见证手稿），支撑多版本动态对照；
近代学者书信集：在<correspAction>中结构化发信人、收信人、时间、地点，并关联CBDB人物数据库ID，实现人物关系网络自动构建。

Python xml.etree.ElementTree register_namespace 注册命名空间前缀

Python xml.sax.parse 解析XML文件

XML文件如何导入MongoDB 将XML文档转换为BSON存储

Python lxml builder E.function 自定义XML构建函数

Python如何将多个XML文件合并为一个树

相关标签:

python html markdown 编码编程语言工具 pdf speak date xml 数据库

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：XML上传与CDN缓存策略如何处理动态上传的内容下一篇：电子发票格式PDF转XML_电子发票PDF转XML专用方案

作者最新文章

PS蒙版边缘生硬怎么办？让图层蒙版边缘变柔和的三个处理秘诀

2026-03-14 11:42

C# 文件操作与DMA C#直接内存访问如何影响文件IO性能

2026-03-14 12:25

Android shape stroke描边 XML设置边框宽度和颜色

2026-03-14 12:30

C# 列表模式匹配方法 C#如何对List或数组进行模式匹配

2026-03-14 12:39

C# Azure Event Grid发布事件方法 C#如何向Event Grid推送事件

2026-03-14 12:55

Swift如何处理后台XML上传任务 BackgroundTasks框架

2026-03-14 12:59

作业帮网页版入口扫码搜题作业帮网页版入口无需安装直接进

2026-03-14 13:10

C# WinDbg SOS命令 C#常用SOS调试命令有哪些

2026-03-14 13:44

C# 实体框架事务处理方法 C# EF Core如何使用数据库事务

2026-03-14 14:10

XML文件解析速度优化提高大批量XML处理性能的方法

2026-03-14 14:47

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

AI办公学习 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

pdf怎么转换成xml格式

将 pdf 转换为 xml 的方法：1. 使用在线转换器；2. 使用桌面软件（如 adobe acrobat、itext）；3. 使用命令行工具（如 pdftoxml）。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

1950

2024.04.01

xml怎么变成word

步骤：1. 导入 xml 文件；2. 选择 xml 结构；3. 映射 xml 元素到 word 元素；4. 生成 word 文档。提示：确保 xml 文件结构良好，并预览 word 文档以验证转换是否成功。想了解更多xml的相关内容，可以阅读本专题下面的文章。

2119

2024.08.01

xml是什么格式的文件

xml是一种纯文本格式的文件。xml指的是可扩展标记语言，标准通用标记语言的子集，是一种用于标记电子文件使其具有结构性的标记语言。想了解更多相关的内容，可阅读本专题下面的相关文章。

1173

2024.11.28

数据库三范式

数据库三范式是一种设计规范，用于规范化关系型数据库中的数据结构，它通过消除冗余数据、提高数据库性能和数据一致性，提供了一种有效的数据库设计方法。本专题提供数据库三范式相关的文章、下载和课程。

391

2023.06.29

如何删除数据库

删除数据库是指在MySQL中完全移除一个数据库及其所包含的所有数据和结构，作用包括：1、释放存储空间；2、确保数据的安全性；3、提高数据库的整体性能，加速查询和操作的执行速度。尽管删除数据库具有一些好处，但在执行任何删除操作之前，务必谨慎操作，并备份重要的数据。删除数据库将永久性地删除所有相关数据和结构，无法回滚。

2112

2023.08.14