thunderbird 的 .mbox 文件需先按 from 行切分再逐段解析为 rfc 2822 邮件,.net 原生 mailmessage 不支持;推荐用 openpop.net 解析,并优先指定 utf-8 编码。

Thunderbird 的 .mbox 文件不是标准 MIME 邮件集合,直接用 MailMessage 读不了
雷鸟的 .mbox 是一种“拼接式”纯文本格式:头部以 From (注意末尾空格)开头,后面紧接邮件头和正文,中间用空行分隔。.NET 原生的 System.Net.Mail.MailMessage 完全不支持解析这种格式——它只认单封 RFC 2822 邮件,不是 mbox 封装体。
常见错误现象:
– 把整个 .mbox 文件喂给 MailMessage.Parse(),抛出 FormatException 或静默失败
– 用 StreamReader 一行行读,但没识别 From 行边界,导致头尾错位、乱码、附件丢失
- 必须先按
From行切分原始文件,再对每段单独解析为 RFC 2822 邮件 -
From行不是邮件头,是 mbox 特有分隔符,不能当From:字段处理 - 雷鸟在 Windows 上默认用
\n换行(非\r\n),用ReadLine()可能吞掉换行符,建议用ReadToEnd()+Split('\n')更可控
推荐用 OpenPop.NET 解析 mbox,别自己手写切分逻辑
自己实现 From 切分+RFC 2822 解析,要处理转义、时区、编码(雷鸟常用 UTF-8 或 ISO-8859-1)、多行头字段、MIME multipart 等细节,极易出错。而 OpenPop.NET 是专为 POP3 和 mbox 设计的成熟库,已覆盖这些边界情况。
- 安装:
dotnet add package OpenPop - 核心流程:用
OpenPop.Mime.Parser.MimeParser解析每一段(不是整个文件) - 注意:不要传入带
From行的原始段落,需先剥离它——OpenPop只接受纯 RFC 2822 内容 - 示例关键片段:
string rawMbox = File.ReadAllText(@"C:\Users\...\Inbox"); string[] segments = Regex.Split(rawMbox, @"^From .*$", RegexOptions.Multiline); foreach (string seg in segments.Skip(1)) { // 跳过第一个空段 if (!string.IsNullOrWhiteSpace(seg)) { var message = new OpenPop.Mime.Parser.MimeParser(seg, true); string subject = message.Message.Header.Subject; DateTime? date = message.Message.Header.Date; } }
雷鸟的 global-messages-db.sqlite 比 mbox 更可靠,但需要 SQLite 支持
新版 Thunderbird(68+)默认启用全局消息数据库 global-messages-db.sqlite,所有邮件元数据(发件人、主题、时间、文件路径)都存于此。相比 mbox,它不依赖文本解析,无编码歧义,检索快,且包含 mbox 中没有的已读/标记状态。
- 路径通常在:
%APPDATA%\Thunderbird\Profiles\*.default-release\global-messages-db.sqlite - 需引用
Microsoft.Data.Sqlite,执行 SQL:SELECT subject, author, date, folder FROM messages - 正文仍存在对应
.mbox文件中,但可通过folder字段定位到具体 mbox 路径(如Inbox→Inbox文件) - 缺点:SQLite 文件被 Thunderbird 锁定时会报
SQLITE_BUSY,需加重试或等客户端退出
编码问题最常导致中文乱码,优先指定 UTF-8 并 fallback 到 Default
雷鸟写 mbox 时不总写 Content-Type: text/plain; charset=...,尤其旧邮件。若用 Encoding.Default(即系统 ANSI)读 UTF-8 内容,中文直接变问号。
- 解析前先尝试
Encoding.UTF8,失败再用Encoding.GetEncoding("ISO-8859-1")或Encoding.Default -
OpenPop.Mime.Parser.MimeParser构造函数第二个参数设为true,它会自动探测编码(比手动猜更准) - 别依赖
File.ReadAllText(path)默认编码——显式传Encoding.UTF8:
string content = File.ReadAllText(path, Encoding.UTF8);雷鸟 mbox 的真实结构比看起来复杂:
From 行后可能跟空行、注释、甚至嵌套 mbox 片段;SQLite 数据库虽好,但路径动态、锁机制隐蔽;编码 fallback 不是锦上添花,而是读中文邮件的必要条件。










