0

0

Python爬虫怎么处理字体反爬_解析woff字体文件与建立字符映射字典还原真实数据

P粉602998670

P粉602998670

发布时间:2026-03-12 13:48:11

|

215人浏览过

|

来源于php中文网

原创

woff文件需用fonttools库解析为xml格式查看内容,直接文本编辑器无法读取;实操中应先用ttfont加载,注意区分woff/woff2格式,重点分析cmap和name表,并结合页面明文锚点校准字形映射。

python爬虫怎么处理字体反爬_解析woff字体文件与建立字符映射字典还原真实数据

woff 文件怎么打开看内容

woff 是压缩过的字体文件,直接用文本编辑器打不开有效信息;得先转成可读的 xml 格式。Python 里最稳的方式是用 fontTools 库解析,别指望用正则硬扒二进制流——woff2 结构复杂,header 和 table offset 都要校验,手写解析大概率漏字形或错位。

实操建议:

立即学习Python免费学习笔记(深入)”;

  • fontTools:运行 pip install fonttools
  • ttf = TTFont("xxx.woff") 加载,不是所有 woff 都能被识别为 TTFont,遇到报错 Unsupported sfnt version 说明可能是 woff2,得换 woff2 工具先解包
  • 关键命令是 ttf.getGlyphOrder()ttf['cmap'].getBestCmap(),前者列出所有字形名(如 uniE800),后者给出 Unicode 映射关系
  • 别直接看 ttf['glyf']——里面是轮廓数据,对还原文字没用;重点盯 cmapname

怎么从网页里提取当前用的 woff 文件地址

字体反爬通常靠 CSS 的 @font-face 规则动态加载 woff,但地址可能藏在 JS 变量、内联 style 或 xhr 响应里。光靠 requests + BeautifulSoup 抓 HTML 往往拿不到真实链接,因为字体 URL 经常是拼接生成的。

实操建议:

立即学习Python免费学习笔记(深入)”;

  • 用浏览器开发者工具,在 Network → Font 标签页里刷新页面,找状态码 200 的 woff 请求,右键 Copy → Copy link address
  • 如果字体请求被 JS 动态发起,去 Sources → Page → 找含 wofffont-family 的 JS 文件,搜 fetchnew XMLHttpRequest 或字符串拼接模式(如 `/font/${hash}.woff`
  • 注意 Referer 和 User-Agent:有些站点校验 referer,直接用 requests.get(url) 会返回 403,得手动加 headers={'Referer': 'https://xxx.com/'}
  • woff 地址可能是相对路径,需和页面 base url 拼接,别直接丢给 requests

字符映射字典怎么建才不翻车

映射字典不是简单把 woff 里的 Unicode 码点和文字一一对应——很多反爬字体故意把汉字映射到私有区(U+E800–U+F8FF),甚至同一字体每次加载都随机重排字形顺序。靠一次解析建静态字典,第二天就失效。

Favird No-Code Tools
Favird No-Code Tools

无代码工具的聚合器

下载

实操建议:

立即学习Python免费学习笔记(深入)”;

  • 必须结合页面上的“明文锚点”来校准:比如网页中有一段可见文字“电话:138****1234”,旁边用字体渲染了另一串“138****1234”,这时拿 woff 解析出的字形轮廓,和已知数字的轮廓做比对(用 ttf['glyf'][glyph_name].coordinates 提取坐标点)
  • 优先用轮廓哈希(如 MD5 坐标序列)而非字形名匹配,因为 uniE800 这类名字每次可能变,但“数字 1”的轮廓几乎不变
  • 别存整张字典到代码里,用 pickle 或 JSON 存本地,下次爬前先检查 woff 文件 hash 是否变化,变了就触发重新校准流程
  • 常见坑:中文标点(如顿号、破折号)和英文标点共用一个 glyph,映射时得按上下文区分,不能无脑替换

Python 怎么把字体渲染的文本还原成可读字符串

拿到映射字典后,真正还原时不是靠“查表替换”,而是模拟浏览器行为:把字体文件、文本内容、CSS 样式一起喂给渲染引擎,再 OCR 或比对像素。纯 Python 不依赖浏览器很难 100% 还原,尤其当字体做了轻微扭曲或叠加干扰线。

实操建议:

立即学习Python免费学习笔记(深入)”;

  • 最轻量方案:用 PIL.ImageDraw.text + ImageFont.truetype 加载 woff(需先转 ttf),把每个疑似字符单独渲染成小图,和页面截图中对应位置裁剪图做像素比对(SSIM 或模板匹配)
  • 避免用 pytesseract 直接 OCR 渲染块——字体非标准、字号小、背景噪点多,识别率低于 40%
  • 如果目标网站结构稳定,建议把“字体 hash → 字符映射”缓存下来,后续只更新映射,不重复解析字体文件,省 IO 和 CPU
  • 注意 woff 中的 loca 表偏移可能异常,fontTools 有时会跳过损坏字形,导致 getGlyphOrder() 返回数量少于实际显示字符数,得配合 len(ttf['cmap'].tables[0].cmap) 校验

字体反爬的麻烦不在解析本身,而在映射关系的脆弱性——同一个站点,今天用 woff,明天切 woff2;今天字形固定,明天加随机偏移。别想着一劳永逸建个通用字典,得把“字体获取→解析→校准→缓存→失效检测”做成闭环流程。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
json数据格式
json数据格式

JSON是一种轻量级的数据交换格式。本专题为大家带来json数据格式相关文章,帮助大家解决问题。

455

2023.08.07

json是什么
json是什么

JSON是一种轻量级的数据交换格式,具有简洁、易读、跨平台和语言的特点,JSON数据是通过键值对的方式进行组织,其中键是字符串,值可以是字符串、数值、布尔值、数组、对象或者null,在Web开发、数据交换和配置文件等方面得到广泛应用。本专题为大家提供json相关的文章、下载、课程内容,供大家免费下载体验。

546

2023.08.23

jquery怎么操作json
jquery怎么操作json

操作的方法有:1、“$.parseJSON(jsonString)”2、“$.getJSON(url, data, success)”;3、“$.each(obj, callback)”;4、“$.ajax()”。更多jquery怎么操作json的详细内容,可以访问本专题下面的文章。

335

2023.10.13

go语言处理json数据方法
go语言处理json数据方法

本专题整合了go语言中处理json数据方法,阅读专题下面的文章了解更多详细内容。

82

2025.09.10

Python爬虫获取数据的方法
Python爬虫获取数据的方法

Python爬虫可以通过请求库发送HTTP请求、解析库解析HTML、正则表达式提取数据,或使用数据抓取框架来获取数据。更多关于Python爬虫相关知识。详情阅读本专题下面的文章。php中文网欢迎大家前来学习。

293

2023.11.13

pip安装使用方法
pip安装使用方法

安装步骤:1、确保Python已经正确安装在您的计算机上;2、下载“get-pip.py”脚本;3、按下Win + R键,然后输入cmd并按下Enter键来打开命令行窗口;4、在命令行窗口中,使用cd命令切换到“get-pip.py”所在的目录;5、执行安装命令;6、验证安装结果即可。大家可以访问本专题下的文章,了解pip安装使用方法的更多内容。

373

2023.10.09

更新pip版本
更新pip版本

更新pip版本方法有使用pip自身更新、使用操作系统自带的包管理工具、使用python包管理工具、手动安装最新版本。想了解更多相关的内容,请阅读专题下面的文章。

436

2024.12.20

pip设置清华源
pip设置清华源

设置方法:1、打开终端或命令提示符窗口;2、运行“touch ~/.pip/pip.conf”命令创建一个名为pip的配置文件;3、打开pip.conf文件,然后添加“[global];index-url = https://pypi.tuna.tsinghua.edu.cn/simple”内容,这将把pip的镜像源设置为清华大学的镜像源;4、保存并关闭文件即可。

802

2024.12.23

C# ASP.NET Core微服务架构与API网关实践
C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开,系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例,帮助开发者掌握构建高可用微服务系统的关键技术,提高系统的可扩展性与维护效率。

76

2026.03.11

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 22.5万人学习

Django 教程
Django 教程

共28课时 | 4.9万人学习

SciPy 教程
SciPy 教程

共10课时 | 1.9万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号