使用 aiohttp 异步下载图像并直接内存处理（无需临时文件）

霞舞

发布时间：2026-03-12 18:39:01

933人浏览过

来源于php中文网

原创

使用 aiohttp 异步下载图像并直接内存处理（无需临时文件）

本文详解如何借助 aiohttp + io.BytesIO 在内存中加载远程图片，避免磁盘 I/O，高效计算图像感知哈希（如 imagehash.phash），适用于高并发图像分析场景。

本文详解如何借助 `aiohttp` + `io.bytesio` 在内存中加载远程图片，避免磁盘 i/o，高效计算图像感知哈希（如 `imagehash.phash`），适用于高并发图像分析场景。

在异步 Python 开发中，当需要批量校验 CDN 图像内容（例如计算感知哈希用于去重或相似性比对）时，同步方式（如 requests）易造成 I/O 阻塞，而 naïve 的 aiohttp 实现却常因数据流处理不当导致 ValueError: embedded null byte 等错误——其根本原因在于：PIL.Image.open() 无法直接接收分块的 bytes（如 response.content 迭代产生的单次 chunk），它需要一个完整、可随机读取的字节流对象（如 io.BytesIO）。

正确做法是：等待响应体完整加载为 bytes，再将其封装为 io.BytesIO 缓冲区，最后交由 PIL 解析。该方案全程在内存完成，零磁盘写入，兼顾性能与简洁性。

以下是推荐实现：

import asyncio
import imagehash
from PIL import Image
from aiohttp import ClientSession
import io

async def get_aio_picture(url: str) -> str:
    """
    异步获取指定 URL 的图像，并计算其 6×6 感知哈希（phash）

    Args:
        url: 图像资源 URL

    Returns:
        str: 十六进制哈希字符串（如 'fbc843946'）
    """
    async with ClientSession() as session:
        async with session.get(url) as response:
            # 关键：确保完整读取响应体（自动解压已默认启用；若服务端强制压缩且需手动解压，请显式设置 headers）
            content = await response.read()
            # 将 bytes 转为内存中的类文件对象
            buffer = io.BytesIO(content)
            # PIL 安全打开——支持 JPEG/PNG/GIF 等常见格式
            img = Image.open(buffer)
            # 计算感知哈希（可根据需求调整 hash_size、quality 等参数）
            phash = imagehash.phash(img, hash_size=6)
            return str(phash)

# 批量处理示例（推荐生产环境使用）
async def batch_hash(urls: list[str]) -> dict[str, str]:
    """并发处理多个图像 URL，返回 {url: hash} 映射"""
    async with ClientSession() as session:
        tasks = [
            get_aio_picture(url) for url in urls
        ]
        results = await asyncio.gather(*tasks, return_exceptions=True)
        return {
            url: res if not isinstance(res, Exception) else f"ERROR: {type(res).__name__}"
            for url, res in zip(urls, results)
        }

# 使用示例
if __name__ == "__main__":
    test_url = "https://ae01.alicdn.com/kf/Sec174725eb944b4693342178da975d52z.jpg"

    async def main():
        hash_val = await get_aio_picture(test_url)
        print(f"hash: {hash_val}")  # 输出：hash: fbc843946

        # 批量调用（10 个相同 URL 演示并发能力）
        urls = [test_url] * 10
        batch_result = await batch_hash(urls)
        print(f"Batch result count: {len(batch_result)}")

    asyncio.run(main())

✅ 关键要点说明：

Bolt.new

Bolt.new是一个免费的AI全栈开发工具

下载

await response.read() 是核心：它以协程方式等待整个响应体加载完毕，返回 bytes，而非分块迭代器。
io.BytesIO(content) 构造了一个支持 seek()、read() 等方法的标准类文件对象，完全满足 PIL.Image.open() 对输入源的要求。
移除 response.auto_decompress = False（除非你明确需要原始压缩流）：现代 aiohttp 默认自动解压 gzip/deflate，禁用反而可能导致解析失败（如返回乱码二进制）。
若遇到 OSError: cannot identify image file，请检查 URL 是否返回真实图像（HTTP 状态码 200 + 正确 Content-Type），或添加 img = img.convert('RGB') 统一色彩模式以防透明通道干扰哈希。

⚠️ 注意事项：

内存安全：单张高清图可能占用数 MB 内存，批量处理时建议控制并发数（如 asyncio.Semaphore(5)），避免 OOM。
错误处理：生产代码中应包裹 try/except 捕获 aiohttp.ClientError、PIL.UnidentifiedImageError 等异常。
性能优化：对海量图像，可考虑复用 ClientSession 实例（而非每次新建），并启用连接池（TCPConnector(limit=100)）。

通过此方案，你既能享受异步 I/O 带来的吞吐提升，又能保持图像处理逻辑的简洁与健壮——真正实现“下载即处理”，无需任何临时文件落地。

相关标签:

NULL 封装 try 并发对象异步 http 性能优化

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：如何在 Linux/macOS 系统中全面查找所有 Python 解释器安装下一篇：高效并行处理文本任务并安全写入 CSV：分离计算与 I/O 的最佳实践

作者最新文章

SQLModel 中处理时区感知 datetime 字段的正确方法

2026-03-12 14:35

如何在保留首列字符串的前提下，用每行数值列均值填充 NaN

2026-03-12 14:35

如何让 Flex 布局的双栏页脚在移动端自动堆叠为单列

2026-03-12 14:47

鄂汇办app如何修改昵称

2026-03-12 14:49

海信发布E7S Pro终结取舍困境，玲珑真彩背光开启“原生色彩”时代

2026-03-12 15:02

如何在 MongoDB 中高效防止用户名和邮箱重复（推荐实践）

2026-03-12 15:05

如何在保留首列字符串的前提下，用每行数值列的均值填充 NaN

2026-03-12 15:40

vscode怎么还原隐藏的工具栏

2026-03-12 15:43

React应用中实现登录页与主页的双向路由保护

2026-03-12 15:43

高效求解轮盘弹跳路径：基于循环节检测的 O(n) 优化算法

2026-03-12 15:46

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

AI办公学习 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

c语言中null和NULL的区别

c语言中null和NULL的区别是：null是C语言中的一个宏定义，通常用来表示一个空指针，可以用于初始化指针变量，或者在条件语句中判断指针是否为空；NULL是C语言中的一个预定义常量，通常用来表示一个空值，用于表示一个空的指针、空的指针数组或者空的结构体指针。

254

2023.09.22

java中null的用法

在Java中，null表示一个引用类型的变量不指向任何对象。可以将null赋值给任何引用类型的变量，包括类、接口、数组、字符串等。想了解更多null的相关内容，可以阅读本专题下面的文章。

1089

2024.03.01

http500解决方法

http500解决方法有检查服务器日志、检查代码错误、检查服务器配置、检查文件和目录权限、检查资源不足、更新软件版本、重启服务器或寻求专业帮助等。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

495

2023.11.09

http请求415错误怎么解决

解决方法：1、检查请求头中的Content-Type；2、检查请求体中的数据格式；3、使用适当的编码格式；4、使用适当的请求方法；5、检查服务器端的支持情况。更多http请求415错误怎么解决的相关内容，可以阅读下面的文章。

450

2023.11.14

HTTP 503错误解决方法

HTTP 503错误表示服务器暂时无法处理请求。想了解更多http错误代码的相关内容，可以阅读本专题下面的文章。

3555

2024.03.12

http与https有哪些区别

http与https的区别：1、协议安全性；2、连接方式；3、证书管理；4、连接状态；5、端口号；6、资源消耗；7、兼容性。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

2909

2024.08.16

PHP 高并发与性能优化

本专题聚焦 PHP 在高并发场景下的性能优化与系统调优，内容涵盖 Nginx 与 PHP-FPM 优化、Opcode 缓存、Redis/Memcached 应用、异步任务队列、数据库优化、代码性能分析与瓶颈排查。通过实战案例（如高并发接口优化、缓存系统设计、秒杀活动实现），帮助学习者掌握构建高性能PHP后端系统的核心能力。

112

2025.10.16

PHP 数据库操作与性能优化

本专题聚焦于PHP在数据库开发中的核心应用，详细讲解PDO与MySQLi的使用方法、预处理语句、事务控制与安全防注入策略。同时深入分析SQL查询优化、索引设计、慢查询排查等性能提升手段。通过实战案例帮助开发者构建高效、安全、可扩展的PHP数据库应用系统。

2025.11.13

C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开，系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例，帮助开发者掌握构建高可用微服务系统的关键技术，提高系统的可扩展性与维护效率。

2026.03.11

热门下载

网站特效

网站源码

网站素材

前端模板