0

0

使用 aiohttp 异步下载图像并直接内存处理(无需临时文件)

霞舞

霞舞

发布时间:2026-03-12 18:39:01

|

933人浏览过

|

来源于php中文网

原创

使用 aiohttp 异步下载图像并直接内存处理(无需临时文件)

本文详解如何借助 aiohttp + io.BytesIO 在内存中加载远程图片,避免磁盘 I/O,高效计算图像感知哈希(如 imagehash.phash),适用于高并发图像分析场景。

本文详解如何借助 `aiohttp` + `io.bytesio` 在内存中加载远程图片,避免磁盘 i/o,高效计算图像感知哈希(如 `imagehash.phash`),适用于高并发图像分析场景。

在异步 Python 开发中,当需要批量校验 CDN 图像内容(例如计算感知哈希用于去重或相似性比对)时,同步方式(如 requests)易造成 I/O 阻塞,而 naïve 的 aiohttp 实现却常因数据流处理不当导致 ValueError: embedded null byte 等错误——其根本原因在于:PIL.Image.open() 无法直接接收分块的 bytes(如 response.content 迭代产生的单次 chunk),它需要一个完整、可随机读取的字节流对象(如 io.BytesIO)。

正确做法是:等待响应体完整加载为 bytes,再将其封装为 io.BytesIO 缓冲区,最后交由 PIL 解析。该方案全程在内存完成,零磁盘写入,兼顾性能与简洁性。

以下是推荐实现:

import asyncio
import imagehash
from PIL import Image
from aiohttp import ClientSession
import io

async def get_aio_picture(url: str) -> str:
    """
    异步获取指定 URL 的图像,并计算其 6×6 感知哈希(phash)

    Args:
        url: 图像资源 URL

    Returns:
        str: 十六进制哈希字符串(如 'fbc843946')
    """
    async with ClientSession() as session:
        async with session.get(url) as response:
            # 关键:确保完整读取响应体(自动解压已默认启用;若服务端强制压缩且需手动解压,请显式设置 headers)
            content = await response.read()
            # 将 bytes 转为内存中的类文件对象
            buffer = io.BytesIO(content)
            # PIL 安全打开——支持 JPEG/PNG/GIF 等常见格式
            img = Image.open(buffer)
            # 计算感知哈希(可根据需求调整 hash_size、quality 等参数)
            phash = imagehash.phash(img, hash_size=6)
            return str(phash)

# 批量处理示例(推荐生产环境使用)
async def batch_hash(urls: list[str]) -> dict[str, str]:
    """并发处理多个图像 URL,返回 {url: hash} 映射"""
    async with ClientSession() as session:
        tasks = [
            get_aio_picture(url) for url in urls
        ]
        results = await asyncio.gather(*tasks, return_exceptions=True)
        return {
            url: res if not isinstance(res, Exception) else f"ERROR: {type(res).__name__}"
            for url, res in zip(urls, results)
        }

# 使用示例
if __name__ == "__main__":
    test_url = "https://ae01.alicdn.com/kf/Sec174725eb944b4693342178da975d52z.jpg"

    async def main():
        hash_val = await get_aio_picture(test_url)
        print(f"hash: {hash_val}")  # 输出:hash: fbc843946

        # 批量调用(10 个相同 URL 演示并发能力)
        urls = [test_url] * 10
        batch_result = await batch_hash(urls)
        print(f"Batch result count: {len(batch_result)}")

    asyncio.run(main())

关键要点说明

Bolt.new
Bolt.new

Bolt.new是一个免费的AI全栈开发工具

下载
  • await response.read() 是核心:它以协程方式等待整个响应体加载完毕,返回 bytes,而非分块迭代器。
  • io.BytesIO(content) 构造了一个支持 seek()、read() 等方法的标准类文件对象,完全满足 PIL.Image.open() 对输入源的要求。
  • 移除 response.auto_decompress = False(除非你明确需要原始压缩流):现代 aiohttp 默认自动解压 gzip/deflate,禁用反而可能导致解析失败(如返回乱码二进制)。
  • 若遇到 OSError: cannot identify image file,请检查 URL 是否返回真实图像(HTTP 状态码 200 + 正确 Content-Type),或添加 img = img.convert('RGB') 统一色彩模式以防透明通道干扰哈希。

⚠️ 注意事项

  • 内存安全:单张高清图可能占用数 MB 内存,批量处理时建议控制并发数(如 asyncio.Semaphore(5)),避免 OOM。
  • 错误处理:生产代码中应包裹 try/except 捕获 aiohttp.ClientError、PIL.UnidentifiedImageError 等异常。
  • 性能优化:对海量图像,可考虑复用 ClientSession 实例(而非每次新建),并启用连接池(TCPConnector(limit=100))。

通过此方案,你既能享受异步 I/O 带来的吞吐提升,又能保持图像处理逻辑的简洁与健壮——真正实现“下载即处理”,无需任何临时文件落地。

本站声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

WorkBuddy
WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
c语言中null和NULL的区别
c语言中null和NULL的区别

c语言中null和NULL的区别是:null是C语言中的一个宏定义,通常用来表示一个空指针,可以用于初始化指针变量,或者在条件语句中判断指针是否为空;NULL是C语言中的一个预定义常量,通常用来表示一个空值,用于表示一个空的指针、空的指针数组或者空的结构体指针。

254

2023.09.22

java中null的用法
java中null的用法

在Java中,null表示一个引用类型的变量不指向任何对象。可以将null赋值给任何引用类型的变量,包括类、接口、数组、字符串等。想了解更多null的相关内容,可以阅读本专题下面的文章。

1089

2024.03.01

http500解决方法
http500解决方法

http500解决方法有检查服务器日志、检查代码错误、检查服务器配置、检查文件和目录权限、检查资源不足、更新软件版本、重启服务器或寻求专业帮助等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

495

2023.11.09

http请求415错误怎么解决
http请求415错误怎么解决

解决方法:1、检查请求头中的Content-Type;2、检查请求体中的数据格式;3、使用适当的编码格式;4、使用适当的请求方法;5、检查服务器端的支持情况。更多http请求415错误怎么解决的相关内容,可以阅读下面的文章。

450

2023.11.14

HTTP 503错误解决方法
HTTP 503错误解决方法

HTTP 503错误表示服务器暂时无法处理请求。想了解更多http错误代码的相关内容,可以阅读本专题下面的文章。

3555

2024.03.12

http与https有哪些区别
http与https有哪些区别

http与https的区别:1、协议安全性;2、连接方式;3、证书管理;4、连接状态;5、端口号;6、资源消耗;7、兼容性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

2909

2024.08.16

PHP 高并发与性能优化
PHP 高并发与性能优化

本专题聚焦 PHP 在高并发场景下的性能优化与系统调优,内容涵盖 Nginx 与 PHP-FPM 优化、Opcode 缓存、Redis/Memcached 应用、异步任务队列、数据库优化、代码性能分析与瓶颈排查。通过实战案例(如高并发接口优化、缓存系统设计、秒杀活动实现),帮助学习者掌握 构建高性能PHP后端系统的核心能力。

112

2025.10.16

PHP 数据库操作与性能优化
PHP 数据库操作与性能优化

本专题聚焦于PHP在数据库开发中的核心应用,详细讲解PDO与MySQLi的使用方法、预处理语句、事务控制与安全防注入策略。同时深入分析SQL查询优化、索引设计、慢查询排查等性能提升手段。通过实战案例帮助开发者构建高效、安全、可扩展的PHP数据库应用系统。

99

2025.11.13

C# ASP.NET Core微服务架构与API网关实践
C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开,系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例,帮助开发者掌握构建高可用微服务系统的关键技术,提高系统的可扩展性与维护效率。

76

2026.03.11

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号