0

0

如何利用 JavaScript 实现一个支持并发请求的简单爬虫程序?

紅蓮之龍

紅蓮之龍

发布时间:2025-09-29 12:16:02

|

1012人浏览过

|

来源于php中文网

原创

答案:通过控制并发数的异步爬虫可避免服务器压力过大。使用async/await结合Promise实现并发池,限制同时请求的数量,完成一个再发起下一个;配合错误重试、随机延迟和User-Agent设置,提升稳定性;Node.js环境下推荐axios进行请求管理,确保爬虫高效且友好。

如何利用 javascript 实现一个支持并发请求的简单爬虫程序?

实现一个支持并发请求的简单爬虫程序,核心是使用 JavaScript 的异步能力(如 fetchaxios)结合控制并发数的机制,避免一次性发起太多请求导致目标服务器压力过大或被封禁。

1. 基本思路:控制并发请求数量

直接用 Promise.all 可能会同时发起所有请求,不适合大量目标。更好的方式是使用“并发池”策略:限制同时进行的请求数量,完成一个再加入下一个。

以下是一个基于 async/awaitPromise 实现的并发控制示例:

Adrenaline
Adrenaline

软件调试助手,识别和修复代码中错误

下载

立即学习Java免费学习笔记(深入)”;

async function concurrentCrawler(urls, maxConcurrency = 5) {
  const results = [];
  let currentIndex = 0;

async function fetchNext() { const index = currentIndex++; if (index >= urls.length) return null;

const url = urls[index];
try {
  const response = await fetch(url, {
    timeout: 5000 // Node.js 需要额外处理超时,浏览器中可忽略
  });
  const html = await response.text();
  results[index] = { url, success: true, data: html };
} catch (error) {
  results[index] = { url, success: false, error: error.message };
}

// 继续下一个请求
return fetchNext();

}

// 启动 maxConcurrency 个并发任务 const activePromises = []; for (let i = 0; i

// 等待所有任务完成 await Promise.all(activePromises); return results; }

2. 使用示例

假设你要抓取多个页面内容:

立即学习Java免费学习笔记(深入)”;

const urls = [
  'https://httpbin.org/delay/1',
  'https://httpbin.org/delay/2',
  'https://httpbin.org/status/200',
  // 更多 URL...
];

concurrentCrawler(urls, 3).then(results => { results.forEach(r => { if (r.success) { console.log(✅ ${r.url} - 获取成功,内容长度: ${r.data.length}); } else { console.log(❌ ${r.url} - 失败: ${r.error}); } }); });

3. 注意事项与优化建议

实际使用中还需考虑以下几点:

  • 请求头设置:添加 User-Agent,模拟正常浏览器行为,避免被拦截
  • 错误重试机制:对失败请求可增加重试次数
  • 延时控制:在每次请求后加随机延迟(如 await new Promise(r => setTimeout(r, Math.random() * 1000))),降低被封风险
  • HTML 解析:在 Node.js 中可用 cheerio 解析 HTML 内容
  • 运行环境:浏览器端受限于 CORS,通常爬虫更适合在 Node.js 中运行(配合 axios 或 node-fetch)

4. Node.js 版本 + Axios 示例(推荐用于真实项目)

在 Node.js 中使用 axios 更灵活,支持超时、重试等配置:

立即学习Java免费学习笔记(深入)”;

const axios = require('axios');

async function nodeConcurrentCrawler(urls, maxConcurrency = 3) { const results = []; let currentIndex = 0;

const fetchUrl = async () => { while (currentIndex < urls.length) { const index = currentIndex++; const url = urls[index];

  try {
    const response = await axios.get(url, {
      timeout: 8000,
      headers: {
        'User-Agent': 'Mozilla/5.0 (compatible; Mini Crawler)'
      }
    });
    results[index] = { url, success: true, status: response.status, data: response.data };
  } catch (error) {
    results[index] = { url, success: false, error: error.message };
  }

  // 每次请求后随机延迟
  await new Promise(r => setTimeout(r, Math.random() * 1000));
}

};

// 创建并发任务 const promises = Array(maxConcurrency).fill().map(fetchUrl); await Promise.all(promises); return results; }

基本上就这些。通过控制并发数量 + 错误处理 + 请求间隔,就能写出一个简单但稳定的并发爬虫。关键是不要贪快,尊重服务器承载能力。

相关专题

更多
js获取数组长度的方法
js获取数组长度的方法

在js中,可以利用array对象的length属性来获取数组长度,该属性可设置或返回数组中元素的数目,只需要使用“array.length”语句即可返回表示数组对象的元素个数的数值,也就是长度值。php中文网还提供JavaScript数组的相关下载、相关课程等内容,供大家免费下载使用。

558

2023.06.20

js刷新当前页面
js刷新当前页面

js刷新当前页面的方法:1、reload方法,该方法强迫浏览器刷新当前页面,语法为“location.reload([bForceGet]) ”;2、replace方法,该方法通过指定URL替换当前缓存在历史里(客户端)的项目,因此当使用replace方法之后,不能通过“前进”和“后退”来访问已经被替换的URL,语法为“location.replace(URL) ”。php中文网为大家带来了js刷新当前页面的相关知识、以及相关文章等内容

416

2023.07.04

js四舍五入
js四舍五入

js四舍五入的方法:1、tofixed方法,可把 Number 四舍五入为指定小数位数的数字;2、round() 方法,可把一个数字舍入为最接近的整数。php中文网为大家带来了js四舍五入的相关知识、以及相关文章等内容

756

2023.07.04

js删除节点的方法
js删除节点的方法

js删除节点的方法有:1、removeChild()方法,用于从父节点中移除指定的子节点,它需要两个参数,第一个参数是要删除的子节点,第二个参数是父节点;2、parentNode.removeChild()方法,可以直接通过父节点调用来删除子节点;3、remove()方法,可以直接删除节点,而无需指定父节点;4、innerHTML属性,用于删除节点的内容。

479

2023.09.01

JavaScript转义字符
JavaScript转义字符

JavaScript中的转义字符是反斜杠和引号,可以在字符串中表示特殊字符或改变字符的含义。本专题为大家提供转义字符相关的文章、下载、课程内容,供大家免费下载体验。

514

2023.09.04

js生成随机数的方法
js生成随机数的方法

js生成随机数的方法有:1、使用random函数生成0-1之间的随机数;2、使用random函数和特定范围来生成随机整数;3、使用random函数和round函数生成0-99之间的随机整数;4、使用random函数和其他函数生成更复杂的随机数;5、使用random函数和其他函数生成范围内的随机小数;6、使用random函数和其他函数生成范围内的随机整数或小数。

1091

2023.09.04

如何启用JavaScript
如何启用JavaScript

JavaScript启用方法有内联脚本、内部脚本、外部脚本和异步加载。详细介绍:1、内联脚本是将JavaScript代码直接嵌入到HTML标签中;2、内部脚本是将JavaScript代码放置在HTML文件的`<script>`标签中;3、外部脚本是将JavaScript代码放置在一个独立的文件;4、外部脚本是将JavaScript代码放置在一个独立的文件。

659

2023.09.12

Js中Symbol类详解
Js中Symbol类详解

javascript中的Symbol数据类型是一种基本数据类型,用于表示独一无二的值。Symbol的特点:1、独一无二,每个Symbol值都是唯一的,不会与其他任何值相等;2、不可变性,Symbol值一旦创建,就不能修改或者重新赋值;3、隐藏性,Symbol值不会被隐式转换为其他类型;4、无法枚举,Symbol值作为对象的属性名时,默认是不可枚举的。

554

2023.09.20

c++ 根号
c++ 根号

本专题整合了c++根号相关教程,阅读专题下面的文章了解更多详细内容。

25

2026.01.23

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号