0

0

Linux 怎么写爬虫?最简单 Shell 版抓网页示例

冷炫風刃

冷炫風刃

发布时间:2025-12-04 17:13:07

|

1025人浏览过

|

来源于php中文网

原创

linux下shell爬虫用curl+grep/sed/awk实现轻量抓取,适合简单页面快照与定时采集,不支持复杂逻辑或登录交互,但高效无依赖。

linux 怎么写爬虫?最简单 shell 版抓网页示例

Linux 下用 Shell 写爬虫,本质是用命令行工具抓取网页内容并提取信息,不适合复杂逻辑或登录交互,但对简单页面快照、定时采集标题/链接等场景非常轻量高效。

基础工具:curl + grep / sed / awk

这是最简组合,不依赖 Python 或 Node.js,开箱即用:

  • curl 负责发 HTTP 请求,获取 HTML 源码
  • grep 快速匹配关键词(如 title、href)
  • sed / awk 做简单清洗,比如去标签、截取字段

一行命令抓网页标题(最简示例)

执行以下命令,就能取出目标网页的 <title></title> 文本:

curl -s https://example.com | grep -oP '

\K[^

说明:
- -s 静默模式,不显示进度
- -oP 启用 Perl 正则,\K 表示丢弃前面匹配部分
- sed 去首尾空格,更干净

抓多个链接并去重保存

提取所有 <a href="..."></a> 中的 URL,并过滤掉站外链接和空值:

INFINITE ALBUM
INFINITE ALBUM

面向游戏玩家的生成式AI音乐

下载

curl -s https://example.com | grep -oP 'href="\K[^"]+' | grep '^/' | sort -u > links.txt

说明:
- 先用 grep -oP 提取引号内 href 值
- grep '^/' 只保留相对路径(以 / 开头),跳过 http:// 或 # 开头的
- sort -u 去重并排序,结果存入文件

加点健壮性:检查状态码 & 限时

避免因网络问题卡住或拿到错误页:

curl -s --max-time 10 --head -I https://example.com 2>/dev/null | head -n 1 | grep "200" >/dev/null && curl -s https://example.com | grep -oP '

\K[^

说明:
- --max-time 10 最多等 10 秒
- --head -I 先发 HEAD 请求查状态码
- 成功才继续抓正文,否则输出提示

基本上就这些。Shell 爬虫不是万能的,但够用、快、无依赖,适合运维脚本、监控告警、日志快照等轻量场景。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
c语言中null和NULL的区别
c语言中null和NULL的区别

c语言中null和NULL的区别是:null是C语言中的一个宏定义,通常用来表示一个空指针,可以用于初始化指针变量,或者在条件语句中判断指针是否为空;NULL是C语言中的一个预定义常量,通常用来表示一个空值,用于表示一个空的指针、空的指针数组或者空的结构体指针。

252

2023.09.22

java中null的用法
java中null的用法

在Java中,null表示一个引用类型的变量不指向任何对象。可以将null赋值给任何引用类型的变量,包括类、接口、数组、字符串等。想了解更多null的相关内容,可以阅读本专题下面的文章。

1049

2024.03.01

sort排序函数用法
sort排序函数用法

sort排序函数的用法:1、对列表进行排序,默认情况下,sort函数按升序排序,因此最终输出的结果是按从小到大的顺序排列的;2、对元组进行排序,默认情况下,sort函数按元素的大小进行排序,因此最终输出的结果是按从小到大的顺序排列的;3、对字典进行排序,由于字典是无序的,因此排序后的结果仍然是原来的字典,使用一个lambda表达式作为key参数的值,用于指定排序的依据。

409

2023.09.04

curl_exec
curl_exec

curl_exec函数是PHP cURL函数列表中的一种,它的功能是执行一个cURL会话。给大家总结了一下php curl_exec函数的一些用法实例,这个函数应该在初始化一个cURL会话并且全部的选项都被设置后被调用。他的返回值成功时返回TRUE, 或者在失败时返回FALSE。

454

2023.06.14

linux常见下载安装工具
linux常见下载安装工具

linux常见下载安装工具有APT、YUM、DNF、Snapcraft、Flatpak、AppImage、Wget、Curl等。想了解更多linux常见下载安装工具相关内容,可以阅读本专题下面的文章。

183

2023.10.30

js正则表达式
js正则表达式

php中文网为大家提供各种js正则表达式语法大全以及各种js正则表达式使用的方法,还有更多js正则表达式的相关文章、相关下载、相关课程,供大家免费下载体验。

530

2023.06.20

js获取当前时间
js获取当前时间

JS全称JavaScript,是一种具有函数优先的轻量级,解释型或即时编译型的编程语言;它是一种属于网络的高级脚本语言,主要用于Web,常用来为网页添加各式各样的动态功能。js怎么获取当前时间呢?php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

554

2023.07.28

js 字符串转数组
js 字符串转数组

js字符串转数组的方法:1、使用“split()”方法;2、使用“Array.from()”方法;3、使用for循环遍历;4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容,供大家免费下载体验。

738

2023.08.03

JavaScript浏览器渲染机制与前端性能优化实践
JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开,系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理,以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例,帮助开发者理解浏览器底层工作原理,并掌握提升网页加载速度与交互体验的实用技巧。

23

2026.03.06

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
PostgreSQL 教程
PostgreSQL 教程

共48课时 | 10.3万人学习

Git 教程
Git 教程

共21课时 | 4.1万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号