扫码关注官方订阅号
RT,想通过JS抓取远端的HTML页面并解析页面(能分别解析tag最好,不能的话正则吧)获取内容 不是node.js就是本地的javascript(或者jquery) 想知道这种想法能实现么?
认证0级讲师
网页上的js本身没法完成,还是得服务端加个代理。
其实最大的限制就是其他人都提到的跨域问题。
跨域问题只能通过代理来解决,比如你写一个Server,专门写一个暴露给JS调用的接口用于抓取页面。
对于JS解析HTML的情况,答题思路两种:
1、真的做解析。这一块的库肯定有人已经写好了。建议直接到Github上搜索下. 2、讲抓取到的网页内容潜入到dom中,让浏览器帮你渲染好。然后你可以用JQ等方式简单地去获取你要的节点内容。
注意如果是第二点,你需要注意的是: 1、过滤掉内容中的script等标签,避免脚本执行 2、直接放在内存中渲染,不用append到页面,避免对你自己页面的影响。
微信扫码关注PHP中文网服务号
QQ扫码加入技术交流群
Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号
PHP学习
技术支持
返回顶部
网页上的js本身没法完成,还是得服务端加个代理。
其实最大的限制就是其他人都提到的跨域问题。
跨域问题只能通过代理来解决,比如你写一个Server,专门写一个暴露给JS调用的接口用于抓取页面。
对于JS解析HTML的情况,答题思路两种:
1、真的做解析。这一块的库肯定有人已经写好了。建议直接到Github上搜索下.
2、讲抓取到的网页内容潜入到dom中,让浏览器帮你渲染好。然后你可以用JQ等方式简单地去获取你要的节点内容。
注意如果是第二点,你需要注意的是:
1、过滤掉内容中的script等标签,避免脚本执行
2、直接放在内存中渲染,不用append到页面,避免对你自己页面的影响。