现在网站大多用Javascript动态生成一些内容,用浏览器打开可以看到渲染好的页面,用鼠标可以选择复制。而用浏览器保存时,却只能保存下带Javascript源码的内容,将解析后的内容保存下来。不知道能否保存解析后的,在浏览器显示的最终样式呢?
已经尝试用Firefox的保存,保存为单个网页,保存为文本都无法找到由Javascript控制生成的内容。
比如:我打开Bing词典,里面的的英英解释是由Javascript生成的,在浏览器中当然可以选择我想要的内容;而用Firefox保存之后,则找不到由Javascript生成的内容。
下面是由Firefox保存为文本文件的结果:
权威英汉双解
英汉
英英
网络释义
有没有办法保存整个已经被浏览器解析之后的网页呢?
听说使用爬虫时可以用selenium,phantomjs之类的库进行解析,但是自己的需求没有这么麻烦,感觉一两个网页用不着。而手工复制的话又太笨了。有没有一个半自动化的方法呢?
比如说,用Python控制IE打开一个网页,然后保存下已经解析的内容,再对保存下的内容进行分析。
Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号
F12->选中element->右键html标签->copy as html
不知道这样满不满足你的需求。
调试工具里面可以保存内存中当前dom树的,这个就是你需要的结果了