python - 请教这个页面中的这两个信息能否不用无头浏览器爬取到?
巴扎黑
巴扎黑 2017-04-18 10:18:55
[Python讨论组]

在爬取"http://www.haodf.com/doctor/DE4r08xQdKSLBVM8i9sHYQ8uQGIO.htm"这个页面的时候, 发现"擅长"和"执业经历"这两个信息通过beautifulsoup是取不到的, 我选取这两个信息的代码如下:

soup.select('#full_DoctorSpecialize').get_text(strip=True)
soup.select('#full').get_text(strip=True)

查询页面发现这两个信息好像是通过JS查询的结果, 除了把网页全部正则表达式匹配的方法, 请教各位:
1, 这两个信息能否直接取到?
2, 除了类似"Selenium"这样的工具, 是否还有其他方式能够取到这两个信息?
3, 能否通过分析查询接口的方式解决?

谢谢

巴扎黑
巴扎黑

全部回复(2)
PHP中文网

可能这个页面,你要抓的这个数据,是页面加载后,使用js渲染出来的。也就是说,这个#full_DoctorSpecialize
里面的数据是ajax,从服务器上拿回来的。具体要如何拿这样的数据,你可以百度下 phantomjs ,你一定会 有收获 的。

怪我咯

这个就像楼上说的是js渲染的,内容在js代码里面,可以正则匹配js代码里面的元素,得到你想要的信息

热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号