小弟想做一个自动转发网站新闻的微博机器人作为python练手项目。
我知道需要api对接、需要爬取网站的新闻链接和标题。
但是如何只提取最新的新闻呢?
以下是按照我的要求过滤后,输出所有新闻的代码:
bar = soup.find_all('li', attrs={'data-label': True})
news = len(bar)
for i in range(news):
if u'巴塞罗那' in bar[i]['data-label'].split(','):
print bar[i]
我想提取过滤后列表里的第一条:print bar .
但提取后会反复显示len(bar)次,而且跳过过滤规则,请问如何解决?
Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号
你是在爬取直播吧吧
可以设置一个变量lasttime记录上次爬取的时间
新闻网页不都有时间字段么?
你的目的是想提取最新的新闻并且其中要包含你设置的关键字吧!!其实最简单你可以设置time.sleep(60),一分钟后再重新抓取网页数据,不就可以得到最新的新闻了吗?还有你的问题信息量太少,