Using Django with GAE Python 后台抓取多个网站的页面全文

php中文网

发布时间：2016-06-10 15:06:02

1292人浏览过

来源于php中文网

原创

一直想做个能帮我过滤出优质文章和博客的平台给它取了个名叫Moven。。把实现它的过程分成了三个阶段：
1. Downloader: 对于指定的url的下载并把获得的内容传递给Analyser－－这是最简单的开始
2. Analyser: 对于接受到的内容，用Regular Expression 或是 XPath 或是 BeautifulSoup/lxml 进行过滤和简化－－这部分也不是太难
3. Smart Crawler：去抓取优质文章的链接－－这部分是最难的：

Crawler的话可以在Scrapy Framework的基础上快速的搭建
但是判断一个链接下的文章是不是优质需要一个很复杂的算法

最近就先从downloader 和 analyser 开始：最近搭了一个l2z story 并且还有一个 z life 和 z life@sina 还有一个她的博客做为一个对downloader 和 analyser的练习我就写了这个东西来监听以上四个站点并且把它们的内容都同步到这个站上：

http://l2zstory.appspot.com

App 的特色
这个站上除了最上面的黑色导航条和最右边的About This Site 部分外，其他的内容都是从另外的站点上自动获得
原则上，可以添加任何博客或者网站地址到这个东西。。。当然因为这个是L2Z Story..所以只收录了四个站点在里面
特点是：只要站点的主人不停止更新，这个东西就会一直存在下去－－－这就是懒人的力量

值得一提的是， Content 菜单是在客户端用JavaScript 自动生成的－－这样就节约了服务器上的资源消耗

这里用的是html全页面抓取所以对那些feed没有全文输出的站点来说，这个app 可以去把它要隐藏的文字抓来
在加载的时候会花很多时间因为程序会自动到一个没有全文输出的页面上抓取所有的文章列表，作者信息，更新时间，以及文章全文。。所以打开的时候请耐心。。。下一步会加入数据存储部分，这样就会快了。。

技术准备

前端：

1. CSS 在信奉简单之上的原则上 twitter的bootstrap.css满足了我大多数的要求个人超喜欢它的 Grid System
2. Javascript上，当然选用了jQuery 自从我开始在我的第一个小项目上用了jQuery 后我就爱上了它那个动态的目录系统就是用jQuery快速生成的
为了配合bootstrap.css, bootstrap-dropdown.js 也用到了

服务器：

立即学习“Python免费学习笔记（深入）”；

这个app有两个版本：
一个跑在我的Apache上，但是因为我的网络是ADSL, 所以ip一直会变基本上只是我在我的所谓的局域网内自测用的。。这个版本是纯Django的
另一个跑在Google App Engine上地址是 http://l2zstory.appspot.com 在把Django 配置到GAE的时候我花了很多功夫才把框架搭起来

详情请见： Using Django with Google App Engine GAE: l2Z Story Setup-Step 1 http://blog.sina.com.cn/s/blog_6266e57b01011mjk.html

后台：

主要语言是Python--不解释，自从认识Python后就没有离开它

主要用到的module是

1. BeautifulSoup.py 用于html 的解析--不解释
2. feedparser.py 用于对feed xml的解析－－网上有很多人说GAE不支持feedparser..这里你们得到答案了。。可以。。这里我也是花了很久才弄明白到底是怎么回事。。总之简单讲就是：可以用！但是feedparser.py这个文件必须放到跟app.yaml同一个目录中不然会出现网上众人说的不可以import feedparser的情况

数据库：
Google Datastore: 在下一步中，这个程序会每隔30分钟醒来逐一查看各个站点有没有更新并抓取更新后的文章并存入Google 的Datastore中

App 的配置

遵循Google的规则，配置文件app.yaml 如下：
这里主要是定义了一些static directory－－css 和 javascript的所在地

叮当好记-AI音视频转图文

AI音视频转录与总结，内容学习效率 x10！

下载

复制代码代码如下:

application: l2zstory
version: 1
runtime: python
api_version: 1

handlers:

- url: /images
static_dir: l2zstory/templates/template2/images
- url: /css
static_dir: l2zstory/templates/template2/css
- url: /js
static_dir: l2zstory/templates/template2/js
- url: /js
static_dir: l2zstory/templates/template2/js
- url: /.*
script: main.py

URL的配置

这里采用的是Django 里的正则表达式

复制代码代码如下:

from django.conf.urls.defaults import *

# Uncomment the next two lines to enable the admin:
# from django.contrib import admin
# admin.autodiscover()

urlpatterns = patterns('',
# Example:
# (r'^l2zstory/', include('l2zstory.foo.urls')),

    # Uncomment the admin/doc line below and add 'django.contrib.admindocs'
    # to INSTALLED_APPS to enable admin documentation:
    # (r'^admin/doc/', include('django.contrib.admindocs.urls')),

    # Uncomment the next line to enable the admin:
    # (r'^admin/(.*)', admin.site.root),
    (r'^$','l2zstory.stories.views.L2ZStory'),
    (r'^YukiLife/','l2zstory.stories.views.YukiLife'),
     (r'^ZLife_Sina/','l2zstory.stories.views.ZLife_Sina'),
     (r'^ZLife/','l2zstory.stories.views.ZLife')
)

Views的细节

对Django比较熟悉的人应该会从url的配置中看到view的名字了我只把L2ZStory的这个view贴出来因为其他的在view里的架构至少是差不多的

复制代码代码如下:

#from BeautifulSoup import BeautifulSoup
from PyUtils import getAboutPage
from PyUtils import getPostInfos

def L2ZStory(request):
    url="feed://l2zstory.wordpress.com/feed/"
    about_url="http://l2zstory.wordpress.com/about/"
    blog_type="wordpress"
    htmlpages={}
    aboutContent=getAboutPage(about_url,blog_type)
    if aboutContent=="Not Found":
        aboutContent="We use this to tell those past stories..."
    htmlpages['about']={}
    htmlpages['about']['content']=aboutContent
    htmlpages['about']['title']="About This Story"
    htmlpages['about']['url']=about_url
    PostInfos=getPostInfos(url,blog_type,order_desc=True)
    return render_to_response('l2zstory.html',
{'PostInfos':PostInfos,
'htmlpages':htmlpages
})

这里主要是构建一个dictionary of dictionary htmlpages 和一个list of dictionary PostInfos
htmlpages 主要是存贮站点的 About, Contact US 之类的页面
PostInfos 会存贮所有文章的内容，作者，发布时间之类的

这里面最重要的是PyUtils。。这是这个app的核心

PyUtils的细节

我把一些我认为比较重要的细节加深了并加了评论

复制代码代码如下:

import feedparser
import urllib2
import re
from BeautifulSoup import BeautifulSoup
header={
'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10.7; rv:8.0.1) Gecko/20100101 Firefox/8.0.1',
}

＃用来欺骗网站的后台。。象新浪这类的网站对我们这类的app十分不友好。。。希望它们可以多象被墙掉的wordpress学一学。。

复制代码代码如下:

timeoutMsg="""
The Robot cannot connect to the desired page due to either of these reasons:
1. Great Fire Wall
2. The Blog Site has block connections made by Robots.
"""

def getPageContent(url,blog_type):
    try:
        req=urllib2.Request(url,None,header)
        response=urllib2.urlopen(req)
        html=response.read()
        html=BeautifulSoup(html).prettify()
        soup=BeautifulSoup(html)
        Content=""
        if blog_type=="wordpress":
            try:
                for Sharesection in soup.findAll('div',{'class':'sharedaddy sd-like-enabled sd-sharing-enabled'}):
                    Sharesection.extract()
                for item in soup.findAll('div',{'class':'post-content'}):
                    Content+=unicode(item)
            except:
                Content="No Post Content Found"
        elif blog_type=="sina":
            try:
                for item in soup.findAll('div',{'class':'articalContent '}):
                    Content+=unicode(item)
            except:
                Content="No Post Content Found"

＃对于不同的网站类型应用不同的过滤器

    except:
        Content=timeoutMsg
    return removeStyle(Content)

def removeStyle(Content):
    #add this to remove all the img tag : ( Using Django with GAE Python 后台抓取多个网站的页面全文 )|()|(src=\".*\")|
    patn=re.compile(r"(align=\".*\")|(id=\".*\")|(class=\"*\")|(style=\".*\")|()|()|()|()")
    replacepatn=""

    Content=re.sub(patn,replacepatn,Content)
    ＃运用正则表达式把抓取的内容中那些格式通通去掉这样得到的文字比较纯粹
    return Content

def getPostInfos(url,blog_type,order_desc=False):
    feeds=feedparser.parse(url)
    PostInfos=[]
    if order_desc:
        items=feeds.entries[::-1]
    else:
        items=feeds.entries
    Cnt=0
    for item in items:
        PostInfo={}
        PostInfo['title']=item.title
        PostInfo['author']=item.author
        PostInfo['date']=item.date
        PostInfo['link']=item.link

        if blog_type=="wordpress":
            Cnt+=1
            if Cnt                 PostInfo['description']=getPageContent(item.link,blog_type)
            else:
                PostInfo['description']=removeStyle(item.description)
        elif blog_type=="sina":
            PostInfo['description']=removeStyle(item.description)


        PostInfos.append(PostInfo)

    return PostInfos

template 的概览

在简单之上的原则的鼓舞下，所有的站点都统一使用一个template 这个template 只接受两个变量－－前文中提到的htmlpages 和 PostInfos
重要的片断是：

复制代码代码如下:

                         {%for item in PostInfos%}

author: {{item.author}} date: {{item.date}}

{%endfor%}

总结

一句话，我爱死Python了
两句话，我爱死Python了，我爱死Django了
三句话，我爱死Python了，我爱死Django了，我爱死jQuery了。。。

Python中嵌套字典赋值时的浅拷贝陷阱与正确解决方案

如何在 Chainlit 应用中设置断点进行本地调试

如何在 Python Socket 客户端/服务器架构中可靠传输图像

如何使用 Python Socket 在客户端与服务器间可靠传输图像

确保神经网络训练结果完全可复现（Deterministic）

python速学教程(入门到精通)

python怎么学习？python怎么入门？python在哪学？python怎么学才快？不用担心，这里为大家提供了python速学教程(入门到精通)，有需要的小伙伴保存下载就能学习啦！

下载

相关专题

chatgpt使用指南

本专题整合了chatgpt使用教程、新手使用说明等等相关内容，阅读专题下面的文章了解更多详细内容。

2026.03.16

chatgpt官网入口地址合集

本专题整合了chatgpt官网入口地址、使用教程等内容，阅读专题下面的文章了解更多详细内容。

2026.03.16

minimax入口地址汇总

本专题整合了minimax相关入口合集，阅读专题下面的文章了解更多详细地址。

2026.03.16

C++多线程并发控制与线程安全设计实践

本专题围绕 C++ 在高性能系统开发中的并发控制技术展开，系统讲解多线程编程模型与线程安全设计方法。内容包括互斥锁、读写锁、条件变量、原子操作以及线程池实现机制，同时结合实际案例分析并发竞争、死锁避免与性能优化策略。通过实践讲解，帮助开发者掌握构建稳定高效并发系统的关键技术。

2026.03.16

TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开，深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析，帮助开发者构建类型安全、结构清晰、易维护的前端工程体系，提高团队协作效率与代码质量。

114

2026.03.13

Python异步编程与Asyncio高并发应用实践

本专题围绕 Python 异步编程模型展开，深入讲解 Asyncio 框架的核心原理与应用实践。内容包括事件循环机制、协程任务调度、异步 IO 处理以及并发任务管理策略。通过构建高并发网络请求与异步数据处理案例，帮助开发者掌握 Python 在高并发场景中的高效开发方法，并提升系统资源利用率与整体运行性能。

141

2026.03.12

C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开，系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例，帮助开发者掌握构建高可用微服务系统的关键技术，提高系统的可扩展性与维护效率。

396

2026.03.11

Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开，系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示，帮助开发者构建稳定高效的 Go 并发任务处理系统，提高系统在高负载环境下的处理能力与稳定性。

2026.03.10

Kotlin Android模块化架构与组件化开发实践

本专题围绕 Kotlin 在 Android 应用开发中的架构实践展开，重点讲解模块化设计与组件化开发的实现思路。内容包括项目模块拆分策略、公共组件封装、依赖管理优化、路由通信机制以及大型项目的工程化管理方法。通过真实项目案例分析，帮助开发者构建结构清晰、易扩展且维护成本低的 Android 应用架构体系，提升团队协作效率与项目迭代速度。

111

2026.03.09

热门下载

网站特效

网站源码

网站素材

前端模板

Using Django with GAE Python 后台抓取多个网站的页面全文

{{htmlpages.about.title}}

{{item.title}}