我的第一只爬虫

寒假的时候学习了一下 Python 的爬虫,并将豆瓣电影排行榜爬取了下来

# -*- coding: utf-8 -*-
# @Author: Lily_Sun
# @Date:   2018-01-12 05:18:40
# @Last Modified by:   Lily_Sun
# @Last Modified time: 2018-01-12 05:18:40

import re
from urllib import request

cnt = 1
url = "https://movie.douban.com/chart"
req = request.Request(url)
with request.urlopen(req) as f:
data = f.read().decode('utf-8')
reg_name = r'<div class="name">[]<a .*?class="">[\n][" "]*.*[\n][" "]*(.*)'
list = (re.findall(reg_name,data))
print("rank"+"\t\t"+"name")
for x in list:
print(cnt,end="\t\t\t")
print(x)
cnt = cnt + 1

整个过程其实就是折腾正则表达式,以至于我现在都不知道为什么要加个[]。(然而实践告诉我就是要这样的。)

主要用来 urllib 和 re 模块。

先发送请求到网站,然后打开后以 utf-8 编码格式的提取内容,再用正则提取需要的信息,最后添加点样式,打表即可。