Pandas 是一个开放源码、BSD许可的库,为Python编程语言提供高性能、易于使用的数据结构和数据分析工具。把抓取到的数据存储到Pandas DataFrame中,可以进一步对数据进行分析,是一种常见做法。
本章例子,将从豆瓣网站上抓取北美电影排行榜,并放进DataFrame中。
抓取网页数据
豆瓣网站上的北美电影排行榜网址,北美电影排行榜在右下边栏。
import requests
from bs4 import BeautifulSoup
page = requests.get("https://movie.douban.com/chart")
soup = BeautifulSoup(page.content, 'html.parser')
titles_tags = soup.select("ul#listCont1 > li a")
titles = [(pt.get_text()).strip() for pt in titles_tags]
print(titles)
revenue_tags = soup.select("ul#listCont1 > li span")
revenues = [(pt.get_text()).strip() for pt in revenue_tags]
print(revenues)
输出
['速度与激情:特别行动', '在黑暗中讲述的恐怖故事', '狮子王', '爱探险的朵拉:消失的黄金城', '好莱坞往事', '我在雨中等你', '地狱厨房', '蜘蛛侠:英雄远征', '玩具总动员4', '带来灵魂:电影']
['2540万', '2080万', '2000万', '1700万', '1160万', '810万', '551万', '530万', '440万', '230万']
提取到Pandas DataFrame
调用DataFrame类构造方法,并传入每个项列表:
import pandas as pd
movie_rank = pd.DataFrame({
"title": titles,
"revenue": revenues
})
movie_rank
输出
title revenue
0 速度与激情:特别行动 2540万
1 在黑暗中讲述的恐怖故事 2080万
2 狮子王 2000万
3 爱探险的朵拉:消失的黄金城 1700万
4 好莱坞往事 1160万
5 我在雨中等你 810万
6 地狱厨房 551万
7 蜘蛛侠:英雄远征 530万
8 玩具总动员4 440万
9 带来灵魂:电影 230万
使用Pandas DataFrame就可以对数据进行进一步分析了,例如:
movie_rank.describe()
输出
title revenue
count 10 10
unique 10 10
top 狮子王 2540万
freq 1 1
关于Pandas,想进一步了解,可参考Pandas 教程