python爬取豆瓣电影名称与评分进行分析
日期: 2019-11-04 分类: 个人收藏 332次阅读
通过使用python进行豆瓣网上的数据爬取,进行分析,得到电影名称与评分。可直接运行。
import time
import os
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from selenium import webdriver
from selenium.common.exceptions import NoSuchElementException
import datetime
## 爬取剧集列表,并输出成为excel表格
driver = webdriver.Chrome(executable_path = "D:\\work\\python\\chromedriver.exe")
driver.maximize_window()
#driver.close()
driver.switch_to_window(driver.window_handles[0])
url = 'https://movie.douban.com/tag/#/?sort=U&range=2,10&tags=%E7%94%B5%E5%BD%B1,2010%E5%B9%B4%E4%BB%A3,%E4%B8%AD%E5%9B%BD%E5%A4%A7%E9%99%86'
js='window.open("'+url+'")'
driver.execute_script(js)
driver.close()
driver.switch_to_window(driver.window_handles[0])
'''测试
i_pag = 0
while i_pag < 3:
try:
js="var q=document.documentElement.scrollTop=10000000"
driver.execute_script(js)
driver.find_element_by_class_name('more').click()
time.sleep(2)
i_pag = i_pag + 1
except:
break
'''
while True:
try:
js="var q=document.documentElement.scrollTop=10000000"
driver.execute_script(js)
driver.find_element_by_class_name('more').click()
time.sleep(2)
except:
break
name = [k.text for k in driver.find_elements_by_class_name('title')]
score = [k.text for k in driver.find_elements_by_class_name('rate')]
url = [k.get_attribute('href') for k in driver.find_elements_by_class_name('item')]
pd.DataFrame({'name':name,'score':score,'url':url}).to_excel('电影名称.xlsx')
仅用于学习使用!
除特别声明,本站所有文章均为原创,如需转载请以超级链接形式注明出处:SmartCat's Blog
标签:技术 python 豆瓣
下一篇: kali之beef的使用
精华推荐