stocksnap 一个不错的图片网站的图片抓取--selenium 右键保存和直接写入2个模式【python】

参考:原文1

参考:原文2

1、原文1采用了scrapy方法,本文改编用selenium方法,并参考原文2首次采用模拟右键来保存图片。

2、网站分析:

首先发现鼠标拖动到图片底部区域,主页又不断加载新的图片,可判断是异步的。另单独查看2个图的xpath,发现总体格式一致,编号部分有差异:

/html/body/div[4]/div[3]/div[2]/div/div[1]/a/img

/html/body/div[4]/div[3]/div[2]/div/div[11]/a/img

这样我们就得到了在firefox下统一的xpath为,注意是删除div[i]部分,留下2个斜杠:

/html/body/div[4]/div[3]/div[2]/div//a/img

此时,可能觉得为啥要删除,而不是用正则式.*代替?测试那样的结果是Nan,也就是说xpath的格式和re格式不能混搭。

而每个jpg地址在src属性中,所以如果想查阅批量的图片地址,则:

/html/body/div[4]/div[3]/div[2]/div//a/img/@src

3、既然这么爽的得到了图片地址,剩下就是批量下载保存了:

这一次,先测试了用firefox模拟人工右键保存的方法,代码如下,保存那块还没整明白,也就是自动到出现图片保存的界面,根本原因是selenium无法操作操作系统级的对话框:

索性快速人工点保存,30个图的保存位置都是重复的,依次得到30个图:

4、随机打开一个图,如下,可见测试ok:

5、代码:

# -*- coding: utf-8 -*-
# python 3.5.2
# Author:vansnowpea
# stocksnap 一个不错的图片网站的图片,右键保存抓取

from selenium import webdriver
from selenium.webdriver.common.action_chains import ActionChains
from selenium.webdriver.common.keys import Keys


print('Please wait...Firefox loading...')
print('---------------------------------')


url = "https://stocksnap.io/"

# 用浏览器实现访问
driver = webdriver.Firefox()
driver.maximize_window()
driver.get(url)

# 得到总的jpgs的路径集合
xpath = "/html/body/div[4]/div[3]/div[2]/div//a/img"

# set profile
fp = webdriver.FirefoxProfile()
fp.set_preference('browser.download.folderList', 2)
fp.set_preference('browser.download.manager.showWhenStarting', False)
fp.set_preference('browser.download.dir', './yourfolder/')
fp.set_preference('browser.helperApps.neverAsk.saveToDisk', 'image/jpeg')



# 保存图片,人工批量点保存,selenium无法操作操作系统级的对话框
for element in driver.find_elements_by_xpath(xpath):
    img_url = element.get_attribute('src')
    img_desc = element.get_attribute('data-desc')

    action = ActionChains(driver).move_to_element(element)
    action.context_click(element)
    action.send_keys(Keys.ARROW_DOWN)
    action.send_keys('v')
    action.perform()

print('Well done! all pictures downloaded.')
print('---------------------------------')

# driver.close()

6、如果图片数量少,人工保存下也无妨,但数量大肯定不行,所以还是用常规的自动写入数据保存的方式。另外此网站是通过ajax异步加载,当鼠标放到首页30个图的下方,也就是浏览器底部区域,他又会自动加载新的图片出来。而通过新的第一层代码的模拟鼠标下移,可以得到更多的图片。千万要注意的是,在python 3中,对数dict的关键词查找是in,比如:if n in previous:而在python 2 中是has_key,比如:if previous.has_key(n):对应代码为:

# python 3.5.2
from selenium import webdriver  
import time  
import urllib


# 爬取页面地址  
url = "https://stocksnap.io/"

# 目标元素的xpath  
xpath = "/html/body/div[4]/div[3]/div[2]/div//a/img"

# 启动Firefox浏览器  
driver = webdriver.Firefox()  

# 最大化窗口,因为每一次爬取只能看到视窗内的图片  
driver.maximize_window()  

# 记录下载过的图片地址,避免重复下载  
img_url_dic = {}  

# 浏览器打开爬取页面  
driver.get(url)  

# 模拟滚动窗口以浏览下载更多图片  
pos = 0  
m = 0 # 图片编号  
for i in range(10):  
    pos += i*500 # 每次下滚500  
    js = "document.documentElement.scrollTop=%d" % pos  
    driver.execute_script(js)  
    time.sleep(1)     

    for element in driver.find_elements_by_xpath(xpath):  
        img_url = element.get_attribute('src')  
        # 保存图片到指定路径  
        if img_url != None and not img_url in img_url_dic:

            img_url_dic[img_url] = ''  
            m += 1  
            ext = img_url.split('.')[-1]  
            filename = str(m) + '.' + ext  
            #保存图片数据  
            data = urllib.request.urlopen(img_url).read()
            f = open('./van/' + filename, 'wb')
            f.write(data)  
            f.close()  
driver.close()  

7、结果展示:相对第一个方法,获取了更多的图片: