在使用Selenium+PhantomJS动态抓取网页时,出现如下报错信息:

UserWarning: Selenium support for PhantomJS has been deprecated, please use headless versions of Chrome or Firefox instead
​​​​​​warnings.warn('Selenium support for PhantomJS has been deprecated, please use headless')

这个提示的意思就是: selenium最新版本已经放弃PhantomJS,建议使用火狐或者谷歌无界面浏览器。

解决方案

降低Selenium版本

通过pip show selenium显示,默认安装版本为3.8.1。 
将其卸载pip uninstall selenium,重新安装并指定版本号 pip install selenium==2.48.0。 
再次运行,就不会提示这个信息了。

优化方案

使用Selenium+Chrome 或者 Selenium+Firefox 这里聊聊Selenium+Chrome的使用以及参数配置的情况

不带参数配置直接使用Selenium+Chrome比较简单:

from selenium import webdriver

# 启动浏览器
driver = webdriver.Chrome()
# 模拟请求
driver.get('http://www.baidu.com')

带参数配置:

from selenium import webdriver
from selenium.webdriver.chrome.options import Options

# 实例化一个启动参数对象
chrome_options = Options()
# 无界面运行(无窗口)
chrome_options.add_argument('--headless')
# 启动浏览器
driver = webdriver.Chrome(chrome_options=chrome_options)
# 请求百度首页
driver.get('http://www.baidu.com')

其中的 --headless 就是一个启动项参数
常用的启动项参数如下所示

启动参数 作用
--user-agent="" 设置请求头的User-Agent
--window-size=1366,768 设置浏览器分辨率(窗口大小)
--headless 无界面运行(无窗口)
--start-maximized 最大化运行(全屏窗口)
--incognito 隐身模式(无痕模式)
--disable-javascript 禁用javascript
--disable-infobars 禁用浏览器正在被自动化程序控制的提示

完整的启动参数可以查看(英文):https://peter.sh/experiments/chromium-command-line-switches/

这里比较实用的参数

    –user-data-dir=”[PATH]” 指定用户文件夹User Data路径,可以把书签这样的用户数据保存在系统分区以外的分区。 
  –disk-cache-dir=”[PATH]“ 指定缓存Cache路径 
  –disk-cache-size= 指定Cache大小,单位Byte 
  –first run 重置到初始状态,第一次运行 
  –incognito 隐身模式启动 
  –disable-javascript 禁用Javascript 
  –omnibox-popup-count=”num” 将地址栏弹出的提示菜单数量改为num个。我都改为15个了。 
  –user-agent=”xxxxxxxx” 修改HTTP请求头部的Agent字符串,可以通过about:version页面查看修改效果 
  –disable-plugins 禁止加载所有插件,可以增加速度。可以通过about:plugins页面查看效果 
  –disable-javascript 禁用JavaScript,如果觉得速度慢在加上这个 
  –disable-java 禁用java 
  –start-maximized 启动就最大化 
  –no-sandbox 取消沙盒模式 
  –single-process 单进程运行 
  –process-per-tab 每个标签使用单独进程 
  –process-per-site 每个站点使用单独进程 
  –in-process-plugins 插件不启用单独进程 
  –disable-popup-blocking 禁用弹出拦截 
  –disable-plugins 禁用插件 
  –disable-images 禁用图像 
  –incognito 启动进入隐身模式 
  –enable-udd-profiles 启用账户切换菜单 
  –proxy-pac-url 使用pac代理 [via 1/2] 
  –lang=zh-CN 设置语言为简体中文 
  –disk-cache-dir 自定义缓存目录 
  –disk-cache-size 自定义缓存最大值(单位byte) 
  –media-cache-size 自定义多媒体缓存最大值(单位byte) 
  –bookmark-menu 在工具 栏增加一个书签按钮 
  –enable-sync 启用书签同步 
  –single-process 单进程运行Google Chrome 
  –start-maximized 启动Google Chrome就最大化 
  –disable-java 禁止Java 
  –no-sandbox 非沙盒模式运行

可以模拟移动设备

优点: 移动版网站的反爬虫的能力比较弱

# 通过设置user-agent,用来模拟移动设备
# 比如模拟 android QQ浏览器
options.add_argument('user-agent="MQQBrowser/26 Mozilla/5.0 (Linux; U; Android 2.3.7; zh-cn; MB200 Build/GRJ22; CyanogenMod-7) AppleWebKit/533.1 (KHTML, like Gecko) Version/4.0 Mobile Safari/533.1"')

# 模拟iPhone 6
options.add_argument('user-agent="Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 like MAC OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B143 Safari/601.1"')

如果不需要爬取图片可以禁止图片的加载来加快爬取速度

禁止图片加载的参数配置

# 禁止图片的加载
from selenium import webdriver

chrome_options = webdriver.ChromeOptions()
prefs = {"profile.managed_default_content_settings.images": 2}
chrome_options.add_experimental_option("prefs", prefs)

# 启动浏览器,并设置好wait
browser = webdriver.Chrome(chrome_options=chrome_options)
browser.set_window_size(configure.windowHeight, configure.windowWidth) # 根据桌面分辨率来定,主要是为了抓到验证码的截屏
wait = WebDriverWait(browser, timeout = configure.timeoutMain)

有些网站的WebServer对User-Agent有限制,可能会拒绝不熟悉的User-Agent的访问,所以,写Web自动化代码可能需要将User-Agent稍微伪装一下,否则可能会被拒绝访问。这里简单记录一下Selenium中使用PhantomJS,设置User-Agent的方法。

添加代理

提示: selenium添加代理,这个地方需要注意的是在选择代理时,尽量选择静态IP,才能提升爬取的稳定性。因为选择selenium来做爬虫,说明网站的反爬能力比较高,对网页之间的连贯性,cookies,用户状态等有较高的监测。如果使用动态匿名IP,每个IP的存活时间是很短的(1~3分钟)总而言之去掉花里胡哨就行了

from selenium import webdriver

PROXY = "proxy_host:proxy:port" # IP代理
options = webdriver.ChromeOptions()
desired_capabilities = options.to_capabilities()
desired_capabilities['proxy'] = {
"httpProxy": PROXY,
"ftpProxy": PROXY,
"sslProxy": PROXY,
"noProxy": None,
"proxyType": "MANUAL",
"class": "org.openqa.selenium.Proxy",
"autodetect": False
}
driver = webdriver.Chrome(desired_capabilities = desired_capabilities)

Selenium添加浏览器扩展应用

selenium一般打开的是不带扩展的纯净的浏览器,但是有时候我们爬取数据时需要借助一些插件,比如解析类xpath helper。

Xpath Helper下载地址:http://download.csdn.net/download/gengliang123/9944202 

这个插件是一个 以 crx 为后缀的文件

将插件路径填入代码中

# 添加xpath helper应用

from selenium import webdriver
chrome_options = webdriver.ChromeOptions()

# 设置好应用扩展
extension_path = 'D:/extension/XPath-Helper_v2.0.2.crx'
chrome_options.add_extension(extension_path)

# 启动浏览器,并设置好wait
browser = webdriver.Chrome(chrome_options=chrome_options)

效果如下图: