对Beautifulsoup和selenium用法的简单介绍

来源：飒榕旅游知识分享网

这个爬虫会批量下载XKCD漫画网的图片，可以指定下载的页面数。

import osimport requestsfrom bs4 import BeautifulSoup# exist_ok=True，若文件夹已经存在也不会报错os.makedirs('xkcd')
url = 'https://xkcd.com/'headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) ' 'Chrome/57.0.2987.98 Safari/537.36'}def save_img(img_url, limit=1):
 r = requests.get(img_url, headers=headers)
 soup = BeautifulSoup(r.text, 'lxml')try:
 img = 'https:' + soup.find('div', id='comic').img.get('src')except AttributeError:print('Image Not Found')else:print('Downloading', img)
 response = requests.get(img, headers=headers)with open(os.path.join('xkcd', os.path.basename(img)), 'wb') as f:for chunk in response.iter_content(chunk_size=1024*1024):
 f.write(chunk)# 每次下载一张图片，就减1limit -= 1# 找到上一张图片的网址if limit > 0:try:
 prev = 'https://xkcd.com' + soup.find('a', rel='prev').get('href')except AttributeError:print('Link Not Exist')else:
 save_img(prev, limit)if __name__ == '__main__':
 save_img(url, limit=20)print('Done!')

Downloading 
Downloading 
Downloading 
Downloading 
Downloading 
Downloading 
Downloading 
Downloading 
Downloading 
...
Done!

多线程下载

单线程的速度有点慢，比如可以使用多线程，由于我们在获取prev的时候，知道了每个网页的网址是很有规律的。它像这样。只是最后的数字不一样，所以我们可以很方便地使用range来遍历。

import osimport threadingimport requestsfrom bs4 import BeautifulSoup

os.makedirs('xkcd')

headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) ' 'Chrome/57.0.2987.98 Safari/537.36'}def download_imgs(start, end):for url_num in range(start, end):
 img_url = 'https://xkcd.com/' + str(url_num)
 r = requests.get(img_url, headers=headers)
 soup = BeautifulSoup(r.text, 'lxml')try:
 img = 'https:' + soup.find('div', id='comic').img.get('src')except AttributeError:print('Image Not Found')else:print('Downloading', img)
 response = requests.get(img, headers=headers)with open(os.path.join('xkcd', os.path.basename(img)), 'wb') as f:for chunk in response.iter_content(chunk_size=1024 * 1024):
 f.write(chunk)if __name__ == '__main__':# 下载从1到30，每个线程下载10个threads = []for i in range(1, 30, 10):
 thread_obj = threading.Thread(target=download_imgs, args=(i, i + 10))
 threads.append(thread_obj)
 thread_obj.start()# 阻塞，等待线程执行结束都会等待for thread in threads:
 thread.join()# 所有线程下载完毕，才打印print('Done!')

来看下结果吧。

初步了解selenium

selenium用来作自动化测试。使用前需要下载驱动，我只下载了Firefox和Chrome的。网上随便一搜就能下载到了。接下来将下载下来的文件其复制到将安装目录下，比如Firefox，将对应的驱动程序放到C:Program Files (x86)Mozilla Firefox,并将这个路径添加到环境变量中，同理Chrome的驱动程序放到C:Program Files (x86)GoogleChromeApplication并将该路径添加到环境变量。最后重启IDE开始使用吧。

模拟百度搜索

下面这个例子会打开Chrome浏览器，访问百度首页，模拟输入The Zen of Python，随后点击百度一下，当然也可以用回车代替。Keys下是一些不能用字符串表示的键，比如方向键、Tab、Enter、Esc、F1~F12、Backspace等。然后等待3秒，页面跳转到知乎首页，接着返回到百度，最后退出（关闭）浏览器。

from selenium import webdriverfrom selenium.webdriver.common.keys import Keysimport time

browser = webdriver.Chrome()# Chrome打开百度首页browser.get('https://www.baidu.com/')# 找到输入区域input_area = browser.find_element_by_id('kw')# 区域内填写内容input_area.send_keys('The Zen of Python')# 找到"百度一下"search = browser.find_element_by_id('su')# 点击search.click()# 或者按下回车# input_area.send_keys('The Zen of Python', Keys.ENTER)time.sleep(3)
browser.get('https://www.zhihu.com/')
time.sleep(2)# 返回到百度搜索browser.back()
time.sleep(2)# 退出浏览器browser.quit()

send_keys模拟输入内容。可以使用element的clear()方法清空输入。一些其他模拟点击浏览器按钮的方法如下

browser.back() # 返回按钮browser.forward() # 前进按钮browser.refresh() # 刷新按钮browser.close() # 关闭当前窗口browser.quit() # 退出浏览器

查找方法

以下列举常用的查找Element的方法。

方法名	返回的WebElement
find_element_by_id(id)	匹配id属性值的元素
find_element_by_name(name)	匹配name属性值的元素
find_element_by_class_name(name)	匹配CSS的class值的元素
find_element_by_tag_name(tag)	匹配标签名的元素，如div
find_element_by_css_selector(selector)	匹配CSS选择器
find_element_by_xpath(xpath)	匹配xpath
find_element_by_link_text(text)	完全匹配提供的text的a标签
find_element_by_partial_link_text(text)	提供的text可以是a标签中文本中的一部分

登录CSDN

以下代码可以模拟输入账号密码，点击登录。整个过程还是很快的。

browser = webdriver.Chrome()
browser.get('https://passport.csdn.net/account/login')
browser.find_element_by_id('username').send_keys('haiyu19931121@163.com')
browser.find_element_by_id('password').send_keys('**********')
browser.find_element_by_class_name('logging').click()

以上差不多都是API的罗列，其中有自己的理解，也有照搬官方文档的。

by @sunhaiyu

2017.7.13