来自 奥门威尼斯网址 2019-10-04 14:11 的文章
当前位置: 威尼斯国际官方网站 > 奥门威尼斯网址 > 正文

python爬虫入门

本来以为不妨可写的,因为网上那玩意一搜一大把,不过爬虫毕竟是python的一个大优点,不说说感到对不起这个人
基础点来讲,python2写爬虫珍视须要五个模块,urllib和urllib2,其实还会有re
先介绍下模块的部分常用成效
urllib.urlopen('') #开辟叁个网址,只是张开,和open大致
urllib2.Request(url) #分析网站,这些能够简简单单,具体不是很懂,一些意义,举个例子加head头什么的也必要动用那个
urllib.urlretrieve(url,filename) #下载用,把url提供的东西down下来,并用filename保存
举个蜂鸟爬图片的例子,上面上伪代码:

python爬虫_入门,python爬虫入门

奥门威尼斯网址 ,道理当然是那样的感到不要紧可写的,因为互连网这个家伙一搜一大把,可是爬虫终究是python的一个大亮点,不说说以为对不起那东西
基础点来讲,python2写爬虫重视必要四个模块,urllib和urllib2,其实还会有re
先介绍下模块的一些常用作用
urllib.urlopen('') #展开一个网址,只是打开,和open大概
urllib2.Request(url) #分析网站,这么些能够轻便,具体不是很懂,一些效应,举例加head头什么的也急需选拔那些
urllib.urlretrieve(url,filename) #下载用,把url提供的事物down下来,并用filename保存
举个蜂鸟爬图片的例证,上面上伪代码:

1、url解析
2、打开url
3、读取url,就是read()
4、使用re.findall找到所有和图片有关系的地址,这里只jpg
5、循环下载

奥门威尼斯网址 1

看图上,图片链接格式是src="
剖析以后前面包车型客车事就好办了,下边上代码

import urllib
import urllib2
import re

#处理地址,并获取页面全部的图片地址
def get_image_url(url):
  #url_format = urllib2.Request(url) #1
  url_open = urllib.urlopen(url) #2
  url_read = url_open.read() #3
  re_value = re.compile('(?<=src=").*?.jpg')
  image_url_list = re.findall(re_value,url_read) #4
  return image_url_list

#这个函数专门用来下载,前面两行是将图片连接中/前面的内容全部删除,留下后面的文件名用来保存文件的,try不说了,不清楚请翻回去看容错
def down_image(image_url):
  rev = '^.*/'
  file_name = re.sub(rev,'',image_url)
  try:
    urllib.urlretrieve(image_url,file_name)
  except:
    print 'download %s fail' %image_url
  else:
    print 'download %s successed' %image_url

if __name__ == '__main__':
  url = 'http://bbs.fengniao.com/forum/10384633.html'
  image_url_list = get_image_url(url)
  for image_url in image_url_list:
    down_image(image_url) #5

困死,睡觉去。。。。。有时光再说说翻页什么的,就能够爬网址了

 

本来以为没什么可写的,因为英特网那玩意儿一搜一大把,可是爬虫毕竟是python的几个大亮点,不说说感觉对不...

1、url解析
2、打开url
3、读取url,就是read()
4、使用re.findall找到所有和图片有关系的地址,这里只jpg
5、循环下载

奥门威尼斯网址 2

看图上,图片链接格式是src="
剖判之后前边的事就好办了,上边上代码

本文由威尼斯国际官方网站发布于奥门威尼斯网址,转载请注明出处:python爬虫入门

关键词: