来自 威尼斯国际官方网站 2019-09-19 08:12 的文章
当前位置: 威尼斯国际官方网站 > 威尼斯国际官方网站 > 正文

威尼斯国际官方网站python爬虫之基本知识,pyth

POST方式:

python爬虫基本知识,python爬虫知识

爬虫简要介绍

      依照百度宏观定义:网络爬虫(又被称作网页蜘蛛,互连网机器人,在FOAF社区中间,更平时的可以称作网页追逐者),是一种根据一定的条条框框,自动地抓取万维网音讯的次序依旧脚本。别的一些有时使用的名字还会有蚂蚁、自动索引、模拟程序或许蠕虫。     

乘势大数额的处处开垦进取,爬虫那么些能力日趋进入大家的视界,能够说爬虫是大数量出现的产物,至少小编撤消了大数目才打听到爬虫这一手艺

乘机数据的雅量拉长,我们须要在互联英特网摘取所要求的数据举办本人商讨的剖释和尝试。那就用到了爬虫这一技能,下边就跟着作者一齐初遇python爬虫!

一、请求-响应

在利用python语言完成爬虫时,首要行使了urllib和urllib2七个库。首先用一段代码表明如下:

 import urllib
 import urllib2
 url="http://www.baidu.com"
 request=urllib2.Request(url)
 response=urllib2.urlopen(request)
 print response.read()

咱俩清楚二个网页正是以html为骨架,js为肌肉,css为衣裳所组成的。上述代码所完毕的效用正是把百度网页的源码爬取到地方。

里头,url为要爬取的网页的网站;request发出央浼,response是经受哀告后交由的响应。最后用read()函数输出的正是百度网页的源码。

二、GET-POST

二者都以向网页传递数据,最根本的分别是GET格局是直接以链接格局寻访,链接中满含了具有的参数,当然假使带有了密码的话是一种不安全的挑三拣四,然而你能够直观地看来自个儿付出了怎么内容。

POST则不会在网站上出示全数的参数,然则只要你想直接查看提交了怎么样就不太低价了,大家能够衡量选取。

POST方式:

 import urllib
 import urllib2
 values={'username':'[email protected]','Password':'XXXX'}
 data=urllib.urlencode(values)
 url='https://passport.csdn.net/account/login?from=http://my.csdn.net/my/mycsdn'
 request=urllib2.Request(url,data)
 response=urllib2.urlopen(request)
 print response.read()

GET方式:

import urllib
import urllib2
values={'username':'[email protected]','Password':'XXXX'}
data=urllib.urlencode(values)
url = "http://passport.csdn.net/account/login"
geturl = url + "?"+data
request=urllib2.Request(geturl)
response=urllib2.urlopen(request)
print response.read()

三、至极管理

拍卖特别时,用到了try-except语句。

import urllib2
 try:
   response=urllib2.urlopen("http://www.xxx.com")
 except urllib2.URLError,e:
   print e.reason

总结

上述所述是小编给大家介绍的python爬虫基本知识,希望对我们持有帮忙,假如我们有别的疑问请给自家留言,小编会及时还原大家的。在此也极度谢谢大家对帮客之家网址的支持!

爬虫简单介绍依据百度完善定义:互连网爬虫(又被称呼网页蜘蛛,互连网机器人,在FOAF社区中间,更常常的称...

三、非凡管理

POST则不会在网站上显得全部的参数,然而要是你想直接查看提交了什么样就不太方便了,我们能够研商选择。

1 import urllib2
2 
3 try:
4     response=urllib2.urlopen("http://www.xxx.com")
5 except urllib2.URLError,e:
6     print e.reason

里头,url为要爬取的网页的网站;request发出央求,response是承受恳求后交付的响应。最终用read()函数输出的便是百度网页的源码。

import urllib
import urllib2
values={'username':'2680559065@qq.com','Password':'XXXX'}
data=urllib.urlencode(values)
url = "http://passport.csdn.net/account/login"
geturl = url + "?"+data
request=urllib2.Request(geturl)
response=urllib2.urlopen(request)
print response.read()
1 import urllib
2 import urllib2
3 values={'username':'2680559065@qq.com','Password':'XXXX'}
4 data=urllib.urlencode(values)
5 url='https://passport.csdn.net/account/login?from=http://my.csdn.net/my/mycsdn'
6 request=urllib2.Request(url,data)
7 response=urllib2.urlopen(request)
8 print response.read()
1 import urllib
2 import urllib2
3 
4 url="http://www.baidu.com"
5 request=urllib2.Request(url)
6 response=urllib2.urlopen(request)
7 print response.read()

一、请求-响应

本文由威尼斯国际官方网站发布于威尼斯国际官方网站,转载请注明出处:威尼斯国际官方网站python爬虫之基本知识,pyth

关键词: