来自 技术 2019-03-16 00:00 的文章

(转载)分享一个很“水”的Python代码分析

原文:Github最近在Github上看见一段详细的代码分析,感觉挺有用,大家可以参考一下,也可以学习学习。

#_*_编码:UTF-8_*_“””xianhu的python_spider.py“””导入请求importurllib.errorimporturllib.parseimporturllib.request导入http.cookiejar

第一段

#首先定义下边可能需要的变量url=“https://www.baidu.com”headers={“User-Agent”:“Mozilla/4.0(兼容;MSIE5.5;WindowsNT)”}#最简单的网页抓取方式response=urllib.request.urlopen(url,timeout=10)html=response.read()。decode(“utf-8”)#使用请求实例代替网址request=urllib.request.Request(url,data=None,headers={})response=urllib.request.urlopen(request,timeout=10)

看个人资料,有Python资料

第二段

#发送数据,即在请求()中添加数据参数data=urllib.parse.urlencode({“act”:“login”,“email”:“xianhu@qq.com”,“password”:“123456”})request1=urllib.request.Request(URL,数据=数据)#POST方法请求2=urllib.request.Request(URL+“?%S”%数据)#GET方法response=urllib.request.urlopen(request,timeout=10)#发送报头,即在请求()中添加报头参数request=urllib.request.Request(url,data=data,headers=headers)#参数中添加header参数request.add_header(“Referer”,“http://www.baidu.com”)#另一种添加header的方式,添加Referer是为了应对“反盗链”response=urllib.request.urlopen(request,timeout=10)

第三段

#网页抓取引发异常:urllib.error.HTTPError,urllib.error.URLError,两者存在继承关系尝试:urllib.request.urlopen(request,timeout=10)除了urllib.error.HTTPError为e:打印(e.code,e.reason)除了urllib.error.URLError为e:打印(e.errno,e.reason)#使用代理,以防止IP被封或IP次数受限:proxy_handler=urllib.request.ProxyHandler(proxies={“http”:“111.123.76.12:8080”})opener=urllib.request.build_opener(proxy_handler)#利用代理创建opener实例响应=opener.open(URL)#直接利用开启器实例打开URLurllib.request.install_opener(opener)#安装全局opener,然后利用urlopen打开网址response=urllib.request.urlopen(url)

第四段

#使用饼干和cookiejar,应对服务器检查cookie_jar=http.cookiejar.CookieJar()cookie_jar_handler=urllib.request.HTTPCookieProcessor(cookiejar=cookie_jar)opener=urllib.request.build_opener(cookie_jar_handler)response=opener.open(url)#发送在浏览器中获取的饼干,两种方式:#(1)直接放到headers里headers={“User-Agent”:“Mozilla/4.0(兼容;MSIE5.5;WindowsNT)”,“Cookie”:“PHPSESSID=btqkg9amjrtoeev8coq0m78396;USERINFO=n6nxTHTY%2BJA39z6CpNB4eKN8f0KsYLjAQTwPe%2BhLHLruEbjaeh4ulhWAS5RysUM%2B;”}request=urllib.request.Request(url,headers=headers)#(2)构建cookie,添加到cookiejar中cookie=http.cookiejar.Cookie(name=“xx”,value=“xx”,domain=“xx”,...)cookie_jar.set_cookie(饼干)response=opener.open(url)

#同时使用代理和cookiejaropener=urllib.request.build_opener(cookie_jar_handler)opener.add_handler(proxy_handler)response=opener.open(“https://www.baidu.com/”)#抓取网页中的图片:同样适用于抓取网络上的文件右击鼠标,找到图片属性中的地址,然后进行保存。response=urllib.request.urlopen(“http://ww3.sinaimg.cn/large/7d742c99tw1ee7dac2766j204q04qmxq.jpg”,超时=120)使用open(“test.jpg”,“wb”)作为file_img:file_img.write(response.read())#HTTP认证:即HTTP身份验证password_mgr=urllib.request.HTTPPasswordMgrWithDefaultRealm()#创建一个PasswordMgrpassword_mgr.add_password(realm=None,uri=url,user='username',passwd='password')#添加用户名和密码handler=urllib.request.HTTPBasicAuthHandler(password_mgr)#创建HTTPBasicAuthHandleropener=urllib.request.build_opener(handler)#创建opnerresponse=opener.open(url,timeout=10)#获取数据#使用套接字代理进口袜子导入套接字socks.setdefaultproxy(socks.PROXY_TYPE_SOCKS5,“127.0.0.1”,1080)socket.socket=socks.socksocketrequests.get(“http://www.baidu.com/s?ie=utf-8&wd=ip”)