博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
2019-03-20 Python爬取需要登录的有验证码的网站
阅读量:4633 次
发布时间:2019-06-09

本文共 479 字,大约阅读时间需要 1 分钟。

当你向验证码发起请求的时候,就有session了,记录下这次session 因为每当你请求一次验证码 或者 请求一次登录首页,验证码都在变动 验证码的链接可能不是固定的,可能需要GET/POST请求,获取那部分变动的信息
session = requests.session()html = session.post(captcha_post, headers)

 在第二次发起请求的时候,data里面带着你的账号 密码 验证码值 就可以了

rep = session.post(url, headers=headers, data=data, verify=False)

 至于验证码的识别

·· 如果不是定时爬取,先用PIL显示该图片,

   然后input手动输入该验证码值

from PIL import Imageim = Image.open('captcha.png')im.show()time.sleep(3)im.close()

 

转载于:https://www.cnblogs.com/theDataDigger/p/10565065.html

你可能感兴趣的文章
京华同学聚会
查看>>
JSP--JavaBean
查看>>
成功将BlogEngine 1.5 升级到了BlogEngine 2.0
查看>>
【shell】创建长目录,目录存在则忽略,缺失则创建
查看>>
个人随笔、收藏——(包括技术、设计思想等)
查看>>
第一段冲刺_个人总结_5.2
查看>>
Usage and Idioms——Categories
查看>>
一: 建立Vue sampleproject
查看>>
数据结构之shell排序
查看>>
CodeForces 375D Tree and Queries
查看>>
牛客~~打篮球~~~模拟水题
查看>>
LeetCode-198. 打家劫舍
查看>>
5 -- Hibernate的基本用法 --2 1 Hibernate 下载和安装
查看>>
Socket
查看>>
【C#公共帮助类】10年代码,最全的系统帮助类
查看>>
JQuery UI
查看>>
张弛有度
查看>>
【ZJOI2008】树的统计(树链剖分)
查看>>
【NOIP校内模拟】T2 华莱士(环套树)
查看>>
lists,tuples and sets of Python
查看>>