本日想做一个微博爬个人页面的东西,满足一些不可告人的隐秘。那末起首就要做那件必做之事!模仿上岸……
我对代码进行了优化,重构成了Python 3.6 版本,而且加入了大批解释轻易大家进修。
PC 登录新浪微博时, 在客户端用js预先对用户名、暗码都进行了加密, 而且在POST之前会GET 一组参数,这也将作为POST_DATA 的一部分。 如许, 就不能用一般的那种简朴要领来模仿POST 登录( 比方 大家网 )。
1、在提交POST要求之前, 须要GET 猎取两个参数。
地点是:
http://login.sina.com.cn/sso/login.php?client=ssologin.js(v1.3.18)
获得的数据中有 servertime 和 nonce 的值, 是随机的,其他值貌似没什么用。
def get_servertime(): url = 'http://login.sina.com.cn/sso/prelogin.php?entry=weibo&callback=sinaSSOController.preloginCallBack&su=dW5kZWZpbmVk&client=ssologin.js(v1.3.18)&_=1329806375939' # 返回出来的是一个Response对象,没法直接猎取,text后,可以经由过程正则匹配到 # 也许长如许子的:sinaSSOController.preloginCallBack({"retcode":0,"servertime":1545606770, ...}) data = requests.request('GET', url).text p = re.compile('\((.*)\)') try: json_data = p.search(data).group(1) data = json.loads(json_data) servertime = str(data['servertime']) nonce = data['nonce'] return servertime, nonce except: print('猎取 severtime 失利!') return None
2、经由过程httpfox 视察POST 的数据, 参数较庞杂,个中 “su" 是加密后的username, sp 是加密后的password。servertime 和 nonce 是上一步获得的。其他参数是稳定的。
username 经过了BASE64 盘算:
username = base64.encodestring( urllib.quote(username) )[:-1]
password 经过了三次SHA1 加密, 且个中加入了 servertime 和 nonce 的值来滋扰。
即: 两次SHA1加密后, 将效果加上 servertime 和 nonce 的值, 再SHA1 算一次。
def get_pwd(pwd, servertime, nonce): # 第一次盘算,注重Python3 的加密须要encode,运用bytes pwd1 = hashlib.sha1(pwd.encode()).hexdigest() # 运用pwd1的效果在盘算第二次 pwd2 = hashlib.sha1(pwd1.encode()).hexdigest() # 运用第二次的效果再加上之前盘算好的servertime和nonce值,hash一次 pwd3_ = pwd2 + servertime + nonce pwd3 = hashlib.sha1(pwd3_.encode()).hexdigest() return pwd3 def get_user(username): # 将@标记转换成url中可以辨认的字符 _username = urllib.request.quote(username) # Python3中的base64盘算也是要字节 # base64出来后,末了有一个换行符,所以用了切片去了末了一个字符 username = base64.encodebytes(_username.encode())[:-1] return username
3、将参数构造好, POST要求。 这以后还没有登录胜利。
POST后获得的内容中包括一句:
location.replace("http://weibo.com/ajaxlogin.php?framelogin=1&callback=parent.sinaSSOController.feedBackUrlCallBack&retcode=101&reason=%B5%C7%C2%BC%C3%FB%BB%F2%C3%DC%C2%EB%B4%ED%CE%F3")
这是登录失利时的效果, 登录胜利后效果与之相似, 不过retcode 的值是0 。
接下来再要求这个URL,如许就胜利登录到微博了。
记得要提早build 缓存。
以上就是Python模仿微博上岸的要领引见(附代码)的细致内容,更多请关注ki4网别的相干文章!