最近在爬免费代理IP的时候遇到了这样一个IP:61.135.217.7
第一次发现这个IP有问题的时候是在用代理爬网易云音乐评论的时候,虽然成功返回了response,但是在解析json的时候抛异常,明显内容不匹配。导出HTML之后发现是有道词典首页。
0

由于这个IP存在的时间特别长,所以一开始以为网易将这个IP列入了黑名单,一访问就重定向到有道词典首页之类的。
我在Chrome访问了一下这个IP之后,发现直接就跳转到了有道词典首页。也就是说,无论我给这个服务器发什么请求,它都会返回有道词典首页。
因为请求被重定向到一个可用的网站,可能是xicidaili对这些免费IP并没有进行进一步的验证,只验证了response 200,导致这个实际上无用的IP一直混在代理IP里面。
目前想到的解决办法是验证IP可用的时候,判断response中url是否与check函数请求的url相同。如果不相同,说明该IP不是实际上可用的IP,以此再进行进一步的处理。

--