最简单的 CAPTCHA 解决方案可整合到 SERP 爬虫中-Deathbycaptcha、2Captcha、Anti-Captcha 等?

intibibo1971

New member
对于ReCaptcha,它们基本上都使用相同的流程(发送验证码站点密钥,接收作业ID,每隔几秒钟检查一次作业ID,直到您获得结果,将结果发送到ReCaptcha服务器),因此您可能会选择最便宜的。我仍然对2captcha有好感,但我听说0captcha不错。
 

maucomlece1982

New member
有人知道成功使用验证码API后从单个IP上可以抓取多少谷歌吗?在特定的时间段内,你可以从同一个IP上抓取多少次,以避免再次出现验证码呢?例如,每分钟或每小时多少次,我不知道确切的时间跟踪范围是什么。此外,单个IP是否存在某些验证码解决限制,超过此限制,谷歌就不会给你验证码,而是直接阻止你?非常感谢。
 
这取决于你的IP地址,如果它们是干净的,那么在触发ReCAPTCHA检测之前,你可以抓取数百个结果。大多数人使用专门用于搜索引擎抓取 purposes的数据中心代理。因为选择使用静态专用专用代理不是一个好主意,因为你永远不知道什么时候会引起垃圾邮件检测机器的注意,并且它们快速地黑名单IP地址。
 
那么如果不是数据中心,你会推荐哪种代理呢?旋转?住宅?为了爬取SERP,需要为得到体面的代理付出多少钱?
 

rextpatsimo1981

New member
首先告诉我你计划爬取什么样的数据?如果是为了建立链接,联系表单提交等用途,那么最好购买来自像builtwith这样的服务的相关新鲜数据集我在这里看到了一个BST,它比花钱购买代理和处理代理封锁的头疼要便宜得多。
 
顶部