大规模抓取LinkedIn公共数据的技巧?

terefame1982

New member
“有人有爬取LinkedIn公共个人资料的技巧吗?我可以从Google获得所有的资料页面URL,但LinkedIn身份验证壁垒非常快,即使使用100%纯净的住宅IP也无法避免。此外,我可以自动打败机器人验证,但它似乎很难触发,并且只会给我身份验证壁垒。到目前为止,我已经尝试从搜索引擎缓存中获取资料,但它们都标记为不允许归档;伪装成Google机器人用户代理和Google爬虫IP发送到转发标头,以及轮流使用用户代理/cookies等等。我想最好的方法是制作数百个个人资料并使用一些轮换的4G代理,在登录状态下进行爬取。所以...有人有任何关于爬取LinkedIn的技巧吗?”
 

malataderg1977

New member
authwall 并不是为了防止抓取而存在的。这是 LinkedIn 的正常行为,当想要通过 SERP 或直接链接访问账户时,它们也会向人类用户展示 authwall。
 

keyraguna1975

New member
正如上面提到的那样,即使对于跟随直接链接等的普通 LinkedIn 用户,authwall 也是相当典型的。有趣的是,我想知道 LinkedIn 是否会发送一个用于追踪个人资料浏览次数的 cookie,或者是从服务器端进行追踪。据我所知,清除缓存实际上并不会影响它。
 
可以查看专门为LinkedIn设计的浏览器附加组件,逆向这些附加组件的API或使用机器人。可以使用聪明的搜索引擎搜素工具,更好的是寻找已经聚合的数据资源,而不是直接爬取LinkedIn。
 
顶部