如何扒取这个网站:

是的,看起来电子邮件地址是通过表单隐藏的。我会先爬取每个供应商的url,然后爬取这些url,并尝试模式匹配电子邮件地址。除非每个供应商的网站设计非常统一,否则这可能是您的最佳选择。
 

smatutforri1989

New member
非常感谢!不幸的是,那个网站像一个目录,每个供应商都有自己独特的电子邮件地址。或者,我认为在这种情况下这将是最好的方式,并且很想听听你们的想法:抓取每个供应商的链接以获取他们的全名、联系信息和网站,然后,将该列表放在Microworkers上(我以前从未使用它们),让那些人谷歌供应商的名称或去他们的网站上检索他们的电子邮件地址,并将其粘贴到Gsheet或Excel中。对此有何想法?另外,请让我知道你们两个人是否有Microworkers的经验。
 
既然这是编程子论坛,这是我会编写的脚本:1)从专业领域搜索中抓取每个会员的URL。2)从这些URL中抓取名称、公司名称、电话和网站。数据遵循一定的结构,因此不需要太多努力。3)抓取每个网站的主页,并尝试定位电子邮件地址,通过正则表达式或其他模式匹配。每个成员的网站将有不同的设计,因此数据可能或可能不会轻松获得。您还可以抓取包含“联系”或类似内容的任何URL,以防他们也使用联系表单。4)将所有数据分组成数据库,并导出为csv或xlsx。我没有在microworkers上的经验,但是如果您在介绍自由职业者或要在此处购买的帖子中发布了主题,我相信您会找到可以帮助您完成这项任务的人。
 
顶部