学习合法机器人制作的资源

嘿,伙计们,我对学习最佳网站爬取方法非常感兴趣。我知道那里有些老手们可能学到了一些东西,站在巨人的肩膀上总是好的。所以,我希望能够获取一些关于快速找到网站API的见解 - 提示、技巧,也许还有一些有趣的轶事。补充一下:我主要使用Python和Linux。干杯。
 
谢谢,伙计,Zennopoter手册还有用吗?我真的很好奇,因为它的版权是2011年。或者也许我拿错了。我看了Youtube上的一些东西,但似乎有点基础。我正在尝试找出节省时间的最佳实践,也许是创建机器人的机器人之类的想法,我一点头绪也没有。实际上,我很开放。
 

ismotopam1981

New member
感谢提供有关 Zennoposter 的信息。是的,我主要对使用 Python 感兴趣,因为我已经知道如何使用它。我只是从未将其用于网页采集和机器人,我主要将其用于数据工程方面的工作。
 

cuwillrelde1974

New member
你有这方面的任何例子吗?基本上,我正在尝试找出如何最好地应对使用URL路径中包含随机字符的网站,如何最好地检查它们的 HTML,哪些内容可能会感兴趣,哪些不会,等等。
 
比如,为了节省时间,我们需要知道在什么情况下使用 requests/httpx 、scrapy 和 selenium 更好。何时以及为什么选择,有哪些缺点——也许写一些每种工具的具体使用示例。
 
我的首选通常是puppeteer或selenium,但这实际上取决于不同的网站。我从未使用过预构建的抓取工具,所以可能有偏见。也许有时候使用现成的工具可能更快,但你最终会遇到它无法完成的任务。如果你需要编写一些高度优化的代码并且不要有太多额外的开销,那么http请求可能是你最好的选择,但这通常会比较复杂,并且很多网站都会阻止这种方式的请求,所以你需要了解头信息(可以看一下浏览器中的网络选项卡,你可以从那里提取任何请求以及其头信息,然后开始尝试删除头信息以了解哪些内容是必须的,并进一步了解UI是如何生成这些头信息的)。有时这也很容易。如果网站是由服务器端渲染的话,那么你只需要解析HTML就可以了,我认为这就是现成的抓取工具有用的地方...但是现在大部分的网站都是实时生成数据,所以这种方式不可行。在十次中有九次,你可以使用puppeteer / selenium做你需要的任何事情,并且还可以开发出需要的技能以应对不同的情况。至于编程语言,我个人偏爱c#,但也有javascript和python的版本可供使用。Chrome有一个很棒的dev工具,可以记录你的操作并导出到puppeteer中,这是一个很好的入门点,可以帮助你避免无休止地检查DOM。
 
顶部