[Python] - 你如何解析Facebook新闻源中的赞助帖子?

dantilemos1970

New member
大家好 o/我正在尝试使用 Python 和 Selenium 技术,并且目前正试图找到赞助帖子,但是...我无法想出如何解析出来。我一直在考虑在 html 源代码中搜索 "Sponsored" 字符串,但似乎这不是最好的方法。有人有更好(有用的)方法吗?祝大家2017年新年快乐。
 

dtalasbunna1971

New member
感谢@pasdoy的回复,我已经用Selenium编写了一些小脚本,可以滚动几次,以便在Facebook新闻推送中加载更多帖子(包括赞助帖子),并使用BeautifulSoup获取了ahref链接,但目前我无法检测是否存在“赞助帖子”,猜想我还将继续尝试。
 

azapahan1989

New member
很高兴你找到了解决方法。使用xpath可以获取帖子列表,并在每个帖子上过滤,如果SPONSORED的xpath不存在,就可以过滤掉。我很好奇这是否可行。要在元素对象中操作,可以使用obj.xpath('./ div'),其中“./”表示从树中的此元素搜索。
 
我今天会试试,然后告诉你效果如何。如果成功获取了我想要的信息,我会为你点一支求财香的,兄弟。
 
你只需知道如何识别这些赞助帖子。了解它们共有的特点。如果你不能用BeautifulSoup方法获取它们,可以尝试使用正则表达式。当然,如果你有正确的表达式,它们一定能获取到帖子。
 

launubedu1977

New member
看看它里面是否有特定标识的一些文本,然后使用XPath获取整个框,如果您发现其中一些文本仅在“赞助帖”框中,请使用“acenstor”关键字通过XPath获取它。
 
顶部