机器学习-数据库

apitamma1980

New member
嗨,我有一个定制的网页爬虫,可以获取公司的数据。问题是,有重复数据,缺失电子邮件或不相关的领域。请问有没有人知道,这部分工作原本会外包给人力,现在是否可以由机器完成? 如果可以,您推荐哪个平台?
 
你完成后是否会将所有数据导出到CSV中?你考虑过正则表达式吗?你的抓取器是用什么语言编写的?Python?
 
换句话说,机器人没有做它应该做的事情。比如,不保存重复的内容,进行电子邮件验证等等...这是制作机器人时非常普遍的任务。
 
顶部