如何从电子书或PDF中提取文本?

liatothale1974

New member
嗨,伙计们,我一直是个长期潜水者,但最近我创建了一个网站,有一个看似简单的问题需要问。有没有一种方法可以从电子书或PDF中抓取或提取文本?我想要能够定位一个确切的关键字或关键词。这需要一些类型的Python脚本,还是已经有可用的东西?谢谢!
 

iltitheco1989

New member
你是对的,使用Python... PyPDF2模块应该能胜任...这里是一个样例代码:import PyPDF2fhandle = open(r'D:examplepdf.pdf', 'rb')pdfReader = PyPDF2.PdfFileReader(fhandle)pagehandle = pdfReader.getPage(0)print(pagehandle.extractText())
 
如果你想从电子书或PDF文件中精确提取文本,那么许多网站/平台都可以做到。但如果你想提取指定的单词/文本,那么应该使用工具/Python。
 

cisurrara1982

New member
导入PyPDF2fhandle = open(r'D:examplepdf.pdf', 'rb')pdfReader = PyPDF2.PdfFileReader(fhandle)pagehandle = pdfReader.getPage(0)print(pagehandle.extractText())我刚刚收藏了,感谢分享,兄弟。这会对我很有帮助。
 

seitogtela1978

New member
导入PyPDF2fhandle = open(r'D:examplepdf.pdf', 'rb')pdfReader = PyPDF2.PdfFileReader(fhandle)pagehandle = pdfReader.getPage(0)print(pagehandle.extractText())我会试试这个,谢谢!
 
顶部