如何从电子书或PDF中提取文本？

liatothale1974 · 2023-02-10

嗨，伙计们，我一直是个长期潜水者，但最近我创建了一个网站，有一个看似简单的问题需要问。有没有一种方法可以从电子书或PDF中抓取或提取文本？我想要能够定位一个确切的关键字或关键词。这需要一些类型的Python脚本，还是已经有可用的东西？谢谢！

iltitheco1989 · 2023-02-10

你是对的，使用Python... PyPDF2模块应该能胜任...这里是一个样例代码：import PyPDF2fhandle = open(r'D:examplepdf.pdf', 'rb')pdfReader = PyPDF2.PdfFileReader(fhandle)pagehandle = pdfReader.getPage(0)print(pagehandle.extractText())

clantalrickges1972 · 2023-02-10

如果你想从电子书或PDF文件中精确提取文本，那么许多网站/平台都可以做到。但如果你想提取指定的单词/文本，那么应该使用工具/Python。

cisurrara1982 · 2023-02-10

导入PyPDF2fhandle = open(r'D:examplepdf.pdf', 'rb')pdfReader = PyPDF2.PdfFileReader(fhandle)pagehandle = pdfReader.getPage(0)print(pagehandle.extractText())我刚刚收藏了，感谢分享，兄弟。这会对我很有帮助。

seitogtela1978 · 2023-02-10

导入PyPDF2fhandle = open(r'D:examplepdf.pdf', 'rb')pdfReader = PyPDF2.PdfFileReader(fhandle)pagehandle = pdfReader.getPage(0)print(pagehandle.extractText())我会试试这个，谢谢！

pracveborzea1980 · 2023-02-10

您可以将PDF转换为其他形式，如DOC，然后从DOC文件中复制粘贴您想要的文本。

如何从电子书或PDF中提取文本？

liatothale1974

New member

iltitheco1989

New member

clantalrickges1972

New member

cisurrara1982

New member

seitogtela1978

New member

pracveborzea1980

New member