用Python实现一款永久免费的PDF编辑工具-益强资讯全景

系统运维: 用Python实现一款永久免费的PDF编辑工具
时间：2010-12-5 17:23:32  作者：应用开发   来源：域名  查看：  评论：0
内容摘要：前言：PDFPortable Document Format），中文名称便携文档格式是我们经常会接触到的一种文件格式，文献、文档...很多都是PDF格式。它以格式稳定的优势，使得我们在打印、分享、传输
前言：
PDF（Portable Document Format），用P永久中文名称便携文档格式是现款我们经常会接触到的一种文件格式，文献、免费文档...很多都是编辑PDF格式。它以格式稳定的工具优势，使得我们在打印、用P永久分享、现款传输过程中能够最优的免费保持原有色彩和格式。
曾经，用P永久为了替换PDF中的现款一页，我几乎试遍了所有市面上主流的免费PDF工具，最终还是编辑不得不选择使用付费工具来解决问题。
事后想了想，工具既然这些商业化软件不靠谱，为什么不考虑自己动手开发一款工具呢？明明几十行代码能够解决的问题，为什么要费那么多劲去下载、安装那些没有节操的软件呢？
本文就来介绍一下利用Python轻松开发一款PDF编辑工具，可以用于PDF转TxT、分割、云南idc服务商合并、剪切、转换。
有请主角登场 PyPDF2 和 pdfminer3k
PyPDF2
简介：由纯 Python 构建的PDF 工具包。它能够：
提取文档信息（标题、作者等）一页拆分文档按页合并文档裁剪页面将多个页面合并到单个页面中加密和解密 PDF 文件
安装
直接使用pip安装
pip install PyPDF2
代码操作
简单的读写PDF操作 from PyPDF2 import PdfFileReader, PdfFileWriter infn = infn.pdf outfn = outfn.pdf # 获取一个 PdfFileReader 对象 pdf_input = PdfFileReader(open(infn, rb)) # 获取PDF 的基本信息 information =pdf_input.getDocumentInfo() print(information) # 获取 PDF 的页数 page_count = pdf_input.getNumPages() print(page_count) # 返回一个 PageObject page = pdf_input.getPage(i) # 获取一个 PdfFileWriter 对象 pdf_output = PdfFileWriter() # 将一个 PageObject 加入到 PdfFileWriter 中 pdf_output.addPage(page) # 输出到文件中 pdf_output.write(open(outfn, wb)) 删除PDF页from PyPDF2 import PdfFileWriter,  PdfFileReader # 实例化一个输出的PDF实例 output = PdfFileWriter() #  读取一个PDF文件 input1 = PdfFileReader(open("example.pdf", "rb"))  # 要删除的操作 def delete_pdf(index):             pages = input1.getNumPages()  # 循环删除      for i in range(pages):       if i+1 in index:        continue       output.addPage(input1.getPage(i))       outputStream = open("PyPDF2-output.pdf", "wb")      output.write(outputStream)   delete_pdf([2,3,4]) 合并PDFfrom PyPDF2 import PdfFileWriter, PdfFileReader output = PdfFileWriter() input1 = PdfFileReader(open("example.pdf", "rb")) input2 = PdfFileReader(open("simple2.pdf", "rb")) // 1 def merge_pdf(add_index, origin_index):          pages = input1.getNumPages()          k = 0          for i in range(pages):           if i+1 in add_index:                output.addPage(input2.getPage(origin_index[k])) // 2                pages += 1                k += 1               output.addPage(input1.getPage(i))          outputStream = open("PyPDF2-output.pdf", "wb")          output.write(outputStream) merge_pdf([2,3,4], [0, 0, 0]) 旋转 # 旋转90度 input1.getPage(1).rotateClockwise(90) 添加水印 page = input1.getPage(3) watermark = PdfFileReader(open("watermark.pdf", "rb")) page.mergePage(watermark.getPage(0)) 加密 password = "secret" output.encrypt(password) 解密 print(output.decrypt(secret))# secret==正确口令显示1，其他显示0 page_obj= output.getPage(0)# 这样才能正确读取 print(page_obj.extractText())
pdfminer3k
简介
pdfminer3k 是一个 Python 3 端口的 pdfminer 。PDFMiner 是一个从 PDF 文档中提取信息的工具。与其他与 PDF 相关的工具不同，它完全侧重于获取和分析文本数据。PDFMiner 允许获取页面中文本的确切位置，以及其他信息，如字体或线条。它包括一个 PDF 转换器，可以将 PDF 文件转换为其他文本格式（如 HTML）。它有一个可扩展的服务器租用PDF解析器，可用于其他目的，而不是文本分析
能够准确获取文本的位置和布局信息；可以将PDF转换为HTML/XML等格式；可以提取目录；可以提取标签内容；支持各种字体类型（Type1、TrueType、Type3和CID）; 支持中、日、韩语言和垂直书写文本; 安装 pip install pdfminer3k 文件的操作 from urllib.request import urlopen from pdfminer.converter import PDFPageAggregator from pdfminer.layout import LAParams from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter from pdfminer.pdfparser import PDFParser, PDFDocument logging.Logger.propagate = False logging.getLogger().setLevel(logging.ERROR) fp = open(template/pdftest.pdf, rb) # 在线 # fp = urlopen(http://---/---.pdf) # 创建一个与文档关联的解析器 parser = PDFParser(fp) # PDF文档对象 doc = PDFDocument() #创建pdf文档对象，存储文档结构 document = PDFDocument(parser, password) # 链接解析器和文档对象 parser.set_document(doc) doc.set_parser(parser) # 初始化文档 doc.initialize("") # 创建DPF资源管理器 resource = PDFResourceManager() # 参数分析器 laparam = LAParams() # 聚合器 device = PDFPageAggregator(resource, laparams=laparam) # 创建页面解析器 interpreter = PDFPageInterpreter(resource, device) # 使用文档对象从pdf中读取内容 for page in doc.get_pages():     # 使用页面解析器     interpreter.process_page(page)     # 使用聚合器获取内容     layout = device.get_result()     for text_obj in layout:         # 判断是否有get_text属性         if hasattr(text_obj, get_text):             print(text_obj.get_text()) # 处理包含在文档中的每一页 for page in PDFPage.create_pages(document):           interpreter.process_page(page)           layout = device.get_result()           for x in layout:               # 获取文本对象               if isinstance(x, LTTextBox):                   print(x.get_text().strip())               # 获取图片对象               if isinstance(x,LTImage):                   print(这里获取到一张图片)               # 获取 figure 对象               if isinstance(x,LTFigure):                   print(这里获取到一个 figure 对象)
详细的操作可参考官网：https://github.com/canserhat77/pdfminer3k
总结
通过上述2款Python库，就可以实现从页面到文本元数据的编辑，本文只是简单的介绍了每项的基本用法。关于详细的用法和函数列表，可以阅读官方文档，或者阅读GitHub上项目源码进行了解。

最后提醒我们，域名到期后要及时更新域名，否则可能会丢掉域名，每次抢先注册都不会成功。

最近更新

2025-10-04 00:26:38
付款完成后，您只需耐心等待，如果您注册成功，系统会提示您。这里需要注意的是，域名是一个即时产品，只有在最终付款成功时才能预订，注册成功后不能更改。
2025-10-04 00:26:38
浅析五个流行的 JavaScript IDE
2025-10-04 00:26:38
开源项目“删库跑路”！作者不讲武德，还是另有隐情
2025-10-04 00:26:38
为什么很多企业会选择升级域名？
2025-10-04 00:26:38
tk域名是什么域名？新手对tk域名有什么看法？
2025-10-04 00:26:38
net域名值钱吗？
2025-10-04 00:26:38
企业信息化大集中化建设应重回分布式单元架构
2025-10-04 00:26:38
教你如何免费注册域名？

热门排行

2025-10-04 00:26:38
最后提醒我们，域名到期后要及时更新域名，否则可能会丢掉域名，每次抢先注册都不会成功。
2025-10-04 00:26:38
Oracle在表中有数据的情况下修改字段类型或长度的解决方法
2025-10-04 00:26:38
域名的注册与查询是什么意思？
2025-10-04 00:26:38
域名抢注是一口价吗？
2025-10-04 00:26:38
第五步：重复第四步,直到找到正确的纪录。
2025-10-04 00:26:38
项目适 Oracle改造及SSL安全性配置问题汇总详解
2025-10-04 00:26:38
Mariadb远程登陆配置及问题解决
2025-10-04 00:26:38
Oracle 11g+windows 环境下Ecology7系统安装过程

友情链接

用Python实现一款永久免费的PDF编辑工具

PyPDF2

安装

代码操作

pdfminer3k

总结