Парсинг PDF файлов на python
Список популярных пакетов для работы с PDF документами из Python
pdfminer - Отличная библиотека для работы с pdf.
Для работы с python 3.x лучше использовать форки: pdfminer3k и pdfminer.six
(В последнем, есть также консольная утилита для работы с форматом pdf)
Популярность: 2479 звезд, 738 форков на GitHub
PyPDF2 - Популярный форк старой библиотеки pyPDF. Умеет разделять pdf по отдельным документам, объединять документы в один, получать текст и мета информацию.
Совместим с Python 2.6, 2.7, и 3.2 - 3.5.
Популярность: 1612 звезд, 444 форка на GitHub
pdfquery - Обертка вокруг библиотеки pdfminer, используя язык запросов JQuery и XPath позволяет быстро получить информацию из PDF документа.
Последнее обновление библиотеки 16 июля 2017.
Совместима с Python 3.x.
Популярность: 300 звезд, 38 форков на GitHub
pdfrw - Простая библиотека для python, может читать и записывать pdf файл, работать с мета-информацией, объединять документы, переворачивать, и т.д.
Последнее обновление библиотеки 17 сентября 2017.
Поддерживаются версии Python 2.6, 2.7, 3.3, 3.4, 3.5, and 3.6
Популярность: 440 звезд, 105 форков на GitHub
slate - Этот пакет позволяет легко получить текст из pdf документа.
Последнее обновление пакета: 26 марта 2017 года.
С работой на python 3.x имеются проблемы.
Популярность: 231 звезды, 92 форкa на GitHub
reportlab - Мощная библиотека для создания pdf документов (текст и графика).
Кроме open-source пакета имеется и коммерческая версия ReportLab Plus.
Совместима с python 2.7 или 3.3 и выше.
Популярность: 84 форка на bitbucket
fdfgen - Библиотека для Python, портированная с php (forge_fdf).
Возможности: создание документов, объединение.
Совместима с python 3.x
Популярность: 113 звезд, 25 форков на GitHub
Вспомогательные утилиты
Pdftk - Консольная утилита и GUI приложение для работы с pdf.
Возможности: объединение, разделение документов, извлечение текста.
qpdf - Консольная утилита написанная на С++ для работы с pdf быстро.
Основные возможности: создание, объединение, разделение, шифрование, получение мета информации.
ghostscript - Конвертер файлов в PostScript формате в графические файлы или PDF.
Комментариев нет:
Отправить комментарий