пятница, 24 ноября 2017 г.

Парсинг PDF файлов на python

Список популярных пакетов для работы с PDF документами из Python


pdfminer - Отличная библиотека для работы с pdf. 
Для работы с python 3.x лучше использовать форки: pdfminer3k и pdfminer.six 
(В последнем, есть также консольная утилита для работы с форматом pdf)
Популярность:  2479 звезд, 738 форков на GitHub

PyPDF2 - Популярный форк старой библиотеки pyPDF. Умеет разделять pdf по отдельным документам, объединять документы в один, получать текст и мета информацию.
Совместим с Python 2.6, 2.7, и 3.2 - 3.5. 
Популярность: 1612 звезд, 444 форка на GitHub

pdfquery - Обертка вокруг библиотеки pdfminer, используя  язык запросов JQuery и XPath позволяет быстро получить информацию из PDF документа. 
Последнее обновление библиотеки 16 июля 2017.  
Совместима с Python 3.x. 
Популярность: 300 звезд, 38 форков на GitHub

pdfrw - Простая библиотека для python, может читать и записывать pdf файл, работать с мета-информацией, объединять документы, переворачивать, и т.д. 
Последнее обновление библиотеки 17 сентября 2017. 
Поддерживаются версии Python 2.6, 2.7, 3.3, 3.4, 3.5, and 3.6
Популярность: 440 звезд, 105 форков на GitHub

slate - Этот пакет позволяет легко получить текст из pdf документа. 
Последнее обновление пакета: 26 марта 2017 года. 
С работой на python 3.x имеются проблемы. 
Популярность: 231 звезды, 92 форкa на GitHub

reportlab - Мощная библиотека для создания pdf документов (текст и графика). 
Кроме open-source пакета имеется и коммерческая версия ReportLab Plus. 
Совместима с python 2.7 или 3.3 и выше.
Популярность:  84 форка на bitbucket 

fdfgen - Библиотека для Python, портированная с php (forge_fdf). 
Возможности: создание документов, объединение. 
Совместима с python 3.x
Популярность:  113 звезд, 25 форков на GitHub

Вспомогательные утилиты

Pdftk - Консольная утилита  и GUI приложение для работы с pdf. 
Возможности: объединение, разделение документов, извлечение текста.

qpdf - Консольная утилита написанная на С++ для работы с  pdf быстро.
Основные возможности: создание, объединение, разделение, шифрование, получение мета информации.

ghostscript - Конвертер файлов в PostScript формате в графические файлы или PDF. 

Комментариев нет:

Отправить комментарий