PDFMiner يعمل عن طريق أخذ أول محتوى ملف PDF وتحويلها إلى تنسيق أكثر ليونة مثل HTML.
من هناك، يتم استخراج النصوص والبيانات وتحليلها، ويستند إلى قواعد محددة سلفا فصل وعرضها على المستخدم أو إرسالها إلى أخرى أكثر قوة أدوات تحليل البيانات.
إذا تحليل النص ليس ما كنت تنوي القيام به، يمكنك بسهولة تكوين PDFMiner لاستخراج ببساطة أو مجرد تحويل البيانات PDF كذلك.
يمكن ظائفها تعمل بشكل منفصل عن بعضها البعض والسماح طائفة استخدام أوسع بفضل ذلك
الميزات:.
100٪ كود بايثون، لا C أو C ++
ملفات PDF تحليل
تحليل ملفات PDF
تحويل ملفات PDF إلى صيغ أخرى
الجريمة المنظمة العابرة للمستخرج
الحصول على محتوى الموسومة فقط
الدعم لعدد كبير من الميزات PDF النص
الدعم لعدد كبير من أنواع الخط داخل ملفات PDF
التشفير الأساسية (RC4) دعم
ما هو الجديد في هذا الإصدار: تتم إزالة طريقة
PDFDocument.initialize () و لم تعد هناك حاجة. ويرد كلمة كحجة من منشئ PDFDocument.
ما هو الجديد في النسخة 20110515:
التغييرات API.
تم تغيير اسمها من الدرجة LTPolygon كما LTCurve.
ما هو الجديد في النسخة 20110227:
إصلاح الأخطاء والتحسينات تحليل تخطيط.
ما هو الجديد في النسخة 20101226:
وقبل بضعة بوجفيكسيس وتحسينات طفيفة.
ما هو الجديد في النسخة 20101017:
وقبل بضعة بوجفيكسيس وتحسن طفيف.
ما هو الجديد في النسخة 20100424:
إصلاح الأخطاء والتحسينات صغيرة على استخراج TOC.
المتطلبات:
بيثون 2.4 إلى 3
القيود:
PDFMiner يمكن أن يكون 20 مرات أبطأ من C / C ++ - البرامج القائمة.
لم يتم العثور على التعليقات