وأباتشي تيكا هو مجموعة أدوات مفتوحة المصدر مصممة لاكتشاف واستخراج البيانات الوصفية، وكذلك محتوى النص منظم من عدة وثائق، وذلك باستخدام أي شيء ولكن القائمة المكتبات محلل.
أباتشي تيكا يدعم تنسيقات المستندات التالية: لغة توصيف النص التشعبي (HTTP)، XML والمستمدة من الأشكال، والأشكال مستند Microsoft Office، الصيغة المفتوحة (ODF)، تنسيق المستندات المحمولة (PDF)، تنسيق النشر الإلكتروني (EPF)، تنسيق نص منسق (RTF ) والضغط والتعبئة والتغليف الأشكال، تنسيقات النص / الصوت / الصورة / الفيديو، تنسيق MBOX، وملفات فئة جافا والمحفوظات.
سابقا، كان أباتشي تيكا مشروع الفرعي للمكتبة البرامج أباتشي لوسين. الآن يتم توزيعه كحزمة واحدة قائمة بذاتها من قبل مؤسسة البرمجيات أباتشي
ما هو الجديد في هذا الإصدار:.
إزالة ملف اختبار HTML مع نص GPL اختيار سيئة في ذلك (تيكا -1129).
تحسينات على تيكا خادم للسماح لانتاج نص / HTML والنص / المحتوى XML (TIKA-1126، تيكا-1127).
تم إدخال تحسينات على الضاغط محلل للتعامل مع ملفات g'zipped التي تتطلب الخيار decompressConcatenated المقرر أن يصدق (تيكا-1096).
معالجة خطأ المطبعية التي كانت تمنع من الكشف عن ملفات AWK (تيكا-1081).
وأضاف نهاية نقطة جديدة إلى خادم تيكا في JAX-RS REST أن يكتشف فقط من نوع وسائل الإعلام على أساس جزء صغير من الوثيقة المقدمة (تيكا-1047).
RTF: أمرت ويتم استخراج قوائم غير مرتبة الآن (تيكا-1062).
MP3: يتم استخراج مدة الصوت الآن (تيكا-991)
جافا. الطبقة ملفات: ترقية من 3.1 إلى ASM ASM 4.1 لتحليل وbytecodes جافا (تيكا-1053).
أنواع التمثيل الصامت: تعاريف امتدت لتشمل اختياريا لينك (URL)، والتهاب المسالك البولية، جنبا إلى جنب مع تفاصيل لعدة صيغ مشتركة (تيكا-1012 / تيكا-1083)
يتم تسجيل استثناءات عند تحليل OLE10 جزءا لا يتجزأ من وثائق، عند تحليل معلومات موجزة من مستندات Office، وعند حفظ documennts جزءا لا يتجزأ من TikaCLI الآن بدلا من اجهاض استخراج (تيكا-1074)
MS الكلمات: يتم استبدال خط الطابع جدولي الآن مع السطر (TIKA-1128)
XML: يمكن ElementMetadataHandlers الآن يقبل اختياريا القيم المكررة وفارغة (تيكا-1133).
المتطلبات:
جافا 2 الإصدار القياسي للبيئة وقت التشغيل
لم يتم العثور على التعليقات