Apache Tika

البرمجيات قطة:
Apache Tika
تفاصيل البرنامج:
الإصدار: 1.9 محدث
تاريخ إيداع: 20 Jul 15
ترخيص: حرر
شعبية: 89

Rating: 5.0/5 (Total Votes: 1)

وقد وضعت أباتشي تيكا بوصفها أدوات ذات المستوى المنخفض للبحث عن المحتوى داخل ملفات أخرى.
تيكا لا يفعل الكثير من تلقاء نفسها كونها مكتبة بسيطة، لكنها يمكن أن تكون متكاملة في أدوات أكثر قوة مثل محركات البحث، ونظم إدارة الأصول الرقمية أو نظم إدارة المحتوى لتوفير نظام البحث وظيفية بالكامل في الملف.
المكتبة يمكن الوصول إلى رأس فقط للملف سريع لملف المعلومات العامة، أو أنها يمكن أن تذهب عميقا حقا والبحث حتى في جسم الملف لأنواع مختلفة من البيانات، في النص أو تنسيق ثنائي.
ويدعم مجموعة واسعة من أنواع الملفات، ويمكن أيضا تيكا استخدامها مع لغات البرمجة الأخرى وذلك بفضل سلسلة من الارتباطات طرف ثالث ومغلفة

ما هو الجديد في هذا الإصدار:.

هذا الإصدار يتضمن إصلاحات الشوائب والميزات الجديدة بما في ذلك تسراكت جديد OCR محلل. محلل GDAL جديد؛ أكثر أشكال الدعم، والتحسن العام في الاستقرار تيكا.

ما هو الجديد في الإصدار 1.8:

ويتضمن هذا الإصدار إصلاحات الشوائب والميزات الجديدة بما في ذلك جديد تسراكت OCR محلل. محلل GDAL جديد؛ أكثر أشكال الدعم، والتحسن العام في الاستقرار تيكا.

ما هو الجديد في الإصدار 1.7:

ويتضمن هذا الإصدار إصلاحات الشوائب والميزات الجديدة بما في ذلك جديد تسراكت OCR محلل. محلل GDAL جديد؛ أكثر أشكال الدعم، والتحسن العام في الاستقرار تيكا.

ما هو الجديد في الإصدار 1.6:

ويتضمن هذا الإصدار إصلاحات الشوائب والميزات الجديدة بما في ذلك API الجديد الترجمة، أكثر الأشكال المعتمدة، والتحسن العام في الاستقرار تيكا.

ما هو الجديد في الإصدار 1.5:

علة ثابتة في التعامل مع معالجة ملف جزءا لا يتجزأ من ملفات PDF.
وأضاف SourceCodeParser لدعم جافا الملفات، رائع، C ++.
تحديث تيكا Server لدعم حمولات متعدد الأجزاء / شكل بيانات.
تحديث تيكا Server لCXF 2.7.8.
تحديث تيكا Server لقبول الطلبات خلال عناوين البدل.
خيار استخدام NonSequentialPDFParser البديل المضافة.
يتم استخراج الآن المحتوى من AcroForms PDF.
العلامات النجمية غير صالحة ثابتة من الشريحة الرئيسية في PPT.
وأضاف الحالات اختبار للتأكد من التعامل مع لصناعة السيارات في التاريخ في PPT PPTX و.

ما هو الجديد في الإصدار 1.4:

إزالة ملف اختبار HTML مع نص GPL اختيار سيئة في ذلك.
تحسينات على تيكا خادم للسماح لانتاج نص / HTML ومحتوى النص / XML.
وأدخلت تحسينات على الضاغط محلل للتعامل مع ملفات g'zipped التي تتطلب الخيار decompressConcatenated مجموعة إلى true.
معالجة خطأ مطبعي الذي منع من الكشف عن ملفات AWK.

ما هو الجديد في الإصدار 1.2:

أباتشي تيكا 1.2 يحتوي على عدد من التحسينات وإصلاح الأخطاء.

ما هو الجديد في الإصدار 1.0:

أباتشي تيكا 1.0 يحتوي على عدد من التحسينات وإصلاح الأخطاء.

ما هو الجديد في الإصدار 0.9:

ويتضمن هذا الإصدار العديد من الاصلاحات الهامة والميزات الجديدة.

ما هو الجديد في الإصدار 0.8:

تحديد اللغة هو الآن شكلي حيوي، وتمكنت عن طريق ملف التكوين تحميله من CLASSPATH.
تيكا الآن يدعم توزيع علف عن طريق لف المكتبة روما الأساسي.
وقد ساهمت دليل البداية السريعة للتيكا التوزيع.
تمت إضافة هذا النهج لالسباكة من خلال سمات XHTML.
يؤخذ نوع وسائط المعلومات التسلسل الهرمي الآن في الاعتبار عند اختيار أفضل محلل لوثيقة مدخلات معينة.
تمت إضافة دعم لتحليل نماذج البيانات العلمية المشتركة بما في ذلك netCDF وHDF4 / 5.
تم إصلاحها وحدة الاختبارات لنظام التشغيل Windows، يسمح TestParsers لإكمال.

ما هو الجديد في الإصدار 0.7: تم تحسين

ملف MP3 التوزيع، بما في ذلك قناة وSAMPLERATE استخراج ودعم ID3v2 العلامات. وعلاوة على ذلك، تم تحسين خاصية الكشف الصوتي تحليل التمثيل الصامت أيضا لتنسيق MIDI.
تيكا لم تعد تعتمد على X11 حصول على وظائف RTF إعرابه.
تم اكتشاف خلل آمن الموضوع في AutoDetectParser ومعالجتها.
الترقية إلى PDFBox 1.0.0. النسخة PDFBox الجديد يحسن PDF الأداء تحليل ويحدد عددا من القضايا استخراج النص.

المتطلبات:

جافا 6 أو أعلى

برامج مماثلة

RequireJS
RequireJS

26 Jul 16

SimpleExcel.php
SimpleExcel.php

6 Jun 15

PreloadJS
PreloadJS

5 Jun 15

البرامج الأخرى من المطور Apache Software Foundation

Apache CXF
Apache CXF

9 Feb 16

Apache Chukwa
Apache Chukwa

9 Apr 16

Apache Crunch
Apache Crunch

10 Dec 15

Apache Groovy
Apache Groovy

10 Dec 15

تعليقات ل Apache Tika

لم يتم العثور على التعليقات
إضافة تعليق
بدوره على الصور!