Apache Nutch

البرمجيات قطة:
Apache Nutch
تفاصيل البرنامج:
الإصدار: 2.3
تاريخ إيداع: 1 Mar 15
ترخيص: حرر
شعبية: 128

Rating: 3.0/5 (Total Votes: 1)

وبنيت أباتشي Nutch على رأس أباتشي لوسين، محرك بحث جافا قوية.
المطورين Nutch تعديل مصدر برنامج لوسين، وتحويل لوسين مصدر برنامج البيانات الملحد إلى مشروع مخصص للبحث عن البيانات على الويب على وجه التحديد.
هذه التكنولوجيا يمكن استخدامها للبحث في صفحات الويب الخاصة بك كخادم بحث في البناء، أو الزحف على الانترنت للبحث عن البيانات لتحليل وكشط في قاعدة البيانات الخاصة بك.
Nutch يمكن تشغيلها على جهاز واحد، ولكن يعمل بشكل أفضل في مجموعات Hadoop.
هي الإضافات المختلفة المتاحة لتوسيع نطاق استخدامه

ما هو الجديد في هذا الإصدار:.

تأكد من علامات مكررة لا وجود لها في microformat-reltag بطاقة المجموعة.
وأفضل تراجع قيمة للحقل التاريخ.
تخلص من اللعين.
الترقية إلى Hadoop 1.2.0.
الترقية إلى تيكا 1.3.

ما هو الجديد في الإصدار 2.0:

تسمية HTMLParseFilter إلى ParseFilter.
إزالة ما تبقى الروبوتات / IP كود حظر في ليب-HTTP.
تسجيل الميناء لslf4j.
محلل خارجي يدعم السمة الترميز.
لا تشمل إعدادات التكوين اللبلاب غورا.
حاقن أن أضيف الفوقية قبل استدعاء injectedScore.
ميناء Nutch معيارا لNutchbase.
إضافة تحليل-أتش تي أم أل الظهر.
MoreIndexingFilter التاريخ المفقود الشكل.
مهلة للمحلل.
ومن المقرر إعادة المحاولة الفاصلة في تاريخ الزحف إلى 0.
توليد إخراج سجل للمفهرس المؤسسة العامة وdedup.
تحسن NutchConfiguration.
SolrDeleteDuplicates يحتاج إلى استنساخ الكائنات SolrRecord.
يبس hadoop الأم غير متوفرة من خلال مخضرم.
فصل بناء ووقت التشغيل البيئات.

ما هو جديد في الإصدار 1.5:

يتضمن هذا الإصدار العديد من التحسينات بما في ذلك ترقيات من عدة عناصر رئيسية بما في ذلك تيكا 1.1 و 1.0.0 Hadoop، وإدخال تحسينات على LinkRank وعناصر WebGraph وكذلك عدد من الإضافات الجديدة التي تغطي القائمة السوداء، وتصفية وتحليل على سبيل المثال لا الحصر.

ما هو الجديد في الإصدار 1.4:

واضاف المؤسسة العامة 4X (الجذع) مثال المخطط.
وأضاف '/ وقت التشغيل "لإس تجاهلها.
التطبيق / XHTML + XML ينبغي تمكين في plugin.xml من تحليل-أتش تي أم أل. السماح mimetypes ومتعددة لplugin.xml.
ثابت تحليل-تيكا وتحليل-أتش تي أم أل لاستخدام قرار URL النسبي في RFC-3986.
ترقية إلى تيكا 0.10. ملاحظة: محلل RTF الجديد تيكا قد تجاهل أكثر من نص في وثائق تالف من ذي قبل - انظر تيكا-748 للحصول على التفاصيل.
واضاف سونار يستهدف لbuild.xml النملة.
ترقية إلى الإصدار 3.4.0 SolrJ.
الهدف PMD النمل مكسورة.
ترقية المؤسسة العامة المخطط إلى الإصدار 1.4.

ما هو الجديد في الإصدار 1.3:

يتضمن هذا الإصدار العديد من التحسينات (تحسين RSS تحليل الدعم، وتشديد التكامل مع اباتشي تيكا، دعم إعراب الخارجي، وتحسين تحديد اللغة وأمر من حجم أصغر الافراج عن مصدر كتل القطران - فقط حوالي 2MB)!.

ما هو جديد في الإصدار 1.2:

مستحضرات مؤشر المزيد من المكونات في شكلي.
شكلي بروتوكول ملف الزحف دليل الأم.
مهلة للمحلل.
الموقع لا يزال لوسين وصفت.
ومن المقرر إعادة المحاولة الفاصلة في تاريخ الزحف إلى 0.

ما هو الجديد في الإصدار 1.0:

السماح موزعي للعودة الأجسام تحليل متعددة.
زائدة إزالة المشاعات-قطع الأشجار جرة من الأنطولوجيا المساعد.
خطأ في SegmentReader يسبب حلقة لا نهائية.
سجل مرشح يجب توزيع النتيجة لجميع outlinks في آن واحد.
تقليل عدد الإنذارات في nutch الأساسية.

برامج مماثلة

sitemap.js
sitemap.js

10 Feb 16

Fuzzysearch
Fuzzysearch

12 Apr 15

TreeListFilter
TreeListFilter

13 May 15

jquery-filter
jquery-filter

13 May 15

البرامج الأخرى من المطور Apache Software Foundation

Apache jclouds
Apache jclouds

10 Feb 16

Apache Camel
Apache Camel

10 Dec 15

Apache Airavata
Apache Airavata

6 Mar 16

Apache Empire-db
Apache Empire-db

10 Dec 15

تعليقات ل Apache Nutch

لم يتم العثور على التعليقات
إضافة تعليق
بدوره على الصور!