وبنيت أباتشي Nutch على رأس أباتشي لوسين، محرك بحث جافا قوية.
المطورين Nutch تعديل مصدر برنامج لوسين، وتحويل لوسين مصدر برنامج البيانات الملحد إلى مشروع مخصص للبحث عن البيانات على الويب على وجه التحديد.
هذه التكنولوجيا يمكن استخدامها للبحث في صفحات الويب الخاصة بك كخادم بحث في البناء، أو الزحف على الانترنت للبحث عن البيانات لتحليل وكشط في قاعدة البيانات الخاصة بك.
Nutch يمكن تشغيلها على جهاز واحد، ولكن يعمل بشكل أفضل في مجموعات Hadoop.
هي الإضافات المختلفة المتاحة لتوسيع نطاق استخدامه
ما هو الجديد في هذا الإصدار:.
تأكد من علامات مكررة لا وجود لها في microformat-reltag بطاقة المجموعة.
وأفضل تراجع قيمة للحقل التاريخ.
تخلص من اللعين.
الترقية إلى Hadoop 1.2.0.
الترقية إلى تيكا 1.3.
ما هو الجديد في الإصدار 2.0:
تسمية HTMLParseFilter إلى ParseFilter.
إزالة ما تبقى الروبوتات / IP كود حظر في ليب-HTTP.
تسجيل الميناء لslf4j.
محلل خارجي يدعم السمة الترميز.
لا تشمل إعدادات التكوين اللبلاب غورا.
حاقن أن أضيف الفوقية قبل استدعاء injectedScore.
ميناء Nutch معيارا لNutchbase.
إضافة تحليل-أتش تي أم أل الظهر.
MoreIndexingFilter التاريخ المفقود الشكل.
مهلة للمحلل.
ومن المقرر إعادة المحاولة الفاصلة في تاريخ الزحف إلى 0.
توليد إخراج سجل للمفهرس المؤسسة العامة وdedup.
تحسن NutchConfiguration.
SolrDeleteDuplicates يحتاج إلى استنساخ الكائنات SolrRecord.
يبس hadoop الأم غير متوفرة من خلال مخضرم.
فصل بناء ووقت التشغيل البيئات.
ما هو جديد في الإصدار 1.5:
يتضمن هذا الإصدار العديد من التحسينات بما في ذلك ترقيات من عدة عناصر رئيسية بما في ذلك تيكا 1.1 و 1.0.0 Hadoop، وإدخال تحسينات على LinkRank وعناصر WebGraph وكذلك عدد من الإضافات الجديدة التي تغطي القائمة السوداء، وتصفية وتحليل على سبيل المثال لا الحصر.
ما هو الجديد في الإصدار 1.4:
واضاف المؤسسة العامة 4X (الجذع) مثال المخطط.
وأضاف '/ وقت التشغيل "لإس تجاهلها.
التطبيق / XHTML + XML ينبغي تمكين في plugin.xml من تحليل-أتش تي أم أل. السماح mimetypes ومتعددة لplugin.xml.
ثابت تحليل-تيكا وتحليل-أتش تي أم أل لاستخدام قرار URL النسبي في RFC-3986.
ترقية إلى تيكا 0.10. ملاحظة: محلل RTF الجديد تيكا قد تجاهل أكثر من نص في وثائق تالف من ذي قبل - انظر تيكا-748 للحصول على التفاصيل.
واضاف سونار يستهدف لbuild.xml النملة.
ترقية إلى الإصدار 3.4.0 SolrJ.
الهدف PMD النمل مكسورة.
ترقية المؤسسة العامة المخطط إلى الإصدار 1.4.
ما هو الجديد في الإصدار 1.3:
يتضمن هذا الإصدار العديد من التحسينات (تحسين RSS تحليل الدعم، وتشديد التكامل مع اباتشي تيكا، دعم إعراب الخارجي، وتحسين تحديد اللغة وأمر من حجم أصغر الافراج عن مصدر كتل القطران - فقط حوالي 2MB)!.
ما هو جديد في الإصدار 1.2:
مستحضرات مؤشر المزيد من المكونات في شكلي.
شكلي بروتوكول ملف الزحف دليل الأم.
مهلة للمحلل.
الموقع لا يزال لوسين وصفت.
ومن المقرر إعادة المحاولة الفاصلة في تاريخ الزحف إلى 0.
ما هو الجديد في الإصدار 1.0:
السماح موزعي للعودة الأجسام تحليل متعددة.
زائدة إزالة المشاعات-قطع الأشجار جرة من الأنطولوجيا المساعد.
خطأ في SegmentReader يسبب حلقة لا نهائية.
سجل مرشح يجب توزيع النتيجة لجميع outlinks في آن واحد.
تقليل عدد الإنذارات في nutch الأساسية.
لم يتم العثور على التعليقات