Apache Nutch

البرمجيات قطة:
Apache Nutch
تفاصيل البرنامج:
الإصدار: 2.3 محدث
تاريخ إيداع: 17 Jul 15
المطور: Sami Siren
ترخيص: حرر
شعبية: 1

Rating: 1.0/5 (Total Votes: 2)

مشروع اباتشي Nutch هو مفتوح المصدر، قابلة للإمتداد للغاية والبرمجيات الحرة الزاحف على شبكة الإنترنت على شبكة الإنترنت أن يبني على اباتشي لوسين (نسخة Java) المكتبة.
وتضيف تفاصيل الويب، مثل الزاحف، قاعدة بيانات الارتباط الرسم البياني، موزعي لHTML وتنسيقات وثيقة أخرى، وما إلى ذلك وضعت والتي وزعتها مؤسسة أباتشي، وفرعين منفصلين.
يجري تعديل وقابل للتوصيل، اباتشي Nutch له فوائده، من خلال توفير واجهات الموسعة مثل تحليل، مؤشر وScoringFilter لتطبيقات مخصصة، مثل أباتشي تيكا للتحليل.
وعلاوة على ذلك، تم تصميم اباتشي Nutch لتشغيل على جهاز واحد، ولكنها أكثر قوة عند تشغيل في كتلة Hadoop. يوجد فهرسة للتوصيل لمطاطا البحث، اباتشي المؤسسة العامة، الخ

ما هو الجديد في هذا الإصدار:.

NUTCH-1779 تطبيق التنسيق إلى رمز (lewismc)
NUTCH-1907 إخراج غير الصحيحة من Outlinks إلى المضيفين داخل HostDbUpdateReducer (lewismc)
NUTCH-1856 webpage.avsc الوثيقة وhost.avsc (lewismc)
يعتمد NUTCH-1834 السلوك GeneratorMapper على مستوى السجل (جيرهارد غوسن عبر snagel)
NUTCH-1899 ترقية ليب restlet لمنع فشل بناء (طلعت)
NUTCH-1797 إزالة غير المستخدمة حزمة oanhtml (سوراب Chhajed عبر snagel)
NUTCH-1888 تحديد HTMLMapper لاستخدامها في TikaParser (خليل سيمسك عبر jnioche)
NUTCH-1897 التصحيح أسهل من الأخطاء المساعد XML (ماركوس)
ترقية NUTCH-1823 لelasticsearch 1.4.1 (فو كيو، ماركوس، lewismc)
NUTCH-1829 المولدات: غير قادر على التمييز بين الأخطاء الحقيقية (ماتيو بوشار، jnioche، snagel)
NUTCH-1778 مولد لا تسجيل عدد من عناوين المواقع دفعة واحدة بشكل صحيح (jnioche عبر snagel)
NUTCH-1877 مرشح URL لاحقة لتجاهل سلسلة الاستعلام بشكل افتراضي (ماركوس عبر snagel)
NUTCH-1825 بروتوكول HTTP قد يتعطل لصفحات ويب معينة (فو كيو عبر snagel)
NUTCH-1483 لا يمكن الزحف الملفات مع بروتوكول ملف البرنامج المساعد (روجيريو بيريرا اروجو، Mengying وانغ، snagel)
ينبغي أن يعامل NUTCH-1885 بروتوكول ملف روابط رمزية كما الموجهات (Mengying وانغ، snagel)
يجب NUTCH-1880 URLUtil تقم بإضافة خطوط مائلة إضافية لعناوين المواقع ملف (snagel)
NUTCH-1879 التعبيرات المنتظمة URL بالتطبيع يجب إزالة مائلة متعددة بعد ملف: بروتوكول (snagel)
NUTCH-1820 إزالة المجال ومثل؛ الاصليه ومثل؛ الذي يكرر ومثل؛ الهوية ومثل؛ (lewismc، snagel)
NUTCH-1843 الترقية إلى غورا 0.5 (طلعت، lewismc، كيريل مينشيكوف، drazzib)
NUTCH-1883 بن / الزحف: استخدام وظيفة لتشغيل بن / nutch وتحقق قيمة الخروج (snagel)
NUTCH-1882 هدف كسوف النمل لإضافة مسار الإخراج إلى SRC / اختبار (snagel)
NUTCH-1827-ميناء NUTCH 1467 وNUTCH-1561 إلى الإصدار 2.x (snagel)
NUTCH-1876 الترقية إلى الزاحف العموم 0.5 (jnioche)
يجب NUTCH-1866 هدف النمل الكسوف لا حذف وقت التشغيل (nimafl عبر lewismc)
NUTCH-1859 جعل Nutch ميناء webapp شكلي (نعمة الفلكى عبر lewismc)
علة NUTCH-1848 في DashboardPage.html مثيلات العداد (نعمة الفلكى عبر lewismc)
NUTCH-841 إنشاء تطبيق ويب يستند إلى النصيبة لNutch (Fjodor فيرشينين عبر lewismc)
NUTCH-1832 جعل العمل Nutch دون مفهرس (mattmann عبر lewismc)
NUTCH-1840 وظيفة وصف في SolrIndexWriter غير صحيحة (كاوه minooie عبر jnioche)
NUTCH-1837 الترقية إلى تيكا 1.6 (lewismc)
NUTCH-1829 المولدات: غير قادر على التمييز بين الأخطاء الحقيقية (ماتيو بوشار عبر jnioche)
NUTCH-1828 بن / الزحف: التعامل مع غير صحيحة من الأخطاء nutch (ماتيو بوشار عبر jnioche)
NUTCH-1693 TextMD5Signature المحسوبة على مضمون النص (تيان نجوين مانه، ماركوس عبر snagel)
NUTCH-1409 إزالة انتقدت خصائص ديسيبل. {الافتراضي، ماكس} .fetch.interval، generate.max.per.host.by.ip (ماتياس Agethle عبر snagel)
NUTCH-1819 batchId في GeneratorJob (Fjodor فيرشينين عبر lewismc)
NUTCH-1708 استخدام نفس معرف عند الفهرسة والتحويلات حذف (snagel)
NUTCH-1817 إزالة pom.xml من المصدر (jnioche)
NUTCH-1811 بن / junit nutch لاستخدام junit 4 اختبار عداء (snagel)
NUTCH-1776 دخول مسار الملف plugin.folder غير صحيحة (ضياء عبر snagel)
NUTCH-1566 بن / nutch للسماح بيضاء في مسارات (tejasp، snagel)
NUTCH-1605 نوع MIME كشف يعترف XLSX كملف مضغوط (snagel)
NUTCH-385 تحسين وصف تكوين موضوع ذات الصلة لالجالب (jnioche، وفنغ)
NUTCH-1798 النصي الزحف لا ندعو قيادة المؤشر بشكل صحيح (آرون Bedward عبر jnioche)
NUTCH-1769 إعادة بيع ديون API REST (Fjodor فيرشينين عبر lewismc)
وتقدم slf4j NUTCH-1633 بواسطة hadoop ويجب ألا تدرج في ملف وظيفة (كاوه minooie عبر jnioche)
NUTCH-1787 التحديث والكامل وثيقة API صفحة نظرة عامة (snagel)
NUTCH-1767 إزالة المعاملة الخاصة للومثل؛ بارامس ومثل؛ في الارتباطات النسبية (snagel)
NUTCH-1718 إعادة تعريف http.robots.agent كما ومثل؛ أسماء كيل إضافية ومثل؛ (snagel، تيجاس باتيل، دانيال كوغل أفادوا)
NUTCH-1796 ضمان استخدام غورا بناة الكائن كما يعارضون منشئات فارغة (snagel عبر lewismc)
NUTCH-1590 [SECURITY] الإطار الضعف حقن في جافادوك المنشورة (jnioche)
NUTCH-1736 لا يمكن جلب الصفحة إذا رأس استجابة HTTP يتضمن نقل ترميز: المقسم (YSC عبر jnioche)
NUTCH-1782 NodeWalker للعودة العقدة الحالية (ماركوس)
NUTCH-1781 تحديث غورا - * - mapping.xml وgora.proeprties لتعكس غورا 0.4 (lewismc)
NUTCH-1768 الترقية إلى ElasticSearch 1.1.0 (jnioche)
NUTCH-1634 readdb -stats تظهر النتيجة مرتين (كاوه minooie عبر jnioche)
سمات NUTCH-1780 TTL وgc_grace_seconds مفقودة من ملف غورا-كاساندرا-mapping.xml (كاوه minooie عبر lewismc)
NUTCH-1676 اضف دعم SSL بدائية لبروتوكول HTTP (jnioche، ماركوس)
مرشح NUTCH-1674 استخدام batchId لتمكين المسح الضوئي (GORA-119) لجلب، تحليل، تحديث، ومؤشر (تيان نجوين مانه والبارسلان أفشي عبر jnioche)
ترقية NUTCH-1714 إلى 0.4 غورا (البارسلان أفشي عبر jnioche)
NUTCH-1752 قواعد ذاكرة التخزين المؤقت ملف robots.txt في البروتوكول: منفذ المضيف (snagel)
NUTCH-1613 مهلات في بروتوكول httpclient عند الزحف نفس المضيف مع & GT؛ 2 المواضيع (brian44 عبر jnioche)
NUTCH-1182 برنامج جلب لتسجيل المواضيع معلقة (snagel)
NUTCH-1618 إيقاف التنفيذ المضاربة قبالة لإحضار (طلعت)
NUTCH-1657 ORIGINAL_CHAR_ENCODING وCHAR_ENCODING_FOR_CONVERSION لم تطأ في HTMLParser (طلعت)
المخفض NUTCH-1725 CleaningJob للا يلزم المستندات المحذوفة. (ilhamikalkan عبر طلعت)
NUTCH-1728-مفهرس المؤسسة العامة المساعد لا حذف مستندات من المؤسسة العامة (ilhamikalkan عبر طلعت)
NUTCH-1753 الكسوف مشكلة dependecy ل2.X (طلعت)
NUTCH-1720 خطوط مكررة في HttpBase.java (والتر تيتزه عبر jnioche)
NUTCH-797 URL لا تبنى بشكل صحيح عندما يبدأ الهدف الارتباط مع ومثل؛؟ ومثل؛ (دوغ كوك، روبرت Hohman، Stondet، أساسها عبر snagel)
NUTCH-1759 الترقية إلى الزاحف العموم 0.4 (jnioche)
NUTCH-1700 إزالة إهمال التعليمات البرمجية في SRC / المساعد / creativecommons / build.xml (lewismc)
فشل NUTCH-1761 النصي الزحف للعثور على ملف العمل إذا لم تبدأ من داخل بن دير (ديفيد هوسكينغ، jnioche)
NUTCH-1603 ZIP محلل يشكو ملف PDF اقتطاع (snagel عبر lewismc)
NUTCH-1743 parsechecker لإظهار outlinks (snagel)
NUTCH-1732 أفضل خط كمد تحليل لNutchServer (Fjodor فيرشينين عبر lewismc)
المراسي الفارغة NUTCH-1751 لا ينبغي أن مؤشر (Sertac تيركل عبر lewismc)
NUTCH-1733 تحليل-أتش تي أم أل لدعم تعريفات محارف HTML5 (snagel)
NUTCH-1727 طول شكلي لنطاقات TLD (Sertac تيركل عبر lewismc)
NUTCH-1738 فضح عدد من عناوين المواقع المولدة لكل دفعة في GeneratorJob (طلعت UYARER عبر ewismc)
NUTCH-1671 indexchecker لإضافة الحقل هضم (snagel، وفنغ)
NUTCH-1645 Junit حالة اختبار التكيفية الجلب الدرجة الجدول رقم (ياسين كيلينج، وفنغ، Sertac URKEL عبر snagel)
تحليل-إشارات مرجعية والمساعد مؤشر الفوقية لNutch سلسلة الإصدار 2.x NUTCH-1478 (كيران، نجوين انه تيان، طلعت UYARER، فانجيليس Karvounis عبر lewismc)
NUTCH-1729 الترقية إلى تيكا 1.5 (jnioche)
NUTCH-1721 ترقية إلى الزاحف شيوعا 0.3 (tejasp)
فشل NUTCH-1719 DomainStatistics في 2.x لأنه لم يتم unreversed URL (جيرهارد غوسن عبر lewismc)
NUTCH-1253 Incompatable نيكو وxerces الإصدارات (snagel، lewismc، طلعت UYARER)
NUTCH-1715 RobotRulesParser يضيف إضافي '*' إلى اسم الروبوتات (tejasp)
NUTCH-356 المساعد مخبأ مستودع يمكن أن يؤدي إلى حدوث تسرب للذاكرة (إنريكو Triolo، Dogacan غوني عبر ماركوس)
NUTCH-1164 اختبارات كتابة JUnit لبروتوكول HTTP (Sertac تيركل عبر tejasp)
NUTCH-1710 حزمة إضافة غورا التسجيل إلى log4j.properties (lewismc)
NUTCH-1655 مفهرس المساعد لمطاطا البحث (طلعت UYARER عبر lewismc)
NUTCH-1699 تيكا محلل - صورة تحليل الأخطاء (محمد زاهد Yuzuguldu، snagel عبر lewismc)
NUTCH-1568 العمارة ميناء فهرسة للتوصيل إلى 2.X (طلعت UYARER عبر lewismc)
تضاف Inlinks NUTCH-1672 مرتين في DbUpdateReducer (تيان نجوين مانه عبر lewismc)
NUTCH-1667 updatedb وقد تجاهل دائما batchId (تيان نجوين مانه عبر lewismc)
NUTCH-1695 NutchDocument.toString () (ماركوس عبر lewismc)
NUTCH-1696 تمكين استخدام (غورا) تبعيات لقطة (lewismc)
NUTCH-1681 في URLUtil.java، لا يعمل بشكل صحيح طريقة toUNICODE (A

تعليقات ل Apache Nutch

لم يتم العثور على التعليقات
إضافة تعليق
بدوره على الصور!