البرنامج Methabot هو الأمثل سرعة، على شبكة الإنترنت النصية وشكلي للغاية، وبروتوكول نقل الملفات والمحلية الزاحف نظام الملفات. وهو يدعم تحليل نوع الملف كتابتها، ومجموعة متنوعة واسعة من خيارات التخصيص وبسهولة تهيئتها لتناسب احتياجات الموثقة معينة.
مع استخدام نظام وحدة ولغة البرمجة، يمكن للمستخدمين سيطرة كاملة أو جزئية من عملية الزحف وتقرر لكن Methabot يجب تخزين البيانات على شبكة الإنترنت والإحصاءات وأكثر من ذلك بكثير.
فقط عن طريق تشغيل Methabot من سطر الأوامر كنت قادرا نوع الملف تكوين مخصص، وتصفية التعبيرات، والسلوك، وأكثر من ذلك بكثير، لذلك لم يكن لديك ليكون سيناريو
الميزات:!
انها سريعة، تم تصميمها من الصفر وحتى مع السرعة الأمثل في الاعتبار.
النصية من خلال جافا سكريبت مع E4X
المعرفة من قبل المستخدم نوع الملف الترشيح (وفقا لنوع MIME، امتداد الملف أو UMEX التعبير)
متعددة الخيوط
شكلي للغاية من سطر الأوامر
نظام وحدة للمد، ودعم موزعي البيانات المخصصة والمرشحات.
بسيطة لكنها قوية تصفية عناوين URL من خلال UMEX.
تحميل الآلي
الدعم لمعالجة ملفات تعريف الارتباط التلقائي عند تشغيل أكثر من HTTP
يمكن الاعتماد عليها، والشبكات المتسامحة
المحمولة، واختبارها بنجاح على 32 بت / 64 بت لينكس 2.6، 32 بت / 64 بت فري 6.X / 7.0، ويندوز XP و Mac OS X. يجب أن تعمل تقريبا على أي نظام تشغيل شبيه بيونكس.
ما هو الجديد في هذا الإصدار:
خلل، عندما كان يستخدم الخارجية، نظرة خاطفة وافسدت الحد عمق يصل.
استخدام الذاكرة إصلاحات تنظيف
لم يعد تعيين الخيار الحيوي رابط لبحث افتراضيا، لأنه يبطئ زحف إلى حد كبير
بناء نظام يخلق الآن ويقوم بتثبيت بعض الملفات رأس أن وحدات يمكن استخدامها عند ربط
أداة ميثاء بين التكوين وأضافت
انتقل lmm_mysql خارج هذه الحزمة
ما هو الجديد في الإصدار 1.5.0:
التغييرات والميزات الجديدة:
دعم لقراءة عازلة intial من ستدين
--type وأضافت --base-URL خيارات سطر الأوامر، جنبا إلى جنب مع خيار initial_filetype في ملفات التكوين
والآن يشارك الكوكيز ومعلومات DNS بشكل صحيح بين العمال عند تشغيل مؤشرات
وأضاف بعض الأوامر استخدام المثال ل--examples
تحسينات كبيرة في التواصل بين موضوع، الآن أسرع وأكثر تنظيما
واضاف لدعم وظائف "الحرف الأول" للمخطوطات. قراءة المزيد عن وظائف ال init في http://bithack.se/projects/methabot/docs/e4x/init_functions.html
libmetha لا تجمد عند القيام متعددة طلبات HTTP رأس المتزامنة بعد الآن. وكان السبب في تجميد خلل في libcurl الذي هو ثابت الآن. تم إضافة بعض الحلول لlibmetha لمنع تجمد من التي تحدث عند استخدام الإصدارات عيب libcurl aswell.
الدعم للإصدارات القديمة libcurl 7.17.x و7.16.x
توافر معلومات جديدة في ومثل، وهذا ومثل؛ كائن جافا سكريبت موزعي، نوع المحتوى وحالة نقل التعليمات البرمجية. اقرأ المزيد في http://bithack.se/projects/methabot/docs/e4x/this.html
الخيار --verbose استبدال --silent، لأن الوضع المطول هو الآن الافتراضي
الدعم الأولي لبروتوكول نقل الملفات الزحف والخيار ftp_dir_url الزاحف
عمق الحد هو الآن، حفارات محددة
وأضاف خيارات سطر الأوامر --crawler و--filetype
الدعم لتوسيع وتجاوز الزواحف وأنواع الملفات المحددة مسبقا
الدعم عن الكلمة نسخة في ملفات التكوين
الدعم لتبديل الزاحف النشطة حيويا، وهذا يتيح لك الزحف مواقع مختلفة بطرق مختلفة تماما في جلسة الزحف واحد. قراءة المزيد حول الزاحف التحول في http://bithack.se/projects/methabot/docs/crawler_switching.html
ترقية إصدار libev إلى 3.51
وتشمل التوجيه في ملفات التكوين يجعل الآن على يقين من لم يكن قد تم تحميل ملف التكوين وشملت، لمنع تشمل الحلقات وتعريفات متعددة نوع الملف / المجنزرة.
ويحدد مختلف جمع القمامة SpiderMonkey، libmetha لا تعطل بعد الآن عند تنظيف بعد جلسة مؤشرات
وأضاف بعض المعلومات الإضافية إلى الخيار --info
الآن إصلاح خيار "الخارجية" وتمكين مرة أخرى
خيار جديد --spread العمال
وظيفة جديدة API libmetha lmetha_global_setopt () يسمح بتغيير مراسل خطأ / رسالة عالمية / تحذير
وأضاف التنفيذ الأولي من مجموعة الاختبار للمطورين
أفضل تقرير عن الخطأ عند تحميل ملفات التكوين
خلل عند خادم HTTP لم يرد على رأس Content-Type بعد طلب HEAD
خلل عناوين عندما يكون الترتيب بعد طلبات رأس HTTP متعددة
خلل في أتش تي أم أل لتحويل XML عندما لم يكن لديك صفحة HTML على العلامة & lt؛ أتش تي أم أل & GT؛ بطاقة
خلل، فإن الخيار extless-رابط لا يعمل
خلل، أتش تي أم أل لتحويل XML لم يعد الإختناقات على علامات بايت النظام أو نصوص أخرى قبل HTML الفعلية
خلل، منعت libmetha من محاولة الوصول عناوين بروتوكولات غير معتمدة
خلل عند اغلاق بعد خطأ.
خلل، لم عناوين غير القابلة للحل لا تندلع حلقة إعادة المحاولة بعد ثلاث المحاولة
الدعم التجريبي للغاية وغير مستقر ل Win32، وتهدف بشكل رئيسي للمطورين
ملفات التكوين الجديد:
google.conf، لأداء البحث جوجل
youtube.conf، يوتيوب البحث
meta.conf، يطبع المعلومات الوصفية مثل الكلمات الرئيسية والوصف عن صفحات HTML
title.conf، بطباعة عنوان صفحات HTML
ftp.conf، للزحف خوادم FTP
ما هو الجديد في الإصدار 1.4.1:
تكوين لا يمكن أن تجد jsapi.h على بعض الأنظمة، وهذا ينبغي أن تكون ثابتة الآن.
ملفات التكوين أصبحت الآن قادرة على تعديل الزاحف ونوع الملف والأعلام، وأضاف "الخارجية" و "external_peek 'الخيارات
خلل، فإن Methabot تحطم أحيانا عند تنظيف عناوين فارغة بعد عدة رأس HTTP
تحطم طائرة ثابتة التي وقعت عند تشغيل بشكل متزامن.
بناء نظام يتضمن الإصلاح عندما jsconfig.h لا يمكن العثور عليها.
المتطلبات:
SpiderMonkey رؤوس
الضفيرة
لم يتم العثور على التعليقات