ومشروع حساء جميل هو محلل بيثون HTML / XML المصممة للمشاريع تحول سريع مثل الشاشة تجريف. ثلاث ميزات تجعل من قوة:
سوف حساء جميلة لا الاختناق إذا كنت تعطيه العلامات السيئة. انه يعطي شجرة تحليل أن يجعل ما يقرب من قدر المعنى المستند الأصلي. هذا هو عادة جيدة بما فيه الكفاية لجمع البيانات التي تحتاجها والهرب.
يوفر حساء جميلة بضعة طرق بسيطة والتعابير Pythonic لتبحر، والبحث، وتعديل شجرة تحليل: مجموعة أدوات لتشريح وثيقة واستخراج ما تحتاجه. لم يكن لديك لإنشاء محلل مخصص لكل تطبيق.
حساء جميل يحول الوثائق الواردة إلى Unicode والوثائق الصادرة إلى UTF-8 تلقائيا. لم يكن لديك للتفكير في ترميزات، إلا إذا لم تحدد الوثيقة ترميز وحساء الجميلة لا يمكن اكتشاف التلقائي واحد. ثم لديك فقط لتحديد الترميز الأصلي.
حساء جميلة يوزع أي شيء تعطيه، ويفعل الاشياء اجتياز شجرة بالنسبة لك. يمكن أن أقول لكم ذلك "البحث عن الروابط"، أو "البحث عن وصلات من الدرجة externalLink"، أو "البحث عن الروابط التي تتطابق عناوين" foo.com "، أو" البحث الجدول يتجه هذا النص عريض حصلت، ثم إعطاء لي أن النص ".
البيانات القيمة التي تم تأمينها مرة واحدة حتى في المواقع سيئة التصميم هو الآن في متناول يديك. المشاريع التي من شأنها أن اتخذت ساعات تستغرق سوى دقائق مع حساء جميل
المتطلبات:.
بيثون
لم يتم العثور على التعليقات