تفاصيل البرنامج:
وصممت لتكون التفاف حول lxml، أنها توسع الآن lxml مع جميع الميزات المطلوبة عادة في استخراج البيانات HTML
الميزات:.
ملامح عام:
طيبة مسج مثل محددات CSS
وصول بسيط لسمات عنصر
طريقة سهلة لتحويل HTML إلى صيغة أخرى (الكود التالي، تخفيض السعر، الخ)
قليل من الوظائف لطيفة للعمل مع النص
يوفر كافة الميزات الأصلية للlxml
وظائف للعمل مع النص النقي:
to_unicode - تحويل السلسلة إلى سلسلة Unicode
strip_accents - لهجات قطاع من سلسلة
strip_symbols - قطاع القبيح رموز يونيكود من سلسلة
strip_spaces - تجريد المساحات الزائدة من سلسلة
strip_linebreaks - تجريد فواصل الأسطر الزائدة من سلسلة
المتطلبات:
lxml
لم يتم العثور على التعليقات