Jericho HTML Parser

البرمجيات قطة:
Jericho HTML Parser
تفاصيل البرنامج:
الإصدار: 3.4
تاريخ إيداع: 10 Dec 15
المطور: Martin Jericho
ترخيص: حرر
شعبية: 12

Rating: nan/5 (Total Votes: 0)

ويمكن أن تعديل من جانب الخادم والعميل العلامات، بينما يتم إنتاج حرفيا أي HTML غير المعترف بها أو غير صالحة.

كما أنه يوفر وظائف التلاعب شكل HTML رفيع المستوى

الميزات:.

وجود منسقة بشكل سيئ HTML لا تتداخل مع إعراب بقية وثيقة، مما يجعل مثالية للاستخدام مع مكتبة ومثل، في العالم الحقيقي ومثل؛ HTML التي يغص بها موزعي الآخرين.
يتم الاعتراف ASP، JSP، PSP، PHP وميسون به خادم صراحة محلل. وهذا يعني أن HTML العادية لا تزال تحليل صحيح حتى لو كانت هناك علامات الخادم داخلها، وهو أمر شائع على سبيل المثال عند تحديد سمات عنصر حيوي.
وهناك تيار أساس خيار جديد تحليل باستخدام فئة StreamedSource، والذي يسمح الذاكرة معالجة فعالة من الملفات الكبيرة باستخدام مكرر الحدث. هذا هو في الأساس بديل ستاكس مع القدرة على معالجة HTML وغير التحقق من صحة XML، فضلا عن العديد من الميزات الأخرى لا تتوفر في غيرها من موزعي التدفق.
في شكلها المعتاد أنها ليست حدثا ولا شجرة محلل أساس، ولكنها تستخدم بدلا مزيج من البحث عن النص البسيط والفعال الاعتراف العلامة ومخبأ موقف العلامة. يتم تحميل نص المستند المصدر كاملة لأول مرة في الذاكرة، وبعد ذلك فقط في قطاعات ذات الصلة بالبحث عن الشخصيات ذات الصلة في كل عملية بحث.
مقارنة محلل أساس شجرة مثل DOM، يمكن للمتطلبات الذاكرة والموارد سيكون أفضل بكثير إذا تحتاج فقط أجزاء صغيرة من الوثيقة إلى أن تحليل أو تعديلها. يمكن بسهولة تجاهل غير صحيحة أو منسقة بشكل سيئ HTML، على عكس شجرة موزعي مقرها التي يجب أن تحدد كل عقدة في وثيقة من أعلى إلى أسفل.
مقارنة محلل استنادا حدث مثل ساكس، واجهة على مستوى أعلى من ذلك بكثير وأكثر سهولة، ويتم إنشاء تمثيل شجرة التسلسل الهرمي وثيقة عنصر بسهولة إذا لزم الأمر.
وتبدأ وتنتهي وظائف في المستند المصدر من جميع شرائح تحليل يمكن الوصول إليها، مما يسمح للتعديل من قطاعات مختارة فقط من وثيقة دون الحاجة إلى إعادة بناء المستند بأكمله من شجرة.
عدد الصفوف والأعمدة من كل موقف في المستند المصدر يمكن الوصول إليها بسهولة.
يوفر واجهة بسيطة ولكنها شاملة لتحليل والتلاعب الضوابط شكل HTML، بما في ذلك استخراج والسكان من القيم الأولية، وتحويل للقراءة فقط أو وسائط عرض البيانات. تحليل عناصر تحكم النموذج يسمح أيضا البيانات التي وردت من النموذج ليتم تخزينها وعرضها بطريقة مناسبة.
المدمج في وظيفة لاستخراج كل نص من HTML العلامات، ومناسبة لتغذية في محرك البحث عن النص مثل أباتشي لوسين.
المدمج في وظيفة لجعل علامات HTML مع تنسيق نص بسيط.
المدمج في وظيفة لتهيئة HTML كود المصدر أن تزكي العناصر وفقا لعمقها في التسلسل الهرمي وثيقة عنصر. (انقر هنا للحصول على مظاهرة على الانترنت)
المدمج في وظيفة لالمدمجة HTML شفرة المصدر عن طريق إزالة كل المساحة البيضاء لزوم لها.
أنواع العلامة المخصصة يمكن تعريفها بسهولة وسجلت للاعتراف محلل.

ما هو الجديد في هذا الإصدار:

واضاف المصدر (ملف) المنشئ.
واضاف OutputDocument.getSegment () طريقة.
واضاف OutputDocument.remove (يبدأ الباحث في نهاية الباحث) الأسلوب.
Renderer.setHRLineLength المضافة () طريقة.
وأضاف عينة webapp RenderToText.jsp.
واضاف Segment.getRowColumnVector () طريقة.
كشف الترميز يتجاهل الآن ترميزات المشتركة المحددة في العلامات الفوقية التي لها رمز حجم وحدة متوافق مع ترميز أولي.

ما هو الجديد في الإصدار 3.1:

علة المآزق:
حلقة لا نهائية على Segment.getAllStartTags ()
حلقة لا نهائية على Segment.getAllElements ()
Segment.getFirst * طرق عادت قطاعات خارج قطاع المحيط.
لم أساليب Segment.getAllElements لن يعود جميع العناصر المغلقة في بعض الظروف.
الأخطاء وثائق ثابتة في أساليب Segment.getAllElements.
وأضاف الدرجة StreamedSource.
التغييرات التي يمكن أن تؤثر على سلوك البرامج القائمة:
ParseText تغير من فئة إلى الواجهة.
Segment.getNodeIterator () يعود الآن إشارات طابع العقد منفصلة.
طرق البحث تمت إضافة علامة على أساس التعابير العادية قيمة السمة.
وأضاف طرق البحث العلامة على أساس سمة فئة HTML.
وأضاف الملكية Source.LegacyNodeIteratorCompatabilityMode ثابتة مؤقتا لاستعادة Segment.getNodeIterator وظيفة () لمن الإصدارات السابقة.
شار إزالة [] طرق البحث ومقرها في ParseText.
وأضاف CharacterReference.appendCharTo (Appendable) الأسلوب.
واضاف OutputDocument (الجزء) المنشئ.
وأضاف البرنامج عينة StreamedSourceCopy.

برامج مماثلة

DOMPDF
DOMPDF

5 Jun 15

Dindent
Dindent

13 Apr 15

rasterizeHTML.js
rasterizeHTML.js

11 Mar 16

CriticalCSS
CriticalCSS

18 Apr 16

البرامج الأخرى من المطور Martin Jericho

تعليقات ل Jericho HTML Parser

لم يتم العثور على التعليقات
إضافة تعليق
بدوره على الصور!
البحث حسب الفئة