Jericho HTML Parser

البرمجيات قطة:
Jericho HTML Parser
تفاصيل البرنامج:
الإصدار: 3.3
تاريخ إيداع: 20 Feb 15
المطور: Martin Jericho
ترخيص: حرر
شعبية: 3

Rating: nan/5 (Total Votes: 0)

وJerich HTML محلل هو مفتوح المصدر، بسيطة، ولكن مكتبة قوية مكتوب تماما في جاوة.
انها تسمح للمبرمجين لمعالجة وتحليل أجزاء من وثيقة HTML.
كما يتضمن Jerich HTML محلل ظائف التلاعب شكل HTML رفيع المستوى

ما هو الجديد في هذا الإصدار:.

علة المآزق:
[3581664] CharacterReference.decode () لا فك الكيانات التي تحتوي على الأرقام - & frac12. وfrac14. وfrac34. وsup1. وsup2. وsup3. وthere4.
[3311286] SourceCompactor لا تحترم TEXTAREA
[3519131] الناتج العارض غير صحيحة عندما شيدت مع كائن العنصر.
[3538829] الناتج العارض من الزخارف الخط على الحدود كتلة غير صحيحة.
Segment.getAllStartTags (اسم) وSegment.getFirstElement (الاسم) لا تعمل إذا كانت الوسيطة تحتوي على الأحرف الكبيرة.
يتم إدراج محدد نهاية علامة الخادم المشتركة داخل علامة الخادم هرب زورا كمحدد نهاية العلامة هرب.
التغييرات التي يمكن أن تؤثر على سلوك البرامج القائمة:
[3427073] Segment.getStyleURISegments () ويشمل الآن أسلوب المحتوى عنصر فضلا عن قيم السمة النمط.
[3427927] Segment.getURIAttributes () ويشمل الآن سمات أرشيف الكائن الصغير والعناصر.
تعليقات لم يعد معترف بها داخل عناصر النصي خلال تحليل متسلسل كامل. في السابق كانوا معترف بها من أجل التوافق مع المتصفحات الرئيسية ولكن قد تغير السلوك متصفح حديث.
تغير مستوى سجل من كافة الأخطاء تحليل من INFO إلى الخطأ، ومستوى سجل من Source.fullSequentialParse () رسالة الاستشارية من يحذرون إلى INFO. أعطت المستويات السابقة الرسالة الاستشارية خطورة أعلى من أخطاء إعراب، ومنع قطع الأشجار من أنظمة يختبئ الرسالة الاستشارية في حين تبين أخطاء التوزيع. لا تزال التحذيرات ترميز الحروف دون تغيير عند مستوى يحذرون.
تغير سلوك طريقة Renderer.renderHyperlinkURL (StartTag) بحيث لا يتم تقديم عناوين URL النسبية.
تغير سلوك العارض بحيث لا يتم تقديم المحتوى عنصر الارتباط التشعبي إذا كان هذا هو نفس URL الارتباط التشعبي، وتجاهل أي بادئة http: // أو / احقة.
EndTag.tidy () يزيل الآن بيضاء قبل قوس الإغلاق.
واضاف المصدر (ملف) المنشئ.
واضاف OutputDocument.getSegment () طريقة.
واضاف OutputDocument.remove (تبدأ كثافة العمليات، نهاية كثافة العمليات) الأسلوب.
Renderer.setHRLineLength المضافة () طريقة.
وأضاف عينة webapp RenderToText.jsp.
واضاف Segment.getRowColumnVector () طريقة.
كشف الترميز يتجاهل الآن ترميزات المشتركة المحددة في العلامات الفوقية التي لها رمز حجم وحدة يتعارض مع ترميز أولي.
ترقية إلى واجهات برمجة التطبيقات مسجل التالية: slf4j-API-1.7.2، log4j-1.2.17

ما هو جديد في الإصدار 3.1:

علة المآزق:
[2793556] حلقة لا نهائية على Segment.getAllStartTags ()
حلقة لا نهائية على Segment.getAllElements ()
Segment.getFirst * طرق عادت قطاعات خارج قطاع المحيط.
لم أساليب Segment.getAllElements لا ترجع كافة العناصر المغلقة في بعض الظروف.
الأخطاء وثائق ثابتة في أساليب Segment.getAllElements.
وأضاف الدرجة StreamedSource.
التغييرات التي يمكن أن تؤثر على سلوك البرامج القائمة:
ParseText تغير من فئة إلى الواجهة.
Segment.getNodeIterator () إرجاع الآن إشارات طابع العقد منفصلة.
طرق البحث تمت إضافة علامة على أساس التعابير العادية قيمة السمة.
وأضاف طرق البحث العلامة على أساس سمة فئة HTML.
وأضاف الملكية Source.LegacyNodeIteratorCompatabilityMode ثابتة مؤقتا لاستعادة Segment.getNodeIterator وظائف () إلى أن من الإصدارات السابقة.
شار إزالة [] طرق البحث ومقرها في ParseText.
وأضاف CharacterReference.appendCharTo (Appendable) الأسلوب.
واضاف OutputDocument (الجزء) المنشئ.
وأضاف نموذج البرنامج StreamedSourceCopy.

ما هو الجديد في الإصدار 3.0:

علة المآزق:
لم فك الإشارات شخصية يمثلون الشخصيات التكميلية يونيكود بشكل صحيح إلى UTF-16 زوجا رمز وحدة.
[2188446] Element.getDepth () وElement.getParentElement () عاد نتائج غير صحيحة إذا دعا في تحليل على وضع الطلب.
يتم إدراج تعليقات الآن داخل العلامة & lt؛ النصي و GT. عناصر.
التغيرات API التي ليست متوافقة مع الإصدارات السابقة:
تغير اسم الحزمة إلى net.htmlparser.jericho
ويجب الآن أن تكون قيم السمة سلسلة بدلا من CharSequence.
إزالة طرق إهمال الكل / فصول من الإصدارات السابقة.
جميع عثور على طرق * إهمال لصالح الحصول * طرق من أجل تطبيق اصطلاح تسمية متناسقة عبر جميع وسائل البحث العلامة.
العلامة، العنصر وHTMLElements الطبقات لم يعد بتطبيق واجهة HTMLElementName. (استخدام استيراد ثابت بدلا من ذلك)
جميع المجموعات الآن كتابة ستونجلي باستخدام الأدوية.
تغير الطبقة FormControlOutputStyle إلى التعداد.
الطبقة FormControlType تغييرها إلى التعداد.
وأضاف CharStreamSource.appendTo (Appendable) الأسلوب.
واضاف Source.iterator () طريقة.
مصدر تنفذ الآن Iterable.
يستخدم داخليا ب StringBuilder للحصول على أداء أفضل.
وأضاف Source.getNextStartTag (StartTagType) الأسلوب.
واضاف Source.getNextEndTag (EndTagType) الأسلوب.
وأضاف Source.getPreviousStartTag (StartTagType) الأسلوب.
واضاف Source.getPreviousEndTag (EndTagType) الأسلوب.
Segment.getAllStartTags المضافة (StartTagType) الأسلوب.
وأضاف كل الطرق * Segment.getFirst.
وأضاف Renderer.renderHyperlinkURL (StartTag) الأسلوب.
وأضاف نموذج البرنامج HTMLSanitiser.
ورفع مستواها لslf4j-API-1.5.6

المتطلبات:

جافا 2 الإصدار القياسي للبيئة وقت التشغيل

برامج مماثلة

البرامج الأخرى من المطور Martin Jericho

تعليقات ل Jericho HTML Parser

لم يتم العثور على التعليقات
إضافة تعليق
بدوره على الصور!