Apache Lucene

البرمجيات قطة:
Apache Lucene
تفاصيل البرنامج:
الإصدار: 5.3.1 / 4.10.4 / 3.6.2 محدث
تاريخ إيداع: 10 Dec 15
ترخيص: حرر
شعبية: 875

Rating: nan/5 (Total Votes: 0)

على أباتشي لوسين هو مناسبة لتطبيق أي التي تتطلب دعم البحث عن النص الكامل، مع الحفاظ أيضا استهلاك الموارد الخادم أسفل وتحقيق نتائج سريعة وعالية الدقة.


يعتبر

لوسين على نطاق واسع باعتبارها واحدة من أفضل محركات البحث حولها، ويجري في صميم العديد من أدوات البحث الأخرى، الكائن الأكثر شهرة على اباتشي المؤسسة العامة .

لوسين هو مكتوب تماما في جاوة ومنذ أن أطلق سراحه من قبل مؤسسة أباتشي، وقد استدار إلى العديد من اللغات الأخرى وجود العديد من الارتباطات ومغلفة كما وضعت برامج طرف ثالث.

ما هو جديد في هذا الإصدار:

  • ويستخدم جميع الوصول إلى الملفات الآن واجهات برمجة التطبيقات NIO.2 جاوة التي تعطي لوسين سلامة مؤشر أقوى من حيث معالجة الأخطاء أفضل و يرتكب أكثر أمانا.
  • وكل شريحة لوسين يخزن الآن معرف فريد لكل قطاع ولكل تلتزم مساعدة في النسخ المتماثل دقيق للملفات فهرس.
  • وخلال دمج، IndexWriter الآن دائما بالتحقق من قطاعات واردة للفساد قبل الدمج. هذا يمكن أن يعني، على الترقية إلى 5.0.0، وهذا الدمج قد كشف الفساد الكامن في مؤشر 4.x من كبار السن منذ فترة طويلة.

ما هو جديد في الإصدار 5.2.1 / 4.10.4 / 3.6.2:

  • وجميع الملفات يستخدم الوصول الآن واجهات برمجة التطبيقات NIO.2 جاوة التي تعطي لوسين سلامة مؤشر أقوى من حيث أفضل معالجة الأخطاء ويرتكب أكثر أمانا.
  • وكل شريحة لوسين يخزن الآن معرف فريد لكل قطاع ولكل تلتزم مساعدة في النسخ المتماثل دقيق للملفات فهرس.
  • وخلال دمج، IndexWriter الآن دائما بالتحقق من قطاعات واردة للفساد قبل الدمج. هذا يمكن أن يعني، على الترقية إلى 5.0.0، وهذا الدمج قد كشف الفساد الكامن في مؤشر 4.x من كبار السن منذ فترة طويلة.

ما هو جديد في الإصدار 5.1.0 / 4.10.4 / 3.6.2:

  • وجميع الملفات يستخدم الوصول الآن واجهات برمجة التطبيقات NIO.2 جاوة التي تعطي لوسين سلامة مؤشر أقوى من حيث أفضل معالجة الأخطاء ويرتكب أكثر أمانا.
  • وكل شريحة لوسين يخزن الآن معرف فريد لكل قطاع ولكل تلتزم مساعدة في النسخ المتماثل دقيق للملفات فهرس.
  • وخلال دمج، IndexWriter الآن دائما بالتحقق من قطاعات واردة للفساد قبل الدمج. هذا يمكن أن يعني، على الترقية إلى 5.0.0، وهذا الدمج قد كشف الفساد الكامن في مؤشر 4.x من كبار السن منذ فترة طويلة.

ما هو جديد في الإصدار 5.0.0 / 4.10.3 / 3.6.2:

  • وشروط جديدة طرق .getMin / ماكس لاسترداد أدنى وأعلى حيث لكل حقل.
  • والجديدة IDVersionPostingsFormat الأمثل لعمليات البحث ID التي تربط نسخة زيادة monotonically في ID.
  • والتحديث الذري مجموعة من القيم وثيقة المجالات.
  • وتحسينات عديدة لأداء القيم وثيقة بحث من الوقت.
  • والجديد (الافتراضي) Lucene49NormsFormat لضغط أفضل حالات معينة مثل حقول قصيرة جدا.
  • والجديدة SORTED_NUMERIC docvalues ​​نوع لمعالجة فعالة من الحقول متعددة القيم الرقمية.
  • ومفهرس يمر تيار رمزية السابق لتسهيل إعادة الاستخدام.
  • وMoreLikeThis يقبل قيم متعددة لكل حقل.
  • وجميع الفئات التي تقدر استخدام ذاكرة الوصول العشوائي على تنفيذ الآن على واجهة جديدة للمساءلة.
  • ومكتوبة الملفات لوسين الآن (ملف) OutputStream على جميع المنابر، تنكر تماما تسعى مع واجهات برمجة التطبيقات IO مبسطة.
  • وتحسين رسالة الخطأ الخلط عندما MMapDirectory لا يمكن إنشاء خريطة جديدة.

ما هو جديد في الإصدار 4.8.0:

  • ووسين لديها API Rescorer / QueryRescorer الجديد لأداء الثانية تمرير rescoring أو reranking من نتائج البحث باستخدام وظائف التهديف أغلى بعد جمع تمريرة أول ضربة.
  • وAnalyzingInfixSuggester الآن يدعم قرب الوقت الحقيقي autosuggest.
  • وظائف شاغرة-فرز تأثير المبسطة (باستخدام SortingMergePolicy وEarlyTerminatingCollector) لاستخدام ترتيب فئة لوسين للتعبير عن ترتيب.
    تم فصل
  • والتهديف السائبة وطبيعية التهديف القائم على التكرار، لذلك يمكن لبعض الاستفسارات تفعل التهديف الأكبر على نحو أكثر فعالية.
  • وتحولت إلى MurmurHash3 للتجزئة حيث خلال الفهرسة.
  • وIndexWriter الآن يدعم استكمال حقول قيمة وثيقة الثنائية.
  • وHunspellStemFilter يستخدم الآن 10 إلى 100X أقل RAM. فإنه يحمل أيضا كل القواميس أوبن أوفيس المعروفة دون خطأ.
  • ووسين الآن fsyncs أيضا الفوقية دليل على يرتكب، إذا كان نظام التشغيل ونظام الملفات تسمح بذلك (معروفة لينكس، ماكوسكس للعمل).
  • ووسين يستخدم الآن جافا 7 وظائف نظام الملفات تحت غطاء محرك السيارة، لذلك ملفات فهرس يمكن حذفها على ويندوز، حتى عندما لا تزال مفتوحة للقراء.
  • وتم إصلاح خلل خطير في NativeFSLockFactory، والتي قد تسمح IndexWriters متعددة لاكتساب نفس القفل. لم يعد حذف ملف تأمين من الدليل مؤشر حتى عندما لا يتم عقد التأمين.

ما هو جديد في الإصدار 4.7.0:

  • وعندما يكون الترتيب بواسطة سلسلة (SortField.STRING)، يمكنك الآن تحديد ما إذا كانت قيم مفقودة يجب فرز أول (الافتراضي)، أو الماضي.
  • والدعم NRT لأنظمة الملفات التي لم يكن لديك حذف على وثيقة الماضي أو لا يمكن حذفها في حين دلالات المشار إليه.
  • واضاف LongBitSet لإدارة أكثر من 2.1B بت (استخدام خلاف ذلك FixedBitSet).
  • واضاف محلل ل الكردية.
  • واضاف لدعم الحمولة إلى FileDictionary (اقترح) وجعلها أكثر شكلي.
  • وأضيف على BlendedInfixSuggester الجديد، الذي هو مثل AnalyzingInfixSuggester لكن يعزز الاقتراحات التي تطابق الرموز مع مواقف أقل.
  • واضاف SimpleQueryParser: محلل لاستعلامات دخلت البشرية
  • واضاف multitermquery (البدل، بادئة، الخ) لPostingsHighlighter.

ما هو جديد في الإصدار 4.6.0:

  • واضاف لدعم التحديثات الميدانية NumericDocValues ​​(بدون إعادة فهرسة وثيقة) من خلال IndexWriter.updateNumericDocValue (مدة، سلسلة طويلة).
  • والجديدة FreeTextSuggester يمكن التنبؤ الكلمة التالية باستخدام ngram نموذج لغة بسيطة مفيدة لومثل؛ ذيل طويل ومثل؛ اقتراحات.
  • وحدة نمطية التعبير جديدة تسمح لتخصيص المستوى مع بناء الجملة النصي مثل.
  • وA DirectDocValuesFormat جديدة يمكن أن تعقد كل القيم وثيقة في كومة كما جافا مضغوط صفائف الأم.
    يمكن
  • وTerm.hasFreqs الآن تحديد ما إذا كان مجال معين فهرسة لكل وثيقة
  • والترددات المدى.

ما هو جديد في الإصدار 4.5.0:

  • والجديد في الذاكرة تطبيقات DocIdSet التي هي أفضل خاصة من FixedBitSet على مجموعات صغيرة: WAH8DocIdSet، PFORDeltaDocIdSet وEliasFanoDocIdSet
  • وCachingWrapperFilter تخزين الآن المرشحات مع WAH8DocIdSet افتراضيا، والتي لديها استخدام الذاكرة نفس FixedBitSet في أسوأ الحالات ولكن هو أصغر وأسرع في مجموعات صغيرة.
  • وTokenStreams الآن تعيين الزيادة الموقف في النهاية ()، حتى نتمكن من التعامل زائدة الثقوب.
  • وIndexWriter لم تعد الحيوانات المستنسخة في IndexWriterConfig معينة.
  • وبوجفيكسيس وتحسينات مختلفة منذ إصدار 4.4.

ما هو جديد في الإصدار 4.4.0:

  • وحدة نمطية جديدة المكرر: تكرار المراجعات المؤشر بين الخادم و العميل.
  • والجديدة AnalyzingInfixSuggester: يرى اقتراحات تستند إلى مباريات لأي الرموز في الاقتراح، وليس فقط على أساس نقية مطابقة البادئة
  • والجديدة PatternCaptureGroupTokenFilter: تنبعث الرموز متعددة، واحد لكل مجموعة القبض على واحد أو أكثر regexes جافا
  • وحدة جديدة لوسين سطيح.

ما هو جديد في الإصدار 4.3.0:

  • والجديدة SearcherTaxonomyManager يدير شبه حقيقي لمرة ويستأنف من كلا IndexSearcher وTaxonomyReader (لالنحت).
  • وأضيف طريقة جها جديدا إلى وحدة جانب لحساب جانب التهم باستخدام SortedSetDocValuesField، بدون فهرس التصنيف منفصل.
  • وتحسينات كبيرة لأداء minShouldMatch BooleanQuery بسبب تخطي مما أدى الاستفسارات يصل إلى 4000٪ أسرع.
  • وبوجفيكسيس مختلفة وتحسينات منذ إصدار 4.2.1.

ما هو جديد في الإصدار 4.1.0:

  • ووسين لم تعد تسعى عند كتابة ملفات (جميع المجالات مكتوبة على نحو إلحاق الوحيد). وهذا يعني أنه يعمل بشكل افتراضي مع تيارات إلحاق فقط، hdfs، وما إلى ذلك ..
  • والجديدة تشير إلى تطبيقات: AnalyzingSuggester، حيث شكل الأساسي (المحسوبة من لوسين محلل) تستخدم للحصول على اقتراحات منفصلة عن النص عاد وFuzzySuggester، والذي يسمح أيضا لمطابقة دقيق على المدخلات .
  • وتمت إضافة دعم القريبة من الحقيقي إلى وحدة وجه.
  • ونيو تمييز (postingshighlighter) تضاف إلى وحدة تمييز.
  • واضاف FilterStrategy إلى FilteredQuery لمزيد من المرونة في تنفيذ الاستعلام تصفيتها.
  • واضاف CommonTermsQuery لتسريع الاستفسارات بشروط جدا المتكررة للغاية. تم الكشف عن الترددات المدى بكفاءة في وقت الاستعلام - أي وقت من الأوقات مؤشر اعداد المطلوب
  • والعديد من بوجفيكسيس وتحسينات منذ إصدار 4.0.

ما هو جديد في الإصدار 4.0 ألفا:

  • وتنسيقات مؤشر لفترات، وقوائم الإعلانات، تخزين الحقول، وعلى المدى
  • وناقلات، وما هي قابل للتوصيل عبر API الترميز. يمكنك الاختيار من تطبيقات المقدمة أو تخصيص شكل مؤشر والترميز الخاصة بك لتلبية الاحتياجات الخاصة بك.
  • وأداء أسرع بكثير عند استخدام تصفية أثناء البحث.
    يمكن أن الدلائل القائمة على
  • وملف نظام معدل الحد من IO (MB / ثانية) من المواضيع دمج، للحد من IO خلاف بين الاندماج والبحث عن المواضيع.
  • وFuzzyQuery هو 100-200 مرات أسرع من الإصدارات في الماضية.
  • والمدقق الإملائي الجديد، DirectSpellChecker، يجد التصحيحات الممكنة
  • ومباشرة ضد فهرس البحث الرئيسي دون الحاجة إلى مؤشر منفصل.

ما هو جديد في الإصدار 3.6.0:

  • في بالإضافة إلى 5 جافا وجافا 6، وهذا إفراج عنه الآن الدعم الكامل جافا 7 (الحد الأدنى جدك 7u1 مطلوب).
  • والمرشحات TypeTokenFilter الرموز على أساس TypeAttribute بهم.
  • والبق تعويض ثابت في عدد من CharFilters، Tokenizers وTokenFilters التي يمكن أن تؤدي إلى الاستثناءات خلال تسليط الضوء.
  • واضاف الترميز الصوتية: Metaphone، SOUNDEX، Caverphone، Beider مورس، الخ .
  • وCJKBigramFilter وCJKWidthFilter استبدال CJKTokenizer.
  • وKuromoji محلل صرفي tokenizes النص الياباني، وإنتاج كل من الكلمات المركبة وتجزئة بهم.
  • وثابت مؤشر تقليم (تشذيب الكرمل) يزيل ظائف مع التردد المنخفض المدى ضمن وثيقة.
  • وQueryParser يفسر الآن '*' كغاية مفتوحة للاستعلامات النطاق.
  • وFieldValueFilter يستثني الوثائق المفقودة الحقل المحدد.
  • وCheckIndex وIndexUpgrader تسمح لك بتحديد تنفيذ FSDirectory محددة لاستخدامها مع خيار -dir-impl سطر الأوامر الجديدة.
  • وFSTs يمكن الآن لم عكس بحث (عن طريق الإخراج) في بعض الحالات ويمكن أن تكون معبأة لتقليل حجمها. هناك الآن طريقة لاسترداد أعلى N مسارات أقصر من عقدة البداية في FST.
  • والجديدة WFSTCompletionLookup SUGGESTER يدعم المستوى للحصول على اقتراحات الحبيبات الدقيقة.
  • وsuggesters استنادا FST الآن استخدام دون اتصال (يستند إلى قرص) نوع، بدلا من في الذاكرة الفرز، عندما قبل الفرز الاقتراحات.
  • وToChildBlockJoinQuery ينضم في الاتجاه المعاكس (الأم وصولا الى وثائق طفل).
  • وجديد الاستعلام لمرة والانضمام أكثر مرونة (ولكن أقل performant لل) من مؤشر الوقت ينضم.
  • واضاف HTMLStripCharFilter لتجريد علامات HTML.

ما هو جديد في الإصدار 3.5.0:

  • وأضاف كبير جدا (3-5X) RAM الخفض المطلوب لعقد مؤشر الشروط فتح IndexReader.
  • واضاف IndexSearcher.searchAfter التي ترجع النتائج بعد ScoreDoc محددة (على سبيل المثال وثيقة الأخيرة على الصفحة السابقة) لدعم حالات الاستخدام الترحيل عميقة.
  • واضاف SearcherManager لإدارة تقاسم وIndexSearchers إعادة فتح عبر عن المواضيع بحث متعددة. يتم إغلاق الحالات IndexReader الكامنة بأمان إذا لم المشار إليها بعد الآن.
  • واضاف SearcherLifetimeManager الذي يوفر بأمان عرض ثابت من مؤشر عبر طلبات متعددة (مثل ترحيل / الكشف).
  • وتسمية IndexWriter.optimize إلى forceMerge للحد من استخدام هذه الطريقة لأنها مكلفة فظيعة ونادرا ما يبرره بعد الآن.

ما هو جديد في الإصدار 3.3.0:

  • والوحدة المدقق الإملائي ويشمل الآن أقترح / الإكمال التلقائي وظائف، مع ثلاثة تطبيقات: Jaspell، ترناري حاكموا، والدولة محدود
  • ودعم لدمج النتائج من شظايا متعددة، على حد سواء ومثل، وضعها الطبيعي ومثل؛ نتائج البحث (TopDocs.merge)، وكذلك نتائج مجمعة باستخدام وحدة تجميع (SearchGroup.merge، TopGroups.merge).
  • وتنفيذا الأمثل من KStem، وهو محلل جذوع أقل عدوانية للغة الإنكليزية.
  • واحد تمرير تجميع التنفيذ استنادا إلى وثيقة كتلة فهرسة.
  • وإدخال تحسينات على MMapDirectory (الآن أيضا تطبيق الافتراضي إرجاعها بواسطة FSDirectory.open على 64 بت لينكس).
  • وNRTManager يبسط التعامل مع قرب الوقت الحقيقي بحث مع المواضيع بحث متعددة، مما يسمح للتطبيق للتحكم في فهرسة التغييرات يجب أن تكون واضحة والتي طلبات البحث.
  • وTwoPhaseCommitTool يسهل إجراء متعدد الموارد اثنين على مراحل ارتكابها، بما في ذلك IndexWriter.
  • وسياسة دمج الافتراضي، TieredMergePolicy، لديه طريقة جديدة (مجموعة / getReclaimDeletesWeight) للتحكم في كيفية بقوة أنه يستهدف شرائح مع الحذف، والآن أكثر عدوانية من قبل افتراضيا.
  • وأداة PKIndexSplitter انشقاقات مؤشر بمصطلح منتصف النقطة.

ما هو جديد في الإصدار 3.2.0:

  • وحدة نمطية جديدة تجمع تحت لوسين / contrib / تجمع، وتمكن نتائج البحث لتصنيفها حسب حقل مفهرس واحد الكرام.
  • وأداة IndexUpgrader جديدة تماما يحول مؤشر القديم إلى الشكل الحالي.
  • وA تنفيذ دليل جديد، NRTCachingDirectory، تخزين قطاعات صغيرة في ذاكرة الوصول العشوائي، لتقليل الحمل I / O للتطبيقات مع بسرعة NRT إعادة فتح المعدلات.
  • وA تنفيذ جامع جديد، CachingCollector، غير قادرة على جمع يضرب البحث (معرفات وثيقة واختياريا أيضا عشرات) ثم اعادتها لهم. وهذا مفيد لهواة جمع تتطلب اثنين أو أكثر يمر إلى نتائج.
  • ومؤشر كتلة المستند باستخدام addDocuments أو updateDocuments أساليب جديدة IndexWriter ل. هذه واجهات برمجة التطبيقات التجريبية التأكد من أن كتلة من الوثائق ستبقى إلى الأبد متجاورة في الفهرس، مما المستقبل للاهتمام ميزات مثل تجميع وصلات.
  • وسياسة جديدة لدمج الافتراضي، TieredMergePolicy، التي هي أكثر كفاءة نظرا إلى كونها قادرة على دمج قطاعات غير متجاورة.
  • ويتم إرجاع NumericField الآن بشكل صحيح عند تحميل مستند مخزن (سابقا كنت قد تلقيت الحقل العادي إلى الوراء، مع سلسلة قيمة رقمية تحويلها).

ما هو جديد في الإصدار 3.1.0:.

  • وConstantScoreQuery الآن يسمح التفاف استعلام <مباشرة / لى>
    تم تكوين
  • وIndexWriter الآن مع API باني جديد منفصل، IndexWriterConfig. يمكنك الآن التحكم في حدود الصفحات الداخلية الثابتة سابقا IndexWriter عن طريق استدعاء setMaxThreadStates.
    يتم استبدال
  • وIndexWriter.getReader التي كتبها IndexReader.open (IndexWriter). وبالإضافة إلى ذلك يمكنك الآن تحديد ما إذا كان حذف ينبغي حلها عند فتح القارئ NRT.
  • وتم إهمال MultiSearcher. وقد تم استيعابها ParallelMultiSearcher مباشرة إلى IndexSearcher.
  • في 64BIT ويندوز وسولاريس JVMs، MMapDirectory الآن تطبيق الافتراضي (إرجاعها بواسطة FSDirectory.open). كما يتيح MMapDirectory unmapping إذا كان JVM يعتمد عليه.
  • والجديدة TotalHitCountCollector تعول فقط العدد الإجمالي للإصابات.
  • وAPI ReaderFinishedListener تمكن مخابئ الخارجية لطرد إدخالات بمجرد الانتهاء من الجزء.

ما هو جديد في الإصدار 3.0.1:.

  • وإزالة تزامن لزوم لها في FuzzyTermEnum
  • وعندما حل حيث حذف، تفعل ذلك في ترتيب المدى من أجل أداء أفضل.
  • لا لا تبقي بشكل غير صحيح تحذر من المدى الهائل نفسه، عندما IndexWriter.infoStream على.
  • وإصلاح مين / MaxPayloadFunction بإرجاع 0 عندما حمولة واحد فقط موجود.
  • واستفسارات تتألف من جميع بنود صفر دفعة (على سبيل المثال، النص: فو ^ 0) فرزها بشكل غير صحيح وتنتج docids باطلة .
  • وإزالتها من ScoreTerm الطبقة الداخلية محمية من FuzzyQuery. كانت هناك حاجة للتغيير لأن المقارنة من هذه الفئة كان لا بد من تغيير في طريقة غير متوافقة. والطبقة يقصد أبدا أن تكون علنية.

ما هو جديد في الإصدار 2.9.2:

  • وBooleanQuery تم تجاهل disableCoord في hashCode ويساوي الطرق ، يسبب الأشياء السيئة أن يحدث عندما التخزين المؤقت BooleanQueries.
  • لا لا تبقي بشكل غير صحيح تحذر من المدى الهائل نفسه، عندما IndexWriter.infoStream على.
  • وعند معدلات فهرسة عالية، يمكن القارئ NRT تفقد مؤقتا الحذف.

ما هو جديد في الإصدار 3.0.0:

  • وإزالتها من نظام الملكية لتعيين تطبيق فئة SegmentReader.
  • وتغيير نوع عودة SnapshotDeletionPolicy # قطة () من IndexCommitPoint إلى IndexCommit. التعليمات البرمجية التي تستخدم هذا الأسلوب يحتاج إلى معاد ضد لوسين 3.0 من أجل العمل. تتم إزالة IndexCommitPoint انتقدت في السابق أيضا.
  • وتوفير AttributeFactory الراحة التي بإنشاء مثيل رمز لجميع الصفات الأساسية.
  • وإزالة العودية في NumericRangeTermEnum.
  • وتحسين Levenshtein بعد حساب في FuzzyQuery.

برامج مماثلة

Lupyne
Lupyne

13 Apr 15

Mr. Bigglesworth
Mr. Bigglesworth

13 May 15

solrpy
solrpy

12 May 15

البرامج الأخرى من المطور Apache Software Foundation

Apache Nutch
Apache Nutch

1 Mar 15

Apache JMeter
Apache JMeter

12 Apr 15

Apache Any23
Apache Any23

13 Apr 15

Apache Clerezza
Apache Clerezza

20 Jul 15

تعليقات ل Apache Lucene

لم يتم العثور على التعليقات
إضافة تعليق
بدوره على الصور!
البحث حسب الفئة