MDP (مجموعة أدوات وحدات لمعالجة البيانات) هي مكتبة من استخدامها على نطاق واسع خوارزميات معالجة البيانات التي يمكن دمجها وفقا لتشبيه خط أنابيب لبناء أكثر تعقيدا برامج معالجة البيانات.
من وجهة نظر المستخدم، MDP يتكون من مجموعة من الخوارزميات تحت إشراف وغير خاضعة للرقابة التعلم، وغيرها من البيانات تجهيز الوحدات (العقد) التي يمكن دمجها في تسلسل معالجة البيانات (التدفقات) وأكثر تعقيدا أبنية شبكة التغذية إلى الأمام. نظرا لمجموعة من البيانات المدخلة، MDP يعتني تدريب تباعا أو تنفيذ جميع العقد في الشبكة. وهذا يسمح للمستخدم بتحديد خوارزميات معقدة على شكل سلسلة من أبسط الخطوات معالجة البيانات بطريقة طبيعية.
قاعدة خوارزميات المتاحة في ازدياد مستمر ويشمل، على سبيل المثال ولكن الأكثر شيوعا، مدير تحليل المركبات (PCA وNIPALS)، عدة خوارزميات تحليل المكونات المستقلة (CuBICA، FastICA، TDSEP، اليشم، وXSFA)، تحليل اخبارى البطيء، التمويه المصنفات، مقيدة بولتزمان آلة، ومحليا الخطي التضمين.
وقد أوليت عناية خاصة لجعل الحسابات كفاءة من حيث السرعة والذاكرة. للحد من متطلبات الذاكرة، فمن الممكن أن تؤدي التعلم باستخدام دفعات من البيانات، وتحديد المعلمات الداخلية من العقد لتكون دقة واحدة، الأمر الذي يجعل من استخدام بيانات كبيرة جدا يضع ممكن. وعلاوة على ذلك، فإن "موازية" subpackage يقدم التنفيذ المتوازي من العقد الأساسية والتدفقات.
من وجهة نظر المطور، MDP هو الإطار الذي يجعل تنفيذ خوارزميات التعلم تحت إشراف وغير خاضعة للرقابة جديدة سهلة ومباشرة. الطبقة الأساسية، 'عقدة'، يعتني مهام شاقة مثل نوع العددي وفحص أبعاد، وترك المطور حر في التركيز على تنفيذ التعلم والتنفيذ على مراحل. بسبب واجهة المشتركة، وعقدة ثم يدمج تلقائيا مع بقية المكتبة، ويمكن استخدامها في شبكة معا مع العقد الأخرى. عقدة يمكن أن يكون لها مراحل التدريب المتعددة وحتى عدد غير محدد من المراحل. وهذا يسمح للتنفيذ الخوارزميات التي تحتاج إلى جمع بعض الإحصاءات على المدخلات كله قبل الشروع في التدريب الفعلي، وغيرها التي تحتاج إلى تكرار خلال مرحلة التدريب حتى معيار التقارب هو راض. يتم الحفاظ على القدرة على تدريب كل مرحلة باستخدام قطع من إدخال البيانات إذا تم إنشاء قطع مع iterators. وعلاوة على ذلك، والانتعاش تحطم متاح اختياريا: في حالة الفشل، يتم حفظ الحالة الراهنة للتدفق للتفتيش في وقت لاحق.
لقد كتب MDP في سياق البحوث النظرية في علم الأعصاب، ولكن تم تصميمه لتكون مفيدة في أي سياق آخر، حيث تستخدم بيانات قابلة للتدريب خوارزميات معالجة. بساطته على الجانب المستعمل جنبا إلى جنب مع إعادة استخدام العقد تنفيذها جعله أيضا أداة تعليمية صالحة
ما هو الجديد في هذا الإصدار:.
بيثون 3 الدعم.
التوسعات الجديدة: التخزين المؤقت والتدرج.
وتحسين وتوسيع نطاق البرنامج التعليمي.
العديد من التحسينات وبوجفيكسيس.
هذا الإصدار هو تحت رخصة BSD.
ما هو الجديد في الإصدار 2.5:
2009-06-30: أضيفت الكشف على الانترنت من الواجهة الخلفية الرقمية، ودعم الثعبان مواز، الخلفية symeig والخلفية الرقمية لإخراج وحدة الاختبارات. ينبغي أن تساعد في تصحيح الأخطاء.
2009-06-12: دمج قطع والرسم البياني العقد.
2009-06-12: علة ثابتة في تدفق الموازي (معالجة الاستثناء).
2009-06-09: علة ثابتة في LLENode عندما output_dim هو تعويم. بفضل كونراد Hinsen.
2009-06-05: البق الثابتة في التدفق الموازي للالمنظمون متعددة.
2009-06-05: إصلاح الخلل في طبقة عكسية، وذلك بفضل البرتو إسكالانتي.
2009-04-29: أضاف LinearRegressionNode.
2009-03-31: PCANode لا يشكو بعد ذلك عندما مصفوفة التغاير لديه القيم الذاتية السلبية المنتدى SVD == صحيح أو تقليل == صحيح. إذا تم تحديد output_dim لديه التباين المطلوب، يتم تجاهل القيم الذاتية السلبية. تحسين رسالة الخطأ SFANode في حالة من القيم الذاتية السلبية، فإننا نقترح الآن لprepend عقدة مع PCANode (SVD = صحيح) أو PCANode (الحد = صحيح).
2009-03-26: هاجر من حزمة موضوع القديمة إلى خيوط جديدة واحدة. علم تضاف إلى تعطيل التخزين المؤقت في عملية جدولة. هناك بعض التغييرات الحاسمة بالنسبة المنظمون حسب الطلب (لا يتأثر تدفق التدريب الموازي أو التنفيذ).
2009-03-25: أضيفت مراجعة إس تتبع الدعم.
2009-03-25: إزالة العلم copy_callable للجدولة، وهذا هو الآن محل تماما من التفرع في TaskCallable. هذا أي تأثير للواجهة ParallelFlow مريحة، ولكن المنظمون مخصص الحصول على كسر.
2009-03-22: نفذت التخزين المؤقت في ProcessScheduler.
2009-02-22: make_parallel يعمل الآن تماما في المكان المناسب لحفظ الذاكرة.
2009-02-12: أضيفت طرق حاوية لFlowNode.
2009-03-03: أضيفت CrossCovarianceMatrix مع الاختبارات.
2009-02-03: أضيفت IdentityNode.
2009-01-30: أضيفت وظيفة مساعد في hinet لعرضه مباشرة على تمثيل تدفق HTML.
2009-01-22: السماح output_dim في طبقة لتعيين بتكاسل.
2008-12-23: أضيفت total_variance إلى عقدة nipals.
2008-12-23: مجموعة دائما explained_variance وtotal_variance بعد التدريب في PCANode.
2008-12-12: symrand التعديل لتعود حقا المصفوفات المتماثلة (وليس فقط إيجابية محددة). GaussianClassifierNode تكييفها لحساب ذلك. symrand تكييفها للعودة أيضا المصفوفات الهرميتي المعقدة.
2008-12-11: ثابت مشكلة واحدة في PCANode (عندما تم تعيين output_dim إلى input_dim التباين الكلي وتعامل على أنها غير معروف). المعلمة var_part ثابتة في ParallelPCANode.
2008-12-11: أضيفت ميزة var_part إلى PCANode (فلتر وفقا لتباين نسبة إلى absoute الفرق).
2008-12-04: راكب في عداد المفقودين محور ARG في الدعوة AMAX في البرنامج التعليمي. بفضل صموئيل جون!
2008-12-04: الثابتة والمناولة في ParallelFlow مكرر البيانات فارغة. وأضاف أيضا الشيكات مكرر فارغة في التدفق العادي (رفع استثناء إذا كان مكرر فارغ).
2008-11-19: PCA التعديل والعقد SFA للتحقق من القيم الذاتية negaive في المصفوفات COV
2008-11-19: symeig متكاملة في scipy، يمكن استخدام برنامج تنمية الأسواق من هناك الآن.
2008-11-18: أضيفت ParallelFDANode.
2008-11-18: تحديث القطار استدعاء لParallelFlow لدعم حجج إضافية.
2008-11-05: إعادة كتابة لجعل رمز بالتوازي مع ذلك، يدعم الآن الهياكل hinet.
2008-11-03: إعادة كتابة من hinet repesentation HTML الخالق. للأسف هذا يكسر أيضا الواجهة العمومية، ولكن التغييرات بسيطة جدا.
2008-10-29: اغلاق التحذيرات القادمة من العمليات البعيدة في ProcessScheduler
2008-10-27: المشكلة الثابتة مع الكتابة kwargs في طريقة الحرف الأول من ParallelFlow.
2008-10-24: ثابت العقد pretrained خطأ في hinet.FlowNode.
2008-10-20: علة ثابتة استيراد حاسما في حزمة متوازية عند تثبيت ص (مكتبة الثعبان موازية).
المتطلبات:
بيثون
NumPy
SciPy
لم يتم العثور على التعليقات