وreciprocal_smallest_distance هو خوارزمية orthology البشرى يستخدم محاذاة تسلسل العالمية والحد الأقصى احتمال المسافة التطورية بين متواليات ليكشف بدقة orthologs بين الجينوم.
تثبيت من كتل القطران
تحميل وuntar أحدث نسخة من جيثب:
مؤتمر نزع السلاح ~
-L حليقة https://github.com/downloads/todddeluca/reciprocal_smallest_distance/reciprocal_smallest_distance-VERSION.tar.gz | القطران xvz
تثبيت reciprocal_smallest_distance، مع التأكد من استخدام بايثون 2.7:
مؤتمر نزع السلاح reciprocal_smallest_distance-VERSION
بيثون setup.py تثبيت
باستخدام RSD إلى البحث Othologs
الأوامر المثال التالي شرح طرق رئيسية لتشغيل rsd_search. كل الاحتجاج rsd_search يتطلب تحديد موقع ملف تسلسل بتنسيق FASTA لمدة الجينوم، ودعا الاستعلام والجينوم الموضوع. ترتيبها هو إجراء تعسفي، ولكن إذا كنت تستخدم الخيار --ids، يجب على هويات تأتي من الجينوم الاستعلام. يجب أيضا تحديد ملف لكتابة نتائج orthologs وجدت من قبل خوارزمية RSD. شكل ملف الإخراج يحتوي ortholog واحد في كل سطر. يحتوي كل سطر هوية الاستعلام تسلسل، يخضع معرف تسلسل، والمسافة (محسوبة من قبل codeml) بين متواليات. يمكنك تحديد اختياريا ملف يحتوي على هويات باستخدام الخيار --ids. ثم RSD سيتم البحث فقط عن orthologs لأولئك هويات. باستخدام --divergence و--evalue، لديك خيار استخدام عتبات مختلفة من الإعدادات الافتراضية.
الحصول على تعليمات حول كيفية تشغيل rsd_search، rsd_blast، أو rsd_format:
rsd_search -h
rsd_blast -h
rsd_format -h
البحث orthologs بين جميع متواليات في الاستعلام وتخضع الجينوم، وذلك باستخدام الاختلاف الافتراضية وevalue عتبات
أمثلة rsd_search -q / الجينوم / Mycoplasma_genitalium.aa / Mycoplasma_genitalium.aa
--subject الجينوم = الأمثلة / الجينوم / Mycobacterium_leprae.aa / Mycobacterium_leprae.aa
-o Mycoplasma_genitalium.aa_Mycobacterium_leprae.aa_0.8_1e-5.orthologs.txt
البحث orthologs باستخدام عدة الاختلاف وevalue عتبات غير افتراضية
أمثلة rsd_search -q / الجينوم / Mycoplasma_genitalium.aa / Mycoplasma_genitalium.aa
--subject الجينوم = الأمثلة / الجينوم / Mycobacterium_leprae.aa / Mycobacterium_leprae.aa
-o Mycoplasma_genitalium.aa_Mycobacterium_leprae.aa.several.orthologs.txt
--de 0.2 1E-20 --de .5 0.00001 --de 0.8 0.1
وليس من الضروري لتنسيق ملف FASTA BLAST أو لحساب BLAST يضرب لrsd_search يفعل ذلك لك.
ولكن إذا كنت تخطط لتشغيل rsd_search عدة مرات لنفس الجينوم، وخاصة بالنسبة الجينوم كبيرة، يمكنك توفير الوقت عن طريق استخدام rsd_format إلى preformatting الملفات FASTA وrsd_blast إلى precomputing الانفجار يضرب. عند تشغيل rsd_blast، للتأكد من استخدام --evalue كبيرة مثل أكبر عتبة evalue كنت تنوي اعطاء rsd_search.
هنا هو كيفية تنسيق زوج من الملفات FASTA في مكان و:
rsd_format -g أمثلة / الجينوم / Mycoplasma_genitalium.aa / Mycoplasma_genitalium.aa
rsd_format -g أمثلة / الجينوم / Mycobacterium_leprae.aa / Mycobacterium_leprae.aa
وهنا هو كيفية تنسيق الملفات FASTA، ووضع النتائج في دليل آخر (الدليل الحالي في هذه الحالة)
rsd_format -g أمثلة / الجينوم / Mycoplasma_genitalium.aa / Mycoplasma_genitalium.aa -d.
rsd_format -g أمثلة / الجينوم / Mycobacterium_leprae.aa / Mycobacterium_leprae.aa -d.
هنا هو كيفية حساب إلى الأمام وعكس يضرب الانفجار (باستخدام evalue الافتراضي):
rsd_blast -v -q أمثلة / الجينوم / Mycoplasma_genitalium.aa / Mycoplasma_genitalium.aa
--subject الجينوم = الأمثلة / الجينوم / Mycobacterium_leprae.aa / Mycobacterium_leprae.aa
--forward-يضرب q_s.hits --reverse-يضرب s_q.hits
هنا هو كيفية حساب إلى الأمام والانفجار العكسي يضرب لrsd_search، وذلك باستخدام الجينومات التي تم تهيئتها للانفجار وevalue غير الافتراضي
rsd_blast -v -q Mycoplasma_genitalium.aa
--subject الجينوم = Mycobacterium_leprae.aa
--forward-يضرب q_s.hits --reverse-يضرب s_q.hits
-ما لا الشكل --evalue 0.1
البحث orthologs بين جميع متواليات في الاستعلام والجينوم تخضع باستخدام الجينومات التي تم تهيئتها للانفجار
rsd_search -q Mycoplasma_genitalium.aa
--subject الجينوم = Mycobacterium_leprae.aa
-o Mycoplasma_genitalium.aa_Mycobacterium_leprae.aa_0.8_1e-5.orthologs.txt
-ما لا الشكل
البحث orthologs بين جميع متواليات في الاستعلام والجينوم تخضع باستخدام الضربات التي تم حسابها. لاحظ أن الشكل -ما لا يتم تضمين، لأنه منذ تم بالفعل احتساب الضربات الانفجار جينومات لا تحتاج إلى أن يتم تنسيق للانفجار.
rsd_search -v --query الجينوم Mycoplasma_genitalium.aa
--subject الجينوم = Mycobacterium_leprae.aa
-o Mycoplasma_genitalium.aa_Mycobacterium_leprae.aa.default.orthologs.txt
--forward-يضرب q_s.hits --reverse-يضرب s_q.hits -ما لا الشكل
البحث orthologs لمتواليات محددة في الجينوم الاستعلام. لإيجاد orthologs فقط بضع متواليات، وذلك باستخدام -ما لا الانفجار ذاكرة التخزين المؤقت يمكن تسريع الحساب. YMMV.
أمثلة rsd_search -q / الجينوم / Mycoplasma_genitalium.aa / Mycoplasma_genitalium.aa
--subject الجينوم = الأمثلة / الجينوم / Mycobacterium_leprae.aa / Mycobacterium_leprae.aa
-o أمثلة / Mycoplasma_genitalium.aa_Mycobacterium_leprae.aa_0.8_1e-5.orthologs.txt
--ids أمثلة / Mycoplasma_genitalium.aa.ids.txt -ما لا الانفجار ذاكرة التخزين المؤقت
تنسيقات الإخراج
يمكن حفظ Orthologs في العديد من الأشكال المختلفة باستخدام الخيار --outfmt من rsd_search. التنسيق الافتراضي، --outfmt -1، ويشير إلى --outfmt 3. مستوحاة من Uniprot دات الملفات، ومجموعة من orthologs يبدأ مع خط المعلمات، ثم ديه 0 أو أكثر من خطوط ortholog، ثم لديها خط النهاية. وparametes هي اسم الاستعلام الجينوم، تخضع اسم الجينوم، عتبة الاختلاف، وعتبة evalue. كل ortholog على خط واحد يعدد معرف الاستعلام تسلسل، هوية تسلسل الموضوع، والحد الأقصى للتقدير المسافة احتمال. هذا الشكل يمكن أن تمثل orthologs لمجموعات متعددة من المعلمات في ملف واحد، وكذلك مجموعات من المعلمات مع أي orthologs. لذلك فهي مناسبة للاستخدام مع rsd_search عند تحديد متعددة الاختلاف وevalue العتبات.
هنا هو مثال يحتوي على 2 مجموعات المعلمة، واحدة منها لا يوجد لديه orthologs:
PA tLACJO tYEAS7 t0.2 t1e 15
OR tQ74IU0 tA6ZM40 t1.7016
OR tQ74K17 tA6ZKK5 t0.8215
//
PA tMYCGE tMYCHP t0.2 t1e 15
//
الشكل الأصلي للRSD، --outfmt 1، وتقدم للتوافق مع الإصدارات السابقة. يحتوي كل سطر على ortholog، ممثلة على النحو المعرف تسلسل الموضوع، الاستعلام تسلسل الهوية، والحد الأقصى تقدير المسافة احتمال. ويمكن أن تمثل سوى مجموعة واحدة من orthologs في ملف.
على سبيل المثال:
A6ZM40 tQ74IU0 t1.7016
A6ZKK5 tQ74K17 t0.8215
تنص أيضا على التوافق هو تنسيق المستخدمة داخليا من قبل تقرير اخبارى (http://roundup.hms.harvard.edu/) الذي يشبه شكل RSD الأصلي، باستثناء العمود معرف تسلسل الاستعلام قبل معرف تسلسل الموضوع.
على سبيل المثال:
Q74IU0 tA6ZM40 t1.7016
Q74K17 tA6ZKK5 t0.8215
المتطلبات:
بيثون
NCBI BLAST 2.2.24
PAML 4.4
Kalign 2.04
لم يتم العثور على التعليقات