معلومة

ماذا تعني رموز المحاذاة العنقودية؟

ماذا تعني رموز المحاذاة العنقودية؟



We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

من حين لآخر ، سأقوم بتشغيل محاذاة البروتين على عائلات الببتيد ولا أستطيع أبدًا أن أتذكر ما تعنيه الرموز لإظهار درجات الهوية. ماذا يقصدون؟


من الأسئلة الشائعة لبرنامج Clustal-W2:

تشير * (علامة النجمة) إلى المواضع التي تحتوي على بقايا مفردة محفوظة بالكامل.

ج: (القولون) يشير إلى الحفظ بين المجموعات ذات الخصائص المتشابهة بشدة - تسجيل> 0.5 في مصفوفة Gonnet PAM 250.

أ . (فترة) تشير إلى الحفظ بين مجموعات ذات خصائص متشابهة بشكل ضعيف - تسجيل = <0.5 في مصفوفة Gonnet PAM 250.

لذلك فإن هرمية الحفظ باستخدام هذه الرموز هي * (متطابقة)>: (القولون)>. (فترة).


الشروط الاساسية

المناطق المحمية: في علم الأحياء ، خلال فترة التطور ، قد تكون هناك بعض المناطق تسمى مجموعة القواعد أو سلسلة من النيوكليوتيدات المحفوظة على هذا النحو في الحمض النووي ، أو تلك التسلسلات أو المنطقة ، إذا شوهدت في الأجيال القادمة تسمى المناطق المحفوظة.

تسلسل إجماع: في النيوكليوتيد أو تسلسل الأحماض الأمينية ، قد يحدث كل زوج قاعدي (حمض أميني أو نيوكليوتيد) بشكل متكرر في منطقة معينة في تسلسلات مختلفة من الطبيعة.


تحميل محاذاة

اضغط على تحميل على الصفحة الرئيسية لـ MSA لفتح ملف تحميل البيانات الحوار. يسرد العمود الموجود على اليسار أنواع البيانات المختلفة التي يمكن تحميلها إلى عارض MSA:

سنقوم بتحميل ملف ملف البيانات لمحاذاة البروتين بتنسيق FASTA الذي تم إنشاؤه بواسطة برنامج محاذاة MUSCLE. يختار ملف البيانات وانقر فوق الزر "استعراض" للعثور على ملف 16SRNA_Deino_87seq.aln وإضافته. انقر فوق الزر "تحميل" في الجزء السفلي ، وانتظر حتى تنتهي البيانات من التحميل ، ثم اضغط على الزر "إغلاق".

تأكد من تحميل المحاذاة المتعددة إلى عارض MSA. سترى ملف بانوراما في الجزء العلوي مع عرض المحاذاة تحته ، مع الصف الأول الذي يمثل تسلسل الإجماع. يُظهر عارض البانوراما تغطية وجودة المحاذاة. يتم تلوين المواقف التي تتطابق فيها غالبية التسلسلات مع الإجماع باللون الرمادي ، بينما يتم تلوين المواضع التي تحتوي على نسبة كبيرة من عدم التطابق باللون الأحمر.

في حدود عرض المحاذاة، يتم تمييز عدم التطابق باللون الأحمر بشكل افتراضي. يشار إلى الفجوات بالشرطات (-) بينما تتم الإشارة إلى الإدخالات المتعلقة بتسلسل الإجماع / الارتساء بقوس أزرق (انظر أدناه). مخطط التقديم هذا هو نفسه الذي يستخدمه عارض التسلسل NCBI.

ال معرف التسلسل يظهر العمود معرّفات التسلسل من المحاذاة. ترتبط معرفات دخول NCBI بصفحة الموارد المقابلة في قواعد بيانات NCBI SRA أو Nucleotide أو Protein. تم الإبلاغ عن الأنواع المرتبطة بالانضمام المتسلسل في الكائن الحي عمودي. ملاحظة: لا يتم عرض معلومات الكائن للتسلسلات التي يوفرها المستخدم بدون انضمام NCBI أو لمدخلات NCBI التي تم الإبلاغ عنها مع النطاق ، على سبيل المثال FJ639741: 73..10248

ملاحظة: بالنسبة للصورة في هذه الصفحة ، تم إخفاء مؤشر الجدائل ((+) أو (-)) عن طريق إضافة المعلمة: & ampcolumns = s: 0 إلى URL.


قد تكون محاذاة ثلاثة تسلسلات أو أكثر أمرًا صعبًا وتستغرق دائمًا وقتًا طويلاً للمحاذاة يدويًا. ومن ثم تُستخدم الخوارزميات الحسابية لإنتاج هذه المحاذاة وتحليلها. عظم MSA تستخدم الخوارزميات البرمجة الديناميكية وطرق الكشف عن مجريات الأمور.

الواردة أدناه MSA التقنيات التي تستخدم أساليب الكشف عن مجريات الأمور.

  1. بناء المحاذاة التدريجي
  2. بناء المحاذاة التكرارية
  3. محاذاة قاعدة الكتلة

يمكن أن تجد هذه الطرق حلولًا من بين جميع الحلول الممكنة ، لكنها لا تضمن العثور على أفضل الحلول. ومن ثم فهي تعتبر تقريبية ولكن يمكننا بسهولة إيجاد حل قريب من الحل الفعلي في غضون فترة زمنية قصيرة.


ميزات جديدة

يتم صيانة وتحديث كل من ClustalW و ClustalX بشكل نشط. تضمنت التحسينات الأخيرة إمكانية حفظ كل من المحاذاة وأشجار النشوء والتطور في تنسيق NEXUS (14) من أجل التوافق مع عدد من برامج علم التطور. تم إجراء بعض الأعمال أيضًا لتحسين معلمات المحاذاة ، على سبيل المثال ، يتم الآن استخدام سلسلة Gonnet لمصفوفات مقارنة المخلفات (15) افتراضيًا لمحاذاة تسلسل البروتين. احتوى الإصدار الأخير من البرامج (الإصدار 1.83) ، الذي تم إصداره مطلع هذا العام ، على أربعة تحسينات رئيسية. التعديل الأول هو وسيلة لحفظ نتيجة المحاذاة المتعددة كملف بتنسيق FASTA ، للتوافق مع عدد من حزم البرامج الأخرى. آخر هو توفير مصفوفة هوية النسبة المئوية ، والتي طلبها بعض المستخدمين. الخيار الثالث الجديد هو إمكانية حفظ نطاق البقايا في ملف الإخراج عند حفظ نطاق محدد من قبل المستخدم من المحاذاة. هذا مفيد بشكل خاص عند استخراج مجال واحد من محاذاة البروتينات متعددة المجالات. على سبيل المثال ، في الشكل 1 ، تم استخراج مجال ربط NAD من محاذاة متعددة لتسلسل بروتين أوكسيريدوكتاز كامل الطول وتم إلحاق نطاق البقايا تلقائيًا بأسماء التسلسل. ربما يكون التحسين الأكثر أهمية في الإصدار الأخير ، مع ذلك ، هو دمج تنفيذ أسرع لخوارزمية NJ المستخدمة لإنشاء أشجار توجيهية أثناء عملية المحاذاة المتعددة وأيضًا لإنشاء أشجار النشوء والتطور استنادًا إلى المحاذاة النهائية. يحتوي الجدول 2 على أمثلة للوقت الذي تتطلبه خوارزمية NJ لبناء شجرة النشوء والتطور من المحاذاة التي تحتوي على أعداد مختلفة من التسلسلات. تعني السرعات المتزايدة التي تم الحصول عليها أنه من الممكن الآن إنشاء أشجار النشوء والتطور لمجموعات كبيرة جدًا من التسلسلات ، والتي كانت في السابق ممكنة فقط على أنظمة الكمبيوتر الكبيرة جدًا. على سبيل المثال ، يُظهر الشكل 2 شجرة النشوء والتطور التي تم إنشاؤها من محاذاة أكثر من 1100 تسلسل في مجال الإصبع الدائري مأخوذ من إدخال قاعدة بيانات PFAM (16) PF00097. تم كتابة تنفيذ نيوجيرسي الجديد بواسطة T. Koike. تم نشر تسريع مستقل لخوارزمية NJ وهو متاح مجانًا كبرنامج QuickTree (17). على الرغم من اختلاف تفاصيل الترميز ، فإن كلا التطبيقين عالجا نقاط البطء الرئيسية في الكود الأصلي ، وبالتالي لن يؤدي إلى تحسين اندماجي.


مقدمة

توصف أشكال التسلسل عادة على أنها مناطق محفوظة قصيرة نسبيًا ضمن تسلسل بروتين أو DNA [1]. هذه المناطق ذات أهمية وظيفية: فهي تعمل كمواقع ربط للروابط أو عوامل النسخ ، وكمواقع تحفيزية أو عناصر هيكلية. يمثل وجود الأشكال المتسلسلة إشارة حفظ إضافية [2] ، بالإضافة إلى الحفاظ على تسلسل الأحماض الأمينية.

من الصعب تفسير حفظ الحافز أثناء تحليل التسلسل. سيقوم برنامج المحاذاة المتعددة التسلسل التقليدي (MSA) بوزن كل موضع تسلسل بالتساوي ، وتسجيل المباريات وفقًا لمصفوفة الاستبدال مثل BLOSUM [3] أو PAM [4]. في تسلسل البروتين النموذجي ، يرتبط جزء صغير فقط من الأحماض الأمينية بعنصر ، مما ينتج عنه تمثيل ناقص لإشارة الحفظ المشفرة بواسطة النموذج. توجد حتى حالات يكون فيها حفظ الأحماض الأمينية التقليدية شبه معدوم ، مثل المناطق شديدة التغير. في هذه الحالات فقط يتم الحفاظ على وجود أو عدم وجود الزخارف.

يوضح الشكل 1 مثالًا حيث يتسبب فرط التغير في حدوث مشكلات في محاذاة بروتين غلاف HIV-1 (ENV ، المعروف أيضًا باسم gp120) [5]. خاصيتان متتاليتان لعائلة البروتين الفيروسي هذه هما مفتاح وظيفتها. أولاً ، يحتوي على العديد من المناطق "المتغيرة" التي يتم تحفيزها بشكل مفرط لتجنب اكتشافها من قبل الجهاز المناعي للمضيف. ثانيا، في الجسم الحي، gp120 مزخرف بشكل غني بالجليكان ، وبالتالي فإن أشكال الارتباط بالجليكوزيل المرتبطة بـ N متوفرة بكثرة في التسلسل. يتم إنشاء المحاذاة في الشكل 1 باستخدام أحدث برنامج Clustal Omega [6] الذي يمكن للمرء أن يقدّره في النظرة العامة في الأسفل أنه بشكل عام يقوم بعمل رائع ، وبالتأكيد في المناطق الثابتة ، C3 ، هو هو مبين بالتفصيل كمثال. (لاحظ أن المحاذاة الكاملة تحتوي على أكثر من مائة تسلسل ، لكننا هنا نعرض مجموعة فرعية تمثيلية للوضوح.) ومع ذلك ، بالتركيز على المناطق المتغيرة (المميزة باللون الأحمر) بزخارف الارتباط بالجليكوزيل (باللون الأصفر) ، من الواضح أيضًا أن هذه بشكل عام بشكل سيئ. يوضح الرسم التوضيحي المفصل لـ V1 أن العديد من الأشكال في هذه المنطقة غير محاذية (الشكل 1 أعلى اليسار). هذه حالة نموذجية يمكن رؤيتها في العديد من مجموعات بيانات التسلسل. في هذه الدراسة gp120 ، كان الحل هو تصحيح المناطق المنحرفة يدويًا ، والتي استغرقت الجزء الأفضل من أسبوعين لإكمالها إلى درجة الرضا. سنعود إلى حالة استخدام HIV ENV كمثال في قسم النتائج.

يُظهر الشريط السفلي نظرة عامة على النصف الأول من المحاذاة. في الجزء العلوي ، تظهر إحدى مناطق المتغير (V1 ، يسار) والثابتة (C3 ، يمين). يعتبر الارتباط بالجليكوزيل المرتبط بـ N أمرًا ضروريًا لوظيفة التهرب المناعي لـ ENV وبالتالي هناك انتشار لـ ن-<ص>-[شارع]-<ص> الزخارف في جميع أنحاء. في C3 (يمينًا) ، تكون الزخارف محاذية جيدًا بشكل واضح ولكن في المتغير V1 (يسار) ، على الرغم من أن المناطق المحيطة المحفوظة توفر إرساءًا مناسبًا للمحاذاة ، فمن الواضح أن الزخارف متراصة بشكل سيئ. تم إنشاء هذه المحاذاة باستخدام Clustal Omega [6]. من أجل الوضوح ، يتم هنا عرض مجموعة فرعية فقط من التتابعات التمثيلية (واحد لكل مريض). تم إنشاء الأشكال باستخدام Jalview [18] حيث يظهر وجود أشكال N-terminal glycosylation باللون الأصفر.

كما هو الحال مع HIV ENV ، قد يوفر وجود الزخارف في تسلسل أدلة مهمة حول وظيفة هذا البروتين المعين. قد يكشف التحليل الرأسي لمواقف الحافز في MSA عن معلومات حول الحفاظ على الحافز ، مما يعني ضمناً الضغط الانتقائي ، والذي يشير بدوره إلى دور وظيفي. هذا يعني أيضًا أنه من الممكن استخدام الحفظ الحافز عبر الأنواع لتصفية الزخارف التي تحدث بالصدفة ، مع الأخذ في الاعتبار فقط الزخارف التي من المحتمل أن تكون نشطة بيولوجيًا [7]. سيساعد الحصول على محاذاة أكثر دقة من خلال تضمين معلومات الحافز في العديد من التحليلات النهائية على سبيل المثال سجل تأثير الطفرة أو التنبؤ بخصوصية المخلفات أو تحليل النشوء والتطور.

نهدف إلى معالجة مشكلة محاذاة الحافز من خلال إستراتيجيتنا الجديدة لمحاذاة التسلسل المتعدد ، Motif-Aware PRALINE (MA-PRALINE). يتلقى MA-PRALINE أنماطًا عزرًا في بنية نمط PROSITE ، ويطابقها مع تسلسلات الإدخال وتحيز تسجيل الاستبدال نحو إعطاء الزخارف أهمية أكبر. هذا يعني أن MA-PRALINE ليس ملف من جديد طريقة تحديد الحافز. يجب أولاً تحديد أنماط الحافز ذات التطابقات الكبيرة في الإدخال من خلال وسائل أخرى ، على سبيل المثال ، عن طريق البحث في قاعدة البيانات أو تشغيل برنامج اكتشاف الحافز. يتم التحكم في قوة التحيز نحو محاذاة الحافز بواسطة معلمة ، α. قيم أكبر لـ α يؤدي إلى انحياز أقوى نحو محاذاة الحافز ، بينما α = 0 تعادل محاذاة التسلسل العادي.

تم تنفيذ MA-PRALINE على رأس برنامج المحاذاة المتعددة الحالي PRALINE [8]. PRALINE عبارة عن مجموعة أدوات محاذاة متعددة شائعة ، مع وظائف موجودة لتحسين جودة المحاذاة من خلال دمج معلومات حول مناطق الغشاء (TM-PRALINE) [9] ، والتماثل (PSI-PRALINE) [10] والبنية الثانوية [11]. مفتاح خوارزمية المحاذاة المدركة للدوافع هو دعم مسارات التسلسل المتعددة في PRALINE ، يمكن أن تحتوي هذه المسارات على مصادر متعددة للبيانات لكل موضع تسلسل. وبالتالي يمكن دمج بيانات التسلسل الأخرى بطريقة مماثلة ، مثل المعلومات حول مقاطع الغشاء الممتد أو البنية الثانوية.

تمت تجربة العديد من الأساليب ذات الصلة لتحسين جودة المحاذاة في الماضي. يستخدم Db-Clustal [12] أجزاء متسلسلة محفوظة بدرجة عالية كنقاط ربط لتحسين جودة محاذاة التسلسل المتعدد. يثبت COBALT [13] المحاذاة باستخدام مجموعة فرعية متسقة من القيود المشتقة من معلومات المجال أو من أنماط PROSITE [14]. يسمح FMALIGN [15] للمستخدم بتحديد المناطق المحفوظة الخاصة. ثم يتم إصلاح هذه المناطق في المحاذاة الناتجة ، ومن الممكن أيضًا تحديد مناطق محمية جديدة بطريقة تكرارية. الاختلاف الرئيسي في النهج الذي تتبعه MA-PRALINE ، على عكس هذه الأساليب الأخرى ، هو استخدام القيود الناعمة. من خلال تخصيص مكافأة درجة ، بدلاً من تقييد أو ترسيخ المحاذاة ، يمكن تخفيف المشاكل ذات الإيجابيات الزائفة أو الزخارف الزائفة بشكل أكثر فعالية.

في هذا العمل ، طورنا أولاً طريقة محاذاة مدركة للعواطف. ثانيًا ، نظهر ، من خلال معيار معياري ، أن هناك نطاقًا من α القيم حيث تعمل معلومات الحافز على تحسين محاذاة المناطق الغنية بالعناصر ، مع عدم المساس بجودة المحاذاة الشاملة. نحن نتحقق أيضًا من صحة طريقتنا من خلال اشتقاق تقدير لإشارة حفظ الحافز على مجموعة بيانات أخرى من المحاذاة المرجعية. نجد أن هذين التقديرين ، المتعامدين إلى حد كبير ، للمدى المسموح به لـ α متفقون. أخيرًا ، نوضح مزايا استخدام استراتيجية محاذاة مدركة للدوافع ، من خلال النظر في اختزال النترات ، وفيروس نقص المناعة البشرية ENV ، وعائلات بروتين الكوبريدوكسين ، وجميعها تحتوي على عناصر وظيفية محفوظة.

سابقًا ، أظهرنا أن نهجًا مشابهًا مفيد لمحاذاة أشكال ربط عامل النسخ في مناطق تسلسل الحمض النووي [7]. نوضح في هذا العمل أن النهج المدرك للعواطف يمكن أن يكون مفيدًا بنفس القدر في أشكال تسلسل البروتين. لإثبات MA-PRALINE في سياق عملي ، نستكشف عددًا من حالات الاستخدام في العالم الحقيقي. وتشمل هذه العديد من العائلات الصعبة من معيار المحاذاة BAliBASE ، بالإضافة إلى حالة استخدام HIV gp120 [5] المقدمة أعلاه. يتوفر MA-PRALINE لأنظمة Windows و Mac و Linux ، وكبرنامج مفتوح المصدر ، يمكن العثور عليه على GitHub على https://github.com/ibivu/MA-PRALINE.


ماذا تعني رموز المحاذاة العنقودية؟ - مادة الاحياء

ملاحظة: تم تصميم Scoreout.c للبرنامج لحساب درجة المحاذاة لزوج معين من متواليات الأحماض الأمينية. ولكن إذا كان هناك أي فرق بين النتيجة التي تحسبها والنتيجة المحددة أدناه ، فإننا نعتبر (لهذه المسابقة فقط) النتيجة المحسوبة بواسطة Scoreout.c هي النتيجة الصحيحة.

1. البروتين (تسلسل الأحماض الأمينية)

2. المحاذاة المثلى

  1. إدخال عدد من الفراغات أمام تسلسل واحد ، و
  2. إدخال عدد من الرموز "-" (والتي تسمى "فجوة") في بعض النقاط في التسلسلات.

3. يسجل لمحاذاة معينة

على سبيل المثال ، ضع في اعتبارك المحاذاة التالية. ثم 32 هو إجمالي درجات الرموز. من ناحية أخرى ، لكل إدخال فجوة (أي رمز "-") ، يتم إعطاء عقوبة على النحو التالي: مجموع عقوبة الفجوة هو مجموع هذه العقوبات. على سبيل المثال ، إجمالي عقوبة الفجوة للمحاذاة السابقة -24 مما يلي. يتم تحقيق الدرجة ، على سبيل المثال ، من خلال المحاذاة التالية.

5. كيفية حساب درجة المحاذاة

شرط الحدود مهم أيضا. بالنسبة لحالتنا ، نحتاج إلى النظر في الحالتين i = m و j = n. نظرًا لأن كلتا الحالتين متماثلتان ، فإننا نقدم تفسيرًا للحالة i = m. تذكر أنه لا يمكننا تخطي X [n] بإدخال فجوة في Y في الموضع المقابل. ومن ثم ، تصبح صيغة التكرار على النحو التالي. أخيرًا ، يتم حساب درجة المحاذاة (تحت عقوبة الفجوة المبسطة) على النحو التالي. لاحظ أن النتيجة 0 (1، k) هي أكبر درجة لجميع المحاذاة التي تطابق X [1] و Y [k].

لحساب درجة المحاذاة الحقيقية ، نحتاج إلى تمييز فجوة في أقصى اليسار (لبعض تسلسل الفجوات) عن الفجوات الأخرى. لهذا الغرض ، فإننا نعتبر الوظائف الثلاث التالية:

من خلال فكرة مماثلة ، يمكننا تحديد صيغ التكرار لحساب هذه الوظائف. على سبيل المثال ، يتم الآن حساب النتيجة 0 على النحو التالي. من ناحية أخرى ، يتم حساب الدرجة 1 (الدرجة 2 بالمثل) على النحو التالي. لاحظ أنه يتم حساب الدرجة (X ، Y) بنفس الطريقة تمامًا مثل الصيغة (*) أي ، يتم استخدام الدرجة 0 فقط لحساب درجة المحاذاة.


مناهج جديدة لعلم النظاميات بدائية النواة

Xiaoying Rong، Ying Huang، in Methods in Microbiology، 2014

2.4.1.1 تسلسل المحاذاة

تعد محاذاة التسلسل جنبًا إلى جنب مع كل من فحص الجودة السابق واللاحق للبيانات (الخام) لكل موقع متطلبات مسبقة لـ MLSA. سلسلة البرامج Clustal هي الأكثر استخدامًا لمحاذاة التسلسل المتعدد. يمكن تحسين دقة وسرعة المحاذاة المتعددة من خلال استخدام برامج أخرى ، بما في ذلك MAFFT و Muscle و T-Coffee ، والتي تميل إلى مراعاة متطلبات قابلية التوسع ودقة بيانات التسلسل واسعة النطاق بشكل متزايد ، وتأثير RNAs الوظيفية غير المشفرة واستخراج المعرفة البيولوجية لمحاذاة التسلسل المتعدد (Blackburne & amp Whelan ، 2013). يمكن استخدام برنامج MaxAlign (Gouveia-Oliveira و Sackett و amp Pedersen ، 2007) لحذف التسلسلات غير العادية من محاذاة التسلسل المتعددة من أجل زيادة حجم مناطق المحاذاة ، وبرنامج Gblocks (Talavera & amp Castresana ، 2007) لتحديد الكتل المحفوظة من مواضع محاذة بشكل سيئ وتشبع بدائل متعددة لمحاذاة متعددة لتحليلات النشوء والتطور القائمة على MLSA.


تنسيقات الملفات

يسرد هذا الجدول تنسيقات الملفات التي يمكن لـ Bio.AlignIO قراءتها وكتابتها ، مع إصدار Biopython حيث تم دعم ذلك لأول مرة.

اسم التنسيق عبارة عن سلسلة أحرف صغيرة بسيطة تطابق الأسماء المستخدمة في Bio.SeqIO. حيثما أمكن ، نستخدم نفس اسم BioPerl's SeqIO و EMBOSS.

اسم التنسيق يقرأ يكتب ملحوظات
العنقودية 1.46 1.46 تنسيق المحاذاة لـ Clustal X و Clustal W.
زخرف 1.46 لا تنسيق المحاذاة بسيط / أزواج EMBOSS.
فاستا 1.46 1.48 هذا يشير إلى إدخال تم تقديم تنسيق ملف لأداة FASTA من Bill Pearson ، حيث يبدأ كل سجل بسطر "& gt". لاحظ أن تخزين أكثر من محاذاة بهذا التنسيق أمر غامض. فشلت كتابة ملفات FASTA باستخدام AlignIO قبل الإصدار 1.48 (Bug 2557).
فاستا- m10 1.46 لا يشير هذا إلى المحاذاة الزوجية انتاج من أدوات FASTA الخاصة بـ Bill Pearson ، وتحديدًا الإصدار القابل للقراءة آليًا عند استخدام خيار سطر الأوامر -m 10. لا يتم دعم إخراج النص ذي التنسيق الحر الافتراضي من أدوات FASTA.
ig 1.47 لا يشير الرمز إلى تنسيق ملف IntelliGenetics الذي يستخدم غالبًا للتسلسلات العادية غير المحاذاة. يبدو أيضًا أن أداة MASE تستخدم نفس تنسيق الملف للمحاذاة ، ومن ثم تم تضمينها في هذا الجدول. انظر تنسيق MASE.
ماف 1.69 1.69 تنسيق المحاذاة المتعددة (MAF) من إنتاج Multiz. تُستخدم لتخزين محاذاة الجينوم بالكامل ، مثل المحاذاة ذات 30 اتجاهًا المتاحة من متصفح الجينوم UCSC.
خبازي 1.70 1.70 تنسيق ملف Mauve متعدد FastA (XMFA) الموسع
msf 1.75 لا تنسيق ملف GCG MSF.
الرابطة 1.46 1.48 يُعرف أيضًا باسم تنسيق PAUP. يستخدم Bio.Nexus داخليا. يتم دعم محاذاة واحدة فقط لكل ملف.
phylip 1.46 1.46 هذا تفسير صارم لتنسيق PHYLIP المتشابك الذي يقتطع الأسماء في 10 أحرف.
phylip متسلسلة 1.59 1.59 هذا تفسير صارم لتنسيق PHYLIP المتسلسل الذي يقتطع الأسماء في 10 أحرف.
استرخاء phylip 1.58 1.58 هذا تفسير مريح لتنسيق PHYLIP الذي يسمح بأسماء طويلة.
ستوكهولم 1.46 1.46 يدعم تنسيق الملف هذا ، المعروف أيضًا باسم تنسيق PFAM ، التعليقات التوضيحية الغنية.

بالإضافة إلى ذلك ، يمكنك تخزين التسلسلات (المحظورة) من المحاذاة في العديد من تنسيقات الملفات التي يدعمها Bio.SeqIO. المثال الأكثر شيوعًا على ذلك هو تخزين المحاذاة بتنسيق Fasta البسيط. ومع ذلك ، فإن تخزين أكثر من محاذاة في ملف واحد من هذا القبيل أمر غامض - وهذا غير مستحسن.


بعض النصائح المفيدة

  • أوصي بشدة بالتعود على حفظ عملك مبكرًا وفي كثير من الأحيان!
  • تعتاد على تنسيقات ملفات FASTA & # 8211 ستحتاج إليها عند التنزيل من بيوت المقاصة مثل GenBank (http://www.ncbi.nlm.nih.gov/BLAST/blastcgihelp.shtml)
  • بشكل عام ، إذا كنت تقوم بمحاذاة التسلسلات مع مناطق LTR (التكرارات الطرفية الطويلة) ، فقد تحاول حذف هذه المناطق طالما أنها جميعها متطابقة في التركيب والطول & # 8211 سيؤدي ذلك إلى تسريع المحاذاة دون التضحية بالدقة.
  • كلما طالت التسلسلات ، زاد الوقت المطلوب.

ترقبوا المقالة التالية في هذه السلسلة ، والتي سنتحدث فيها عن برامج محاذاة التسلسل المختلفة المتوفرة.


شاهد الفيديو: محاذاة التتابع Sequence Alignment (أغسطس 2022).