معلومة

المعلوماتية الحيوية - ربط الحمض النووي ، بيانات البروتين الخاصة بالتسلسل

المعلوماتية الحيوية - ربط الحمض النووي ، بيانات البروتين الخاصة بالتسلسل


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

أنا عالم كمبيوتر ونعمل على خوارزميات التنبؤ بوظيفة البروتين. في الوقت الحالي ، نود أن نفحص حساب خصائص ربط البروتين والحمض النووي. لهذا ، سنستخدم مجموعات البيانات حول احتواء بروتينات ربط الحمض النووي وتسلسلات الحمض النووي التي ترتبط بها. كنت أبحث في Gene Ontology and Protein Databank حيث كنت أتوقع مثل هذه المعلومات ، لكنني لم أتمكن من العثور عليها. هل يصعب الحصول على مثل هذه البيانات حاليًا؟ أو ببساطة لم يتم جمعها؟ أو هل يمكن أن تعطيني بعض التوجيهات حيث أبحث عن مثل هذه البيانات. شكرا.


كنت تبحث عن قاعدة بيانات لخصوصيات ربط عامل النسخ. تحتوي بعض قواعد بيانات الكائنات الحية النموذجية (التي يتم تنسيقها يدويًا) ، مثل Wormbase ، على بعض من هذا التعليق التوضيحي. أقترح أن تبحث في PubMed عن أوراق كتبها تيم هيوز من جامعة تورنتو. لقد نشر على نطاق واسع حول هذا الموضوع على مدى السنوات الخمس الماضية. ستتيح لك الأوراق التي يستشهد بها والأوراق التي تستشهد به ، بدء طريقك إلى الموضوع.


بروتين مرتبط بالحمض النووي أحادي السلسلة خاص بالتسلسل ، الشكل الإسوي A

& ltp> توفر درجة التعليق التوضيحي مقياسًا إرشاديًا لمحتوى التعليق التوضيحي لإدخال أو بروتيوم UniProtKB. هذه الدرجة & ltstrong> لا يمكن & lt / strong> استخدامها كمقياس لدقة التعليق التوضيحي حيث لا يمكننا تحديد "التعليق التوضيحي الصحيح" لأي بروتين معين. & ltp> & lta href = '/ help / annotation_score' target = '_ top'> أكثر. & lt / a> & lt / p> - دليل تجريبي على مستوى البروتين i & ltp> يشير هذا إلى نوع الدليل الذي يدعم وجود البروتين. لاحظ أن دليل "وجود البروتين" لا يعطي معلومات عن دقة أو صحة التسلسل (التسلسلات) المعروضة. & ltp> & lta href = '/ help / protein_existance' target = '_ top'> المزيد. & lt / a> & lt / p>

حدد قسم على اليسار لرؤية المحتوى.


يتم تحديد خصوصية التسلسل في ربط الحمض النووي بالارتباط بدلاً من التفكك

يعد الارتباط المحدد بالتسلسل للبروتينات في الحمض النووي ضروريًا للوصول إلى المعلومات الجينية. هنا ، نشتق معادلة بسيطة للتعرف على الموقع المستهدف ، والتي تكشف عن اقتران غير معترف به سابقًا بين الارتباط العياني ومعدلات تفكك بروتين البحث. الأهم من ذلك ، أن هذه العلاقة تجعل من الممكن استرداد المعدلات المجهرية ذات الصلة من المعدلات العيانية المحددة تجريبياً. نحن نختبر المعادلة مباشرة من خلال ملاحظة ارتباط وفك ارتباط الفرد لاك مثبط (LacI) أثناء البحث الهدف. وجدنا أن LacI ينفصل عن التسلسلات المستهدفة المختلفة بمعدلات تفكك مجهري متطابقة بشكل أساسي. بدلاً من ذلك ، يتم تحديد خصوصية التسلسل من خلال الكفاءة التي يتعرف بها البروتين على أهداف مختلفة ، مما يقلل بشكل فعال من خطر الاحتفاظ به في تسلسل غير مستهدف. يراعي إطارنا النظري أيضًا الاقتران بين الارتباط غير المستهدف وفك ارتباط Cas9 غير النشط حفزياً (dCas9) ، مما يوضح أنه يمكن الحصول على مسار الربط من البيانات العيانية.

ملخص جملة واحدة معدلات الارتباط والتفكك غير مرتبطة بالتفاعلات التي تتضمن خطوة تحقيق غير محددة.


المقدمة

في السنوات الأخيرة ، كان التنبؤ بالمخلفات في سلسلة البروتين التي قد تكون متورطة في التفاعل مع الحمض النووي موضوعًا بحثيًا يجذب مستوى عالٍ من الاهتمام. استندت بعض الدراسات بشكل بحت إلى تحليل تسلسل عديد الببتيد (1 & # x020135) ، بينما أخذت الدراسات الأخرى المعلومات الهيكلية في الاعتبار (3،6). في هذا الصدد ، كما ورد في مقال حديث أن الهياكل الثلاثية لعدد كبير من عوامل النسخ (TFs) مضطربة في الغالب (7) ، يهدف التحليل القائم على التسلسل إلى تحديد المخلفات في TF المضطرب للغاية الذي يلعب تعتبر الأدوار الرئيسية في التفاعل مع الحمض النووي ضرورية للحصول على صورة شاملة لكيفية عمل فريق العمل.

فيما يتعلق بتفاعلات البروتين و # x02013DNA ، هناك نوعان من آليات الربط المتضمنة ، وهما الربط الخاص بالتسلسل والربط غير المحدد (8). تحدث الارتباطات الخاصة بالتسلسل بين سلاسل البروتين الجانبية وقواعد النوكليوتيدات ، بينما تحدث الارتباطات غير المحددة بين سلاسل البروتين الجانبية وسكر الحمض النووي / العمود الفقري للفوسفات. في علم الأحياء الجزيئي ، تتوافق الارتباطات الخاصة بالتسلسل مع التعرف على تسلسل محدد للجينات ، وبالتالي فهي ضرورية لتنظيم الجينات الصحيح.

تقدم هذه المقالة تصميم متنبئ قائم على التسلسل يسمى ProteDNA لتحديد المخلفات في TF التي تشارك في ربط تسلسل محدد مع DNA. في هذه المقالة ، يُنظر إلى البقايا على أنها متورطة في ارتباط خاص بالتسلسل مع الحمض النووي ، إذا كانت ذرة واحدة أو أكثر من الذرات الثقيلة في سلسلتها الجانبية تقع ضمن 4.5 & # x000c5 من القواعد النووية للحمض النووي. يوضح الشكل 1 الوظيفة التي يقوم بها ProteDNA. يوضح الشكل 1 (أ) ناتج التنبؤ لـ ProteDNA لتسلسل عديد الببتيد من الخميرة TF GCN4 في المجمع مع بنك بيانات البروتين (PDB) (9) ID 1YSA. الشكل 1 (ب) يصور ناتج ProteDNA في الهيكل الثالث لمجمع PDB 1YSA. في الشكل 1 (ب) ، البقايا الملونة باللون الأحمر هي تلك المخلفات المرتبطة بالتسلسل المحددة بشكل صحيح بواسطة ProteDNA ، في حين أن البقايا الملونة باللون الأزرق هي سلبية خاطئة. في هذه الحالة ، لا توجد نتائج إيجابية خاطئة. ومع ذلك ، تحتوي هذه الحالة على بقايا لا يتنبأ بها ProteDNA. السبب الذي يجعل ProteDNA لا يقدم أي تنبؤ في بعض الحالات هو أن بعض مجمعات TF & # x02013DNA المودعة في PDB تحتوي على مناطق مضطربة وبالتالي لا يمكن لـ ProteDNA معرفة أي أدلة من أجل عمل تنبؤات للمخلفات الموجودة في مقطع متعدد الببتيد مماثل.

توضيح لوظيفة ProteDNA. (أ) ناتج التنبؤ الجزئي لـ ProteDNA مع تسلسل عديد الببتيد من الخميرة TF GCN4 في مجمع PDB 1YSA. (ب) الهيكل الثلاثي للمجمع مع PDB ID 1YSA. البقايا الملونة باللون الأحمر هي تلك المخلفات المرتبطة بالتسلسل المحددة بشكل صحيح بواسطة ProteDNA ، في حين أن البقايا الملونة باللون الأزرق هي السلبيات الزائفة. في هذه الحالة ، لا توجد نتائج إيجابية خاطئة.

في هذه المقالة ، يتم الإبلاغ عن أداء ProteDNA بناءً على المقاييس التالية:

حيث يرمز TP و TN و FP و FN إلى عدد العينات الإيجابية الحقيقية ، وعدد العينات السلبية الحقيقية ، وعدد العينات الإيجابية الخاطئة وعدد العينات السلبية الكاذبة ، على التوالي. من أجل استيعاب المستخدمين ذوي الاحتياجات التطبيقية المختلفة ، تم تصميم ProteDNA للعمل في وضعين ، وهما دقة عالية الوضع و متوازن الوضع. في هذا الصدد ، يمكن للمستخدم تحديد أي من الوضعين عند إرسال استعلام إلى خادم الويب. التجارب الواردة في هذه المقالة تظهر أن تحت دقة عالية الوضع ، ProteDNA يوفر دقة 82.3٪ ونوعية 99.3٪ وحساسية 49.8٪ ودقة 96.5٪. وفي الوقت نفسه ، تحت متوازن الوضع ، ProteDNA يوفر دقة 60.8٪ ونوعية 97.6٪ وحساسية 60.7٪ ودقة 95.4٪.


2 المفهوم

في عارض قراءة الحمض النووي (DRV) ، يتم عرض ميزات القراءة الأساسية باستخدام تمثيل الحمض النووي القائم على المجموعة (FGDR) والذي يوفر عرضًا للنيوكليوتيدات الفرعية للتلامس المحتمل الذي يشكل مجموعات وظيفية للأخاديد الرئيسية والثانوية (الشكل 1 أ و ب ). إلى جانب قسم FGDR ، يتم عرض لوحة قراءة للشكل المحاذاة موضعياً ، حيث يتم عرض القيم العددية الطبيعية لأكثر من 60 واصفًا فيزيائيًا كيميائيًا ووصفيًا للحمض النووي التوافقي (PCD) على شكل خطوط ملونة (الشكل 1 ب ، الجدول التكميلي S2). بهذه الطريقة ، يعرض DRV البيانات المتعلقة بالاتصال باستخدام تنسيق بديهي مناسب للتعريف المرئي لأنماط التفاعل المعقدة التي تحدد خصوصية أحداث التعرف على الحمض النووي.

تقدم DRV العديد من طرق التصور لعرض تفاعلات بروتين الحمض النووي من وجهات نظر علمية مختلفة. (أ) إخراج رسام الحافز بما في ذلك شعار التسلسل وشاشة FGDR ، المتولدة من مصفوفة تردد النوكليوتيدات (Jaspar: MA0112.2) لمستقبلات هرمون الاستروجين البشري (hER). (ب) خرج رسام الواجهة مع لوحات لـ FGDR و PCDs ، تم إنشاؤه من ملف الهيكل البلوري لـ hER (معرف PDB 1HCQ). يشار إلى روابط H المباشرة والمائية داخل دوائر FGDR الملونة بنقاط سوداء وفارغة ، على التوالي. (ج) عرض ثلاثي الأبعاد لواجهة بروتين DNA ، التي تم إنشاؤها بواسطة DRV Interface Plotter. يتم تمييز ذرات H- الرابطة بالتلوين. (د) يتم عرض روابط H للعرض ثلاثي الأبعاد المكبر بين ذرات الحمض النووي والبروتين بواسطة خطوط أرجوانية

تقدم DRV العديد من طرق التصور لعرض تفاعلات بروتين الحمض النووي من وجهات نظر علمية مختلفة. (أ) إخراج رسام الحافز بما في ذلك شعار التسلسل وشاشة FGDR ، المتولدة من مصفوفة تردد النوكليوتيدات (Jaspar: MA0112.2) لمستقبلات هرمون الاستروجين البشري (hER). (ب) خرج رسام الواجهة مع لوحات لـ FGDR و PCDs ، تم إنشاؤه من ملف الهيكل البلوري لـ hER (معرف PDB 1HCQ). يشار إلى روابط H المباشرة والمائية داخل دوائر FGDR الملونة بنقاط سوداء وفارغة ، على التوالي. (ج) عرض ثلاثي الأبعاد لواجهة بروتين DNA ، التي تم إنشاؤها بواسطة DRV Interface Plotter. يتم تمييز ذرات H- الرابطة بالتلوين. (د) يتم عرض روابط H ذات العرض ثلاثي الأبعاد المكبر بين ذرات الحمض النووي والبروتين بواسطة خطوط أرجوانية


1 المقدمة

تتعرف عوامل النسخ الخاصة بالتسلسل (TFs) على العديد من أهدافها التنظيمية من خلال إجراء اتصال مباشر مع مواقع ربط الحمض النووي المشابه لها. ومع ذلك ، يمكن للـ TFs والبروتينات التنظيمية الأخرى أيضًا أن ترتبط بالحمض النووي بشكل غير مباشر ، من خلال تفاعلات البروتين والبروتين مع المنظمات التعاونية المرتبطة بالحمض النووي. مقايسات تفاعل البروتين مع الحمض النووي على مستوى الجينوم مثل ChIP-seq (Barski وآخرون.، 2007 جونسون وآخرون.، 2007) و ChIP-exo (Rhee and Pugh ، 2011) عادةً ما يعتمدان على العوامل التي تحفز الارتباط المتشابك بين البروتين والحمض النووي والبروتين والبروتين ، وبالتالي لا تميز بالضرورة بين أوضاع ربط الحمض النووي المباشرة وغير المباشرة. تشير بعض الدراسات إلى أن ما يصل إلى ثلثي في الجسم الحي أحداث ارتباط TF ، المُعرَّفة هنا على أنها مواقع دقيقة حيث يرتبط TF بالجينوم ، تفتقر إلى حالات العزر المعرفية (Starick وآخرون.، 2015 وانج وآخرون.، 2012). ومن ثم ، فإن تجربة ChIP-seq أو ChIP-exo المفردة قد تشمل أنواع أحداث ربط متنوعة ، تنتجها أنماط تفاعل مختلفة بين البروتين والحمض النووي.

ChIP-exo والمقايسات ذات الصلة [على سبيل المثال ChIP-nexus (He وآخرون.، 2015)] حدد بدقة أنماط الارتباط المتشابك بين البروتين والحمض النووي باستخدام نوكلياز لامدا الخارجي (Rhee and Pugh ، 2011). يقوم نوكلياز خارجي بهضم الحمض النووي في اتجاه 5 إلى 3 ، وفي المتوسط ​​، يتوقف عند 6 نقاط أساس قبل نقطة تشابك البروتين والحمض النووي. نظرًا لأن المجمعات التنظيمية المختلفة ستؤدي إلى توقيعات ربط متشابكة مختلفة ، فإن تحليل أنماط توزيع علامات تسلسل ChIP-exo حول أحداث ربط الحمض النووي لبروتين معين يجب أن يتيح اكتشاف أوضاع ربط متعددة للبروتين والحمض النووي. على سبيل المثال ، Starick وآخرون. يتميز ارتباط مستقبلات الجلوكوكورتيكويد (GR) باستخدام ChIP-exo وتصنيف أحداث الارتباط المكتشفة باستخدام معلومات الحافز. كشف هذا النهج عن مجموعة فرعية من قمم GR ChIP-exo التي تحتوي على شكل ربط Forkhead TF DNA (Starick وآخرون.، 2015). عرضت نفس المواقع نمط توزيع علامة ChIP-exo مميزًا عن ذلك الذي لوحظ في القمم التي تحتوي على شكل ربط GR مماثل. وبالتالي افترض المؤلفون أن بعض أحداث ربط GR المشتقة من ChIP-exo تمثل ارتباطًا غير مباشر بالحمض النووي عبر تفاعلات البروتين والبروتين مع Forkhead TF. لذلك ، قد يتيح التحليل الدقيق لأنماط توزيع علامة ChIP-exo وأشكال ربط الحمض النووي التمييز بين أوضاع ربط الحمض النووي المتميزة للبروتين.

تعتمد معظم الطرق المتاحة للتمييز بين أوضاع الربط المباشر وغير المباشر في تجربة ChIP-seq أو ChIP-exo حصريًا على تحليل عزر الحمض النووي. على سبيل المثال ، تفترض عدة طرق أن المواقع المرتبطة مباشرة يجب أن تحتوي على مثيل لعنصر الربط المشابه ، بينما تحتوي المواقع المرتبطة بشكل غير مباشر على مثيلات نموذجية تتوافق مع TFs الأخرى (Bailey and MacHanick، 2012 Gordân وآخرون.، 2009 Keilwagen and Grau، 2015 Neph وآخرون.، 2012 ويتينغتون وآخرون.، 2011). قد لا يكون هذا الافتراض صحيحًا دائمًا. قد لا ترتبط المجمعات التنظيمية المميزة دائمًا بزخارف ربط DNA مميزة ، على الرغم من أنها قد تظل قابلة للتمييز بناءً على الاختلافات في أنماط التشابك المتشابك. لذلك ، قد يكون تحليل مجموعات كل من تسلسل الحمض النووي ومعلومات توزيع علامة ChIP ضروريًا للتوصيف الكامل لتنوع أنماط ربط البروتين والحمض النووي الموجودة في تجربة معينة.

حاول أحد الأساليب السابقة تجميع أحداث ربط TF باستخدام أنماط إثراء علامة ChIP-seq ، وتقارير عن ارتباطات كل مجموعة بمصطلحات GO ، وإثراء الحافز ، والترجمة الجينية ، والتعبير الجيني (Cremona وآخرون.، 2015). ومع ذلك ، فإن تجميع أنماط إثراء علامة ChIP-seq مرتبك بسبب التباين الكبير في مواقع علامات ChIP-seq فيما يتعلق بحدث ربط البروتين والحمض النووي. دقة ChIP-seq محدودة بواسطة الصوتنة ، مما يؤدي إلى توزيعات واسعة للعلامات. كما هو موضح أعلاه ، يعد اختبار ChIP-exo أكثر ملاءمة لتوصيف أوضاع الربط المميزة عبر تحليل أشكال توزيع العلامات ، لأن توزيعات علامة ChIP-exo يتم تحديدها من خلال أنماط الربط المتشابك في كل موقع ربط. ومع ذلك ، لا توجد طريقة متاحة يمكنها استغلال أنماط توزيع العلامات لتحديد أنماط ربط البروتين والحمض النووي المتميزة في تجربة ChIP-exo.

لاكتشاف أنماط تفاعل متعددة بين البروتين والحمض النووي بشكل منهجي في تجربة ChIP-exo واحدة ، نقدم نموذج خليط ChIP-exo (ChExMix). يكتشف ChExMix ويميز الأنواع الفرعية لحدث الربط في بيانات ChIP-exo من خلال الاستفادة من كل من أنماط إثراء العلامات التسلسلية وزخارف الحمض النووي. عند القيام بذلك ، يقدم ChExMix نهجًا أكثر مبادئًا وقوة لتوصيف الأنواع الفرعية للربط من مجرد تجميع أحداث الربط باستخدام معلومات الحافز. على سبيل المثال ، لا يتطلب ChExMix ربط جميع (أو أي) أحداث الربط الخاصة بالنوع الفرعي بمثيلات النماذج ، وبالتالي تمكين تصنيف النوع الفرعي الملزم فقط باستخدام أنماط علامة ChIP-exo.

لإثبات قدراتها التحليلية الفريدة ، قمنا بتطبيق ChExMix على بيانات ChIP-exo التي تحدد التنظيمات الرئيسية في خلايا سرطان الثدي الإيجابية لمستقبلات هرمون الاستروجين (ER). عند العلاج بالإستراديول ، يتم توطين FoxA1 و ERα و CTCF معًا في مجموعة فرعية من المواقع الجينومية. تشير النتائج التي توصلنا إليها إلى أن FoxA1 من المحتمل أن يرتبط ببعض المواقع الجينية عبر تفاعلات البروتين والبروتين مع ERα و CTCF. على العكس من ذلك ، لوحظ أيضًا ارتباط غير مباشر لـ ERα بالحمض النووي عبر تفاعلات FoxA1 في ERα ChIP-exo. توضح هذه النتائج أن ChExMix يمكنه تمييز أنماط تفاعل متعددة بين البروتين والحمض النووي في بيانات ChIP-exo ، مما يوفر لنا رؤى فريدة للتفاعلات بين عوامل النسخ في نوع خلية معين.


1 المقدمة

تكمن عوامل النسخ (TFs) في أساس تنوع التعبير الجيني في أنواع وظروف الخلايا المختلفة. تشكل TFs مكونات تنظيمية رئيسية للجينات تشارك عادةً في مجمعات كبيرة متعددة البروتينات والحمض النووي ، حيث توجه نشاط بوليميريز الحمض النووي الريبي (أي RNAP I و II و III) وتنظم بداية ومعدل تخليق الحمض النووي الريبي. قد تشتمل مجمعات البروتين هذه على عوامل النسخ العامة التي ترتبط بالعوامل المساعدة العامة للحمض النووي المحفز الأساسي التي ترتبط بعوامل النسخ العامة لتشكيل معقد نسخ ما قبل البدء وعوامل نسخ مرتبطة بالحمض النووي محددة وعوامل تفتقر إلى مجالات ربط الحمض النووي ولكنها تمارسها التنظيمية. الأدوار من خلال التفاعل مع البروتينات الأخرى في مجمع النسخ. تشمل هذه الفئة الأخيرة من منظمات النسخ المتفاعلة مع البروتينات المُنشِّطات المُنشِّطة ، ومُثبِّطات القلب ، ومُعدِّلات الهيستون ، وبروتينات إعادة تشكيل الكروماتين (لي ويونغ ، 2000).

تلعب عوامل النسخ المرتبطة بالحمض النووي (DbTFs) دورًا مركزيًا في تحديد الجينات التي يتم نسخها ، لأنها توجه آلية النسخ إلى جينات مستهدفة مميزة من خلال الارتباط بعناصر تنظيم جينية محددة موجودة في المحفزات القريبة وكذلك في مناطق المحسن البعيدة Kadonaga ( 2004). تتمتع بروتينات DbTF التي تنظم RNAP II بتركيز خاص في بناء شبكة تنظيم الجينات بسبب قدرتها القوية على شرح مشهد التعبير الجيني المرمز للبروتين للاستجابات البيولوجية. وبالتالي ، فإن الوصول إلى المعرفة الدقيقة على نطاق الجينوم فيما يتعلق بـ DbTFs ، له أهمية رئيسية. توجد موارد متعددة مع معرفة حول TF للثدييات (Fulton وآخرون.، 2009 هاريس وآخرون.، 2004 Kummerfeld and Teichmann، 2006 Messina وآخرون.، 2004 رافاسي وآخرون.، 2010 Sandelin وآخرون.، 2004 شايفر وآخرون.، 2011 Vaquerizas وآخرون.، 2009 تشانغ وآخرون.، 2012). ومع ذلك ، لاحظنا أن (1) معظمهم لا يميز جيدًا بين DbTFs الحقيقي ، و TFs المتفاعلة مع البروتين و TFs العامة و (2) فقط في عدد قليل من الحالات ، يقدمون دليلًا موحدًا للدور الوظيفي لـ TFs. وبسبب هذا ، لن يكون لمستخدمي هذه الموارد سوى عرض محجوب في مجال DbTFs. نقدم هنا TFcheckpoint (www.tfcheckpoint.org) ، وهو مستودع شامل للمرشحين للإنسان والفأر والفئران. تم فحص جميع الإدخالات يدويًا للحصول على معلومات الأدبيات المتعلقة بوظيفتها البيولوجية المحتملة مثل DbTFs. تعمل قاعدة البيانات كنقطة تفتيش لمعلومات TF ، وهي متاحة مجانًا وتدعم البحث عن المعرف أو الاسم والتصفح والتنزيل بالجملة.


1 المقدمة

التطبيق الأخير للشبكات العصبية التلافيفية (LeCun وآخرون.، 2015 Salakhutdinov ، 2015) إلى المشاكل القائمة على التسلسل في علم الجينوم يشير إلى ظهور عصر التعلم العميق في علم الأحياء الحسابي. طريقتان حديثتان ، DeepBind (Alipanahi وآخرون.، 2015) و DeepSEA (Zhou and Troyanskaya ، 2015) ، نجحوا في تطبيق التعلم العميق لنمذجة خصوصية تسلسل ارتباط البروتين بأداء متفوق على أفضل طرق التعلم التقليدية الحالية. غالبًا ما تحتوي مهام التعلم في علم الجينوم على عشرات الآلاف أو أكثر من الأمثلة التدريبية ، مما يجعلها تتكيف جيدًا مع تدريب الشبكات العصبية التلافيفية دون الحاجة إلى تركيب. عادةً ما يتم استخلاص أمثلة التدريب هذه من البيانات عالية الإنتاجية ، مثل تلك التي ينتجها مشروع Encyclopedia of DNA Elements (ENCODE) (برنشتاين) وآخرون., 2012).

الشبكات العصبية التلافيفية المستخدمة من قبل DeepBind و DeepSEA هي لبنات بناء أساسية في مناهج التعلم العميق في رؤية الكمبيوتر (Krizhevsky وآخرون.، 2012 Le ، 2013 LeCun وآخرون.، 2015 Sainath وآخرون.، 2013 تومبسون وآخرون.، 2014 أ ، ب). يمكن تحقيق تكيف الشبكات العصبية التلافيفية من رؤية الكمبيوتر إلى علم الجينوم من خلال النظر في نافذة تسلسل الجينوم كصورة. بدلاً من معالجة الصور ثنائية الأبعاد بثلاث قنوات ملونة (R ، G ، B) ، فإننا نعتبر تسلسل الجينوم بمثابة نافذة تسلسل 1-D بطول ثابت بأربع قنوات (A ، C ، G ، T). لذلك فإن المهمة الجينومية لنمذجة خصوصية ربط البروتين في تسلسل الحمض النووي تشبه مهمة رؤية الكمبيوتر لتصنيف الصور من فئتين. تتمثل إحدى أكبر مزايا الشبكة العصبية التلافيفية لعلم الجينوم في قدرتها على اكتشاف الحافز أينما كان في نافذة التسلسل ، وهو ما يناسب تمامًا مهمة تحديد الفكرة وبالتالي تصنيف الربط.

لقد أجرينا استكشافًا منهجيًا لأداء معماريات الشبكة التلافيفية للمهمة الجينومية الأساسية المتمثلة في توصيف ألفة ربط عوامل النسخ بتسلسل الحمض النووي في 690 تجربة مختلفة لـ ChIP-seq. لقد قمنا بتصميم مجموعة من تسعة متغيرات معمارية عن طريق تغيير عرض الشبكة وعمقها وتصميماتها المجمعة. قمنا بتغيير كل من هذه الأبعاد مع ملاحظة أداء التصنيف لكل عامل نسخ بشكل مستقل.

المهمتان اللتان اخترنا استكشافهما هما اكتشاف الحافز وشغل الحافز. ال مهمة اكتشاف الحافز يصنف التسلسلات المرتبطة بعامل النسخ من المتواليات السلبية التي تكون عبارة عن خلط ثنائي النوكليوتيد للتسلسلات المرتبطة إيجابًا. ال مهمة شغل عزر يميز مثيلات الشكل الجينومي المرتبطة بعامل النسخ (مجموعة موجبة) من مثيلات عزر غير مرتبطة بنفس عامل النسخ (مجموعة سلبية) في نفس نوع الخلية ، حيث يتم مطابقة محتوى GC وقوة الحافز بين الموجب و مجموعة سلبية.

وجدنا لكلتا المهمتين أن أداء التصنيف يزداد مع عدد نواة الالتفاف ، واستخدام التجميع المحلي أو طبقات تلافيفية أكثر له تأثير ضئيل ، إن لم يكن سلبيًا ، على الأداء. تجاوزت معماريات الشبكات العصبية التلافيفية التي استفادت من هذه الأفكار أداء تصنيف DeepBind ، والذي يمثل نقطة واحدة معينة في مساحة المعلمة التي اختبرناها.


& ltp> يعرض هذا القسم افتراضيًا تسلسل البروتين الأساسي وعند الطلب جميع الأشكال الإسوية الموضحة في الإدخال. يتضمن أيضًا معلومات ذات صلة بالتسلسل (التسلسلات) ، بما في ذلك & lta href = "http://www.uniprot.org/help/sequence٪5Flength"> length & lt / a> و & lta href = "http: //www.uniprot .org / مساعدة / التسلسلات "> الوزن الجزيئي & lt / a>. يتم تقديم المعلومات في أقسام فرعية مختلفة. الأقسام الفرعية الحالية ومحتواها مذكورة أدناه: & ltp> & lta href = '/ help / Sequences_section' target = '_ top'> المزيد. & lt / a> & lt / p> التسلسل s (2+) i

& ltp> هذا القسم الفرعي من & lta href = "http://www.uniprot.org/help/sequences٪5Fsection"> Sequence & lt / a> يشير إلى ما إذا كان & lta href = "http://www.uniprot.org/help / canonical٪ 5Fand٪ 5Fisoforms "> التسلسل الأساسي & lt / a> المعروض افتراضيًا في الإدخال مكتمل أم لا. & ltp> & lta href = '/ help / sequence_status' target = '_ top'> المزيد. & lt / a> & lt / p> حالة التسلسل i: مكتمل.

يصف هذا الإدخال 2 & ltp> يسرد هذا القسم الفرعي من قسم "التسلسل" متواليات البروتين البديلة (الأشكال الإسوية) التي يمكن إنشاؤها من نفس الجين بواسطة واحد أو عن طريق الجمع بين ما يصل إلى أربعة أحداث بيولوجية (استخدام محفز بديل ، وربط بديل ، وبدء بديل و تغيير الإطارات الريبوسومية). بالإضافة إلى ذلك ، يقدم هذا القسم معلومات ذات صلة عن كل شكل إسوي بروتيني بديل. & ltp> & lta href = '/ help / altern_products' target = '_ top'> المزيد. & lt / a> & lt / p> الأشكال الإسوية التي أنتجتها الربط البديل . المحاذاةإضافة إلى السلة تمت الإضافة إلى السلة

يحتوي هذا الإدخال على شكلين إسويين موصوفين و 3 أشكال إسوية محتملة تم تعيينها حسابيًا.

تم اختيار هذا الشكل الإسوي باعتباره & ltdiv> & ltp> & ltb> ما هو التسلسل الكنسي؟ & lt / b> & ltp> & lta href = '/ help / canonical_and_isoforms' target = '_ top'> المزيد. & lt / a> & lt / p> التسلسل الأساسي المتعارف عليه. تشير جميع المعلومات الموضعية في هذا الإدخال إليها. هذا هو أيضًا التسلسل الذي يظهر في الإصدارات القابلة للتنزيل من الإدخال.

يختلف تسلسل هذا الشكل الإسوي عن التسلسل الكنسي على النحو التالي:
1269-1363: VGQGASDLTN. KDHPTVEMLG → CSCPSSLLAGMQM


1 المقدمة

يعد ارتباط الحمض النووي بالبروتينات ، والمعروف باسم عوامل النسخ (TFs) ، الآلية الرئيسية الكامنة وراء تنظيم التعبير الجيني (Dynan and Tjian ، 1985 Mitchell and Tjian ، 1989). تربط TFs تسلسلات DNA محددة في الجينوم لتنظيم التعبير عن الجينات القريبة ، إما عن طريق تشجيع أو إعاقة النسخ. إن توصيف أنماط الارتباط الزماني المكاني لـ TFs المحددة لأهداف الجينات الخاصة بها سيعزز فهمنا لشبكات تنظيم الجينات (Beer and Tavazoie ، 2004). وبالتالي ، كانت دراسة الصناديق المالية وتفضيلاتها الملزمة هي محور العديد من الدراسات البحثية.

تم تطوير العديد من التقنيات لقياس ارتباط الحمض النووي في الجسم الحي (ستورمو وتشاو ، 2010). التقنية الأكثر شيوعًا هي الترسيب المناعي للكروماتين متبوعًا بالتسلسل (ChIP-seq) (Johnson وآخرون.، 2007) (الشكل 1 أ). تقيس هذه التقنية ، في تجربة واحدة ، ارتباط TF معين بطريقة شاملة على مستوى الجينوم. بينما توفر تقنية ChIP-seq قياسات على مستوى الجينوم بدقة ∼100 نقطة أساس ، إلا أن لها العديد من العيوب عند دراسة تفضيلات ربط TF الجوهرية (بارك ، 2009). نظرًا لأن TF يرتبط بموقع الارتباط الخاص به في بيئة خلوية معقدة ، يتأثر ارتباطه بالعديد من العوامل بخلاف تقارب الارتباط الجوهري. على سبيل المثال ، قد يتم غلق منطقة DNA للارتباط عن طريق شغل nucleosome ، أو قد يتنافس TF على مواقع الربط أو الارتباط المشترك مع TFs الأخرى.

رسم توضيحي لمخرجات التقنيات التجريبية لقياس ارتباط البروتين بالحمض النووي. (أ) ChIP-seq يقيس ارتباط TF في الجسم الحي على نطاق الجينوم. يتم زيادة القمم المقيدة من خلال المناطق غير المقيدة لتكون بمثابة مشكلة تصنيف ثنائي. (ب) تقيس PBMs ارتباط TF بـ & gt40 000 ميكروأري 36 نقطة أساس لتحقيقات طويلة مصممة لتغطية كل 10 mers. الناتج التجريبي هو قائمة المسابير وشدة ربطها. (جيقوم HT-SELEX بإثراء وتسلسل أليغنوكليوتيدات الحمض النووي المرتبطة على مدى دورات متعددة تبدأ من مجموعة عشوائية في الدورة 0. الإخراج التجريبي عبارة عن قائمة من ملفات التسلسل ذات خصوصية ربط متزايدة

رسم توضيحي لمخرجات التقنيات التجريبية لقياس ارتباط البروتين بالحمض النووي. (أ) ChIP-seq يقيس ارتباط TF في الجسم الحي على نطاق الجينوم. يتم زيادة القمم المقيدة من خلال المناطق غير المقيدة لتكون بمثابة مشكلة تصنيف ثنائي. (ب) تقيس PBMs ارتباط TF بـ & gt40.000 ميكروأري 36 bp تحقيقات طويلة مصممة لتغطية جميع 10 mers. الناتج التجريبي هو قائمة المسابير وشدة ربطها. (جيقوم HT-SELEX بإثراء وتسلسل أليغنوكليوتيدات الحمض النووي المرتبطة على مدى دورات متعددة تبدأ من مجموعة عشوائية في الدورة 0. الإخراج التجريبي عبارة عن قائمة من ملفات التسلسل ذات خصوصية ربط متزايدة

لهذا السبب، في المختبر تم تطوير تقنيات لقياس ارتباط الحمض النووي (Jolma and Taipale ، 2011). يحدث الارتباط خارج البيئة الخلوية ، مما يتيح قياس تفضيلات ربط الحمض النووي الجوهري لـ TF. أكثر التقنيات المعتمدة على المصفوفات الدقيقة شيوعًا لقياس ارتباط الحمض النووي هي تقنية ميكروأري المرتبطة بالبروتين (PBM) (بيرجر وآخرون.، 2006) (الشكل 1 ب). تم تصميم PBMs لتشمل جميع الحمض النووي 10-mers الممكنة في 36 تسلسل مسبار طويل bp. يتم قياس شدة ارتباط البروتين باستخدام الجسم المضاد الفلوري. الناتج التجريبي عبارة عن قائمة من & gt40 000 تسلسل مسبار وكثافة ارتباط البروتين بكل منها. تم تطبيق بروتوكول PBM على & gt1000 TFs والبيانات التجريبية متاحة من خلال قواعد البيانات العامة (Hume وآخرون.، 2015 Weirauch وآخرون., 2014).

في السنوات الأخيرة ، ظهرت طرق قائمة على التسلسل لقياس ارتباط البروتين والحمض النووي ، وإنتاج المزيد من البيانات وبدقة أعلى. التقنية الأكثر شيوعًا هي التطور المنهجي عالي الإنتاجية للرابطات عن طريق التخصيب الأسي (HT-SELEX) (Jolma وآخرون.، 2010) (الشكل 1 ج). تبدأ كل تجربة HT-SELEX من مجموعة عشوائية من قليل النوكليوتيدات ذات الطول الثابت. يربط البروتين مواقع الارتباط الخاصة به في البركة ويتم استخلاص وتضخيم أوليغنوكليوتيدات المرتبطة. يتم تسلسل بعض هذه قليلات النوكليوتيدات ، ويتم استخدام الباقي في تكرار العملية. الناتج التجريبي هو عدة ملفات تسلسلية ، واحد لكل دورة تجريبية. تم تطبيق بروتوكول HT-SELEX على & gt1000 TFs من أنواع متنوعة ، وبياناتها متاحة للجمهور (Jolma and Taipale، 2011 Nitta وآخرون.، 2015). أظهرت مقارنة بين PBM و HT-SELEX توافقًا جيدًا بين مجموعات البيانات الخاصة بهم (Orenstein and Shamir ، 2014) ، مع اكتشاف مواقع الربط الأطول بواسطة HT-SELEX ، وقياسات ربط أكثر قوة بواسطة PBM.

يتمثل التحدي الحسابي الرئيسي الناشئ في استنتاج تفضيلات ربط الحمض النووي لـ TF معين من هذه البيانات التجريبية عالية الإنتاجية. سيمكن النموذج الدقيق من التنبؤ بالارتباط بتسلسلات الحمض النووي الجديدة ذات الأهمية. تم تطوير العديد من الأساليب الحسابية لهذه المهمة منذ ظهور هذه التقنيات وإنتاج مجموعات كبيرة من البيانات من قبلهم. يمكن الآن حل مشكلة استنتاج تفضيلات ربط الحمض النووي من بيانات PBM بدقة عالية (Riley وآخرون.، 2015) بفضل التحدي الدولي الذي جلب العديد من الباحثين الحسابيين لمعالجة هذه المشكلة (Weirauch وآخرون., 2013).

بدأ تطوير أسلوب بيانات HT-SELEX منذ بضع سنوات فقط ، عندما أصبحت هذه البيانات عالية الإنتاجية متاحة لمئات من TFs. في حين أن بروتوكول SELEX موجود منذ أكثر من ثلاثة عقود ، فإن اقترانه بالتسلسل عالي الإنتاجية قد أدخل تحديًا جديدًا تم حله دون المستوى الأمثل باستخدام التقنيات الكلاسيكية. تم تطوير طرق قليلة فقط لحل مشكلة استنتاج تفضيلات ربط الحمض النووي من بيانات HT-SELEX (Alipanahi وآخرون.، 2015 Rastogi وآخرون.، 2018 روان وآخرون.، 2017 Toivonen وآخرون.، 2018 Yuan et al. ، 2019).

في الآونة الأخيرة ، أحدثت الشبكات العصبية العميقة ، التي يطلق عليها أيضًا التعلم العميق ، ثورة في عالم التعلم الآلي. أثارت هذه الثورة اهتمامًا كبيرًا ومجموعة من التطبيقات في مجال المعلوماتية الحيوية. كان ناجحًا على وجه التحديد في التنبؤ بربط البروتين والحمض النووي. DeepBind هي الطريقة الأولى لاستخدام التعلم العميق لحل التحدي المتمثل في استنتاج تفضيل ربط البروتين والحمض النووي من بيانات HT-SELEX (Alipanahi وآخرون.، 2015). في الدراسات التالية ، تفوق DeepBind بطريقة احتمالية BEESEM (Ruan وآخرون.، 2017) والطريقة القائمة على التضمين BindSpace (Yuan وآخرون., 2019).

في حين تم إحراز تقدم كبير على مر السنين في التحدي المذكور أعلاه المتمثل في الاستدلال النموذجي من بيانات HT-SELEX ، لم تستخدم أي من الأساليب الحسابية للمهمة بشكل كامل وفرة مجموعات البيانات الغنية القائمة على التسلسل باستخدام المنهجية الحسابية للتعلم العميق . على وجه الخصوص ، الأساليب الموجودة لها عيوب عديدة. تأخذ جميع طرق استدلال تفضيلات ربط الحمض النووي من بيانات HT-SELEX في الاعتبار فقط تسلسلات أحد التكرارات الأخيرة ، لأنها تمثل مواقع الربط المرتبطة بشدة. من خلال القيام بذلك ، تستبعد هذه الطرق معظم البيانات التجريبية المتاحة من كل تجربة (Alipanahi وآخرون.، 2015 روان وآخرون.، 2017 يوان وآخرون.، 2019). بالإضافة إلى ذلك ، فإن الأساليب القائمة على التعلم العميق المطبقة على بيانات HT-SELEX و DeepBind و BindSpace تحل هذه المشكلة بطريقة تركيبية ، أي بالتمييز بين متواليات التكرار الأخيرة وتسلسلات التحكم الاصطناعية (Alipanahi وآخرون.، 2015 يوان وآخرون., 2019).

في هذه الدراسة ، قمنا بتطوير خوارزمية جديدة لاستنتاج تفضيلات ربط الحمض النووي من بيانات HT-SELEX. تتمثل إحدى السمات المبتكرة الرئيسية لحلنا في صياغة المشكلة. نظرًا لأن الناتج التجريبي لكل تسلسل DNA هو الدورة التي ينتمي إليها ، فإننا نعتبر المشكلة مشكلة تصنيفات متعددة. لكل تسلسل DNA ، نتوقع الدورة التي ظهر فيها. قد يظهر التسلسل عدة مرات وفي دورات مختلفة ، لذلك قد يكون لكل مثيل من التسلسل متجه تسمية مختلف (أي متجه واحد ساخن لطول عدد الدورات مع تعيين 1 في الدورة المناسبة). بهذه الطريقة ، يتم تضمين جميع بيانات التسلسل ومعلومات الإثراء في إجراء التدريب. لا يتم إجراء معالجة مسبقة للبيانات ، باستخدام ميزة رئيسية للشبكات العصبية العميقة: القدرة على تعلم تمثيلات الميزات من البيانات الأولية. ميزة رئيسية أخرى هي استخدام المصنف المتعدد المدربين على بيانات HT-SELEX للتنبؤ بالارتباط بتسلسلات DNA الجديدة. يتم تحقيق ذلك من خلال وظيفة تجميعية جديدة نطبقها على الاحتمالات المتوقعة بطريقة نافذة منزلقة. عند اختباره في في المختبر التنبؤ الملزم ، طريقتنا الجديدة DeepSELEX يتفوق على الطرق الموجودة بهامش كبير ، وهو على قدم المساواة مع أحدث التقنيات عند اختباره في الجسم الحي. بالإضافة إلى ذلك ، من خلال استجواب الشبكات المكتسبة ، يمكننا تفسير وتصور تفضيل ربط TF. برنامج DeepSELEX متاح للجمهور من خلال github.com/OrensteinLab/DeepSELEX/.


TBP هو عضو في عائلة جينية صغيرة من العوامل المرتبطة بـ TBP. [5] تم تحديد أول عامل مرتبط بـ TBP (TRF / TRF1) في ذبابة الفاكهة ، ولكن يبدو أنه خاص بالذباب أو الحشرات. تم العثور لاحقًا على TBPL1 / TRF2 في جينومات العديد من الميتازوان ، في حين أن جينومات الفقاريات تشفر عضوًا ثالثًا من عائلة الفقاريات ، TBPL2 / TRF3. في أنواع خلايا معينة أو في محفزات معينة ، يمكن استبدال TBP بأحد هذه العوامل المرتبطة بـ TBP ، والتي يتفاعل بعضها مع صندوق TATA بشكل مشابه لـ TBP.

TBP هي وحدة فرعية لعامل النسخ العام حقيقي النواة TFIID. TFIID هو أول بروتين يرتبط بالحمض النووي أثناء تكوين مركب ما قبل النسخ لـ RNA polymerase II (RNA Pol II). [6] كواحد من البروتينات القليلة في مجمع ما قبل التهيئة الذي يربط الحمض النووي بطريقة محددة التسلسل ، فإنه يساعد في وضع RNA polymerase II فوق موقع بدء النسخ للجين. ومع ذلك ، تشير التقديرات إلى أن 10-20٪ فقط من المروجين البشريين لديهم صناديق تاتا. لذلك ، ربما لا يكون TBP هو البروتين الوحيد الذي يشارك في تحديد موضع بوليميريز RNA II. الغالبية العظمى من المروجين البشريين هم من المروجين الجيني التدبير المنزلي الأقل من TATA. يتم تسهيل ارتباط TBP بهذه المحفزات بواسطة منظمي الجينات التدبير المنزلي. [7] [8] ومن المثير للاهتمام ، أن النسخ يبدأ داخل منطقة ضيقة عند حوالي 30 نقطة أساس في اتجاه المصب من صندوق TATA على المعززات المحتوية على TATA ، [9] بينما يتم تفريق مواقع بدء النسخ للمروجين الأقل من TATA داخل منطقة 200 نقطة أساس. [10] [8]

يبدأ ربط TFIID بصندوق TATA في منطقة المروج للجين في توظيف العوامل الأخرى المطلوبة لـ RNA Pol II لبدء النسخ. تتضمن بعض عوامل النسخ المعينة الأخرى TFIIA و TFIIB و TFIIF. يحتوي كل عامل من عوامل النسخ على العديد من الوحدات الفرعية البروتينية.

يعتبر TBP مهمًا أيضًا للنسخ بواسطة RNA polymerase I و RNA polymerase III ، وبالتالي يشارك في بدء النسخ بواسطة بوليميرات RNA الثلاثة. [11]

يشارك TBP في ذوبان الحمض النووي (فصل الشريط المزدوج) عن طريق ثني الحمض النووي بمقدار 80 درجة (التسلسل الغني بـ AT الذي يرتبط به يسهل الذوبان بسهولة). يعتبر TBP بروتينًا غير معتاد من حيث أنه يربط الأخدود الصغير باستخدام ورقة.

السمة المميزة الأخرى لـ TBP هي سلسلة طويلة من الجلوتامين في الطرف N للبروتين. تعدل هذه المنطقة نشاط ربط الحمض النووي للطرف C ، ويؤثر تعديل ربط الحمض النووي على معدل تكوين معقد النسخ وبدء النسخ. Mutations that expand the number of CAG repeats encoding this polyglutamine tract, and thus increase the length of the polyglutamine string, are associated with spinocerebellar ataxia 17, a neurodegenerative disorder classified as a polyglutamine disease. [12]

When TBP binds to a TATA box within the DNA, it distorts the DNA by inserting amino acid side-chains between base pairs, partially unwinding the helix, and doubly kinking it. The distortion is accomplished through a great amount of surface contact between the protein and DNA. TBP binds with the negatively charged phosphates in the DNA backbone through positively charged lysine and arginine amino acid residues. The sharp bend in the DNA is produced through projection of four bulky phenylalanine residues into the minor groove. As the DNA bends, its contact with TBP increases, thus enhancing the DNA-protein interaction.

The strain imposed on the DNA through this interaction initiates melting, or separation, of the strands. Because this region of DNA is rich in adenine and thymine residues, which base-pair through only two hydrogen bonds, the DNA strands are more easily separated. Separation of the two strands exposes the bases and allows RNA polymerase II to begin transcription of the gene.

TBP's C-terminus composes of a helicoidal shape that (incompletely) complements the T-A-T-A region of DNA. This incompleteness allows DNA to be passively bent on binding.

For information on the use of TBP in cells see: RNA polymerase I, RNA polymerase II, and RNA polymerase III.

TATA-binding protein has been shown to interact with:

The TATA-box binding protein (TBP) is required for the initiation of transcription by RNA polymerases I, II and III, from promoters with or without a TATA box. [50] [51] In the presence of a TATA-less promoter, TBP binds with the help of TBP-associated factors (TAFs). [52] [53] TBP associates with a host of factors, including the general transcription factors TFIIA, -B, -D, -E, and -H, to form huge multi-subunit pre-initiation complexes on the core promoter. Through its association with different transcription factors, TBP can initiate transcription from different RNA polymerases. There are several related TBPs, including TBP-like (TBPL) proteins. [54]

The C-terminal core of TBP (

180 residues) is highly conserved and contains two 88-amino acid repeats that produce a saddle-shaped structure that straddles the DNA this region binds to the TATA box and interacts with transcription factors and regulatory proteins . [55] By contrast, the N-terminal region varies in both length and sequence.


شاهد الفيديو: دورة في المعلوماتية الحيوية عملي- Bioinformatics methods course (يوليو 2022).


تعليقات:

  1. Gorlois

    يمكنني أن أوصي بزيارتك لموقع يوجد فيه الكثير من المعلومات حول موضوع مثير للاهتمام.

  2. Virn

    الفكرة الرائعة وفي الوقت المناسب

  3. Camelon

    في رأيي ، أنت مخطئ. أنا متأكد. دعونا نناقش. أرسل لي بريدًا إلكترونيًا على PM.

  4. Evian

    كيف يمكننا تعريفه؟



اكتب رسالة