معلومة

كيفية تحديد الجين الزائف لجينات ترميز بروتين معينة؟

كيفية تحديد الجين الزائف لجينات ترميز بروتين معينة؟



We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

الجينات الكاذبة هي تلك المتواليات في الجينوم التي تحمل تشابهًا مع جينات ترميز بروتين معينة ، ولكنها مع ذلك غير قادرة على إنتاج بروتينات وظيفية بسبب وجود انزياحات الإطارات ، أو أكواد الإيقاف المبكر أو الطفرات الضارة الأخرى (Mighell et al. ، 2000). أثناء إجراء بعض الأبحاث حول البروتين PLEKHA7 ، أستخدم PseudoPipe (خط أنابيب تحديد الجينات الزائفة الآلي) (Zhang et al. ، 2006) لاكتشاف الجينات الزائفة لـ PLEKHA7. لكنني في حيرة من أمري أن تسلسل الحمض النووي يبلغ طوله 226929 بت في الثانية ، وأن جينه الزائف يبلغ طوله حوالي 100 بت في الثانية فقط ولكن مع تحديد أعلى بكثير مثل 41.1٪ و 71٪. (chr = الكروموسومات ، البداية = موضع البداية ، النهاية = موضع النهاية ، الاستعلام = البروتين الأصلي ، frac = جزء من البروتين الأصلي الذي يتداخل مع الجين الزائف ، ins = عدد عمليات الإدخال في تسلسل الجين الزائف ، del = عدد عمليات الحذف في تسلسل الجين الكاذب ، التحول = عدد تحولات الإطار في تسلسل الجين الزائف مقارنةً بالأصل ، التوقف = عدد أكواد الإيقاف في تسلسل الجين الكاذب ، توقع = القيمة الإلكترونية لتعريف التسلسل بين الأصل والجين الزائف ، الهوية = هوية التسلسل بين الوالد و الجين الكاذب ، polyA = وجود إشارة polyA ، النوع = النمط الحيوي للجين الزائف: PSSD = معالج ، DUP = مكرر ، FRAG = غامض) إذن كيف لهذه الجينات الزائفة مثل هذا التعريف العالي للجين الأصلي لأنها مجرد متواليات قصيرة جدًا؟


كيفية تحديد الجين الزائف لجينات ترميز بروتين معينة؟ - مادة الاحياء

يتم توفير جميع المقالات المنشورة بواسطة MDPI على الفور في جميع أنحاء العالم بموجب ترخيص وصول مفتوح. لا يلزم الحصول على إذن خاص لإعادة استخدام كل أو جزء من المقالة المنشورة بواسطة MDPI ، بما في ذلك الأشكال والجداول. بالنسبة للمقالات المنشورة بموجب ترخيص Creative Common CC BY ذي الوصول المفتوح ، يجوز إعادة استخدام أي جزء من المقالة دون إذن بشرط الاستشهاد بالمقال الأصلي بوضوح.

تمثل الأوراق الرئيسية أكثر الأبحاث تقدمًا مع إمكانات كبيرة للتأثير الكبير في هذا المجال. يتم تقديم الأوراق الرئيسية بناءً على دعوة فردية أو توصية من قبل المحررين العلميين وتخضع لمراجعة الأقران قبل النشر.

يمكن أن تكون ورقة الميزات إما مقالة بحثية أصلية ، أو دراسة بحثية جديدة جوهرية غالبًا ما تتضمن العديد من التقنيات أو المناهج ، أو ورقة مراجعة شاملة مع تحديثات موجزة ودقيقة عن آخر التقدم في المجال الذي يراجع بشكل منهجي التطورات الأكثر إثارة في العلم. المؤلفات. يوفر هذا النوع من الأوراق نظرة عامة على الاتجاهات المستقبلية للبحث أو التطبيقات الممكنة.

تستند مقالات اختيار المحرر على توصيات المحررين العلميين لمجلات MDPI من جميع أنحاء العالم. يختار المحررون عددًا صغيرًا من المقالات المنشورة مؤخرًا في المجلة والتي يعتقدون أنها ستكون مثيرة للاهتمام بشكل خاص للمؤلفين أو مهمة في هذا المجال. الهدف هو تقديم لمحة سريعة عن بعض الأعمال الأكثر إثارة المنشورة في مجالات البحث المختلفة بالمجلة.


ابحث عن الوظيفة وستجدها

في عام 2003 ، كتب فرانسيسكو أيالا وإفجيني بالاكيرف في المراجعة السنوية لعلم الوراثة أن "الجينات الكاذبة التي تم فحصها بشكل مناسب غالبًا ما تظهر أدوارًا وظيفية". هذا الجديد مراجعات الطبيعة علم الوراثة تقدم الورقة بيانًا مشابهًا جدًا: "حيثما تمت دراسة الجينات الكاذبة بشكل مباشر ، غالبًا ما يكون لها أدوار بيولوجية قابلة للقياس الكمي." إنها قصة طويلة تروي كيف أن العديد من العلماء رفضوا خطأً امتدادات الحمض النووي على أنها "جينات خادعة". لقد وثقوا العشرات من الحالات التي وجد فيها أن "الجينات الكاذبة" في البشر والكائنات الحية الأخرى لها وظيفة.

بعض هذه الوظائف "قائمة على البروتين" ، مما يعني أن الجين الكاذب يولد في الواقع بروتينًا وظيفيًا. لكن الوظائف الأخرى يمكن أن تكون "قائمة على الحمض النووي الريبي" أو "قائمة على الحمض النووي". على سبيل المثال ، يفترض معظم أنصار التطور أن الجين الزائف الذي لا ينتج بروتينًا لا يمكن أن يكون فعالاً. لكن الورقة البحثية لاحظت أن "الجينات الكاذبة" التي لا يمكن ترجمتها إلى بروتين قد تظل لها وظيفة من خلال نسخة RNA الخاصة بها:

تحتوي العديد من الجينات الخادعة على عدد متكرر من الطفرات التي تجعل من غير المحتمل (أو غير قادر على أن تكون) أن تترجم إلى بروتينات. ومع ذلك ، فإن مثل هذه الطفرات لا تمنع بالضرورة الجينات الكاذبة من أداء وظيفة بيولوجية.

تشير الورقة البحثية إلى أنه حتى إذا تعذر ترجمة نسخة RNA لجين كاذب إلى بروتين ، "فقد تم وصف عدد لا يحصى من الآليات التنظيمية القائمة على RNA للجينات الكاذبة ، بما في ذلك المعالجة إلى RNAs صغيرة متداخلة (siRNAs) التي قد تنظم جيناتها الأصلية ، بمثابة شرك لعوامل النسخ ، والأهم من ذلك ، كإسفنج جزيئي لـ microRNAs. "

يفترض العديد من أنصار التطور بقوة أنه إذا لم يتمكن الجين الزائف من إنتاج نسخة من الحمض النووي الريبي ، فلن يكون قادرًا على العمل. ولكن اتضح أن الجينات الكاذبة التي لا تنتج أي نسخة من الحمض النووي الريبي (أي لم يتم نسخها) يمكن أن تظل لها وظائف مهمة:

آلية أخرى يمكن من خلالها للجينات الخادعة أن تعمل عن طريق التأثير على الكروماتين أو البنية الجينية. HBBP1 ، وهو جين كاذب موجود داخل موضع الهيموجلوبين ، يُمكّن التغييرات الديناميكية للكروماتين التي تنظم التعبير عن جينات الغلوبين الجنينية والبالغة أثناء التطور. والجدير بالذكر ، على الرغم من أن تثبيط نسخ HBBP1 ليس له أي تأثير ، فإن حذف الموضع الجيني يعيد تنشيط تعبير غلوبين الجنين. تلامس الحمض النووي HBBP1 ، ولكن ليس النسخ ، مطلوبة لقمع التعبير عن جينات غلوبين الجنين في خلايا الكريات الحمر البالغة.

تم توثيق مجموعة متنوعة من الوظائف غير النسخية الأخرى في الورقة ، بما في ذلك تثبيت الكروموسومات ، ووسط ربط النسخ ، وتنظيم إعادة التركيب. وهكذا ، يبدو في كثير من الحالات أن أعداد نسخ الجينات الكاذبة لها أهمية وظيفية ، حيث تؤدي الانحرافات عن الحالة الوراثية الطبيعية إلى المرض. ويتوقعون: "من المتوقع أن يتم تحديد روابط إضافية بين تعدد الأشكال البشرية الكاذبة والأمراض المعقدة في السنوات القادمة"

المعنى الضمني هو أن أحد الأسباب التي تجعلنا نفترض أن الجينات الكاذبة عديمة الوظيفة هو أننا لم نبحث عن وظائفها. ولماذا لم نبحث عن وظائفهم؟ لأننا افترضنا أنهم عاطلون! لذلك هناك جانب دائري للمنطق هنا. لقد أوجد نموذج الحمض النووي غير المرغوب فيه الذي يوقف العلم ، والذي منعنا من فهم ما تفعله الجينات الكاذبة حقًا.


محتويات

في أنظمة البحث عن الجينات التجريبية (التشابه أو التماثل أو المستندة إلى الأدلة) ، يتم البحث في الجينوم المستهدف عن متواليات مشابهة للأدلة الخارجية في شكل علامات التسلسل المعبر عنها المعروفة ، ورسول RNA (mRNA) ، ومنتجات البروتين ، والمتجانسة أو المتواليات المتعامدة. بالنظر إلى تسلسل الرنا المرسال ، من التافه استنباط تسلسل DNA الجينومي الفريد الذي كان لا بد من نسخه منه. بالنظر إلى تسلسل البروتين ، يمكن اشتقاق عائلة من تسلسل الحمض النووي المشفر المحتمل عن طريق الترجمة العكسية للشفرة الجينية. بمجرد تحديد تسلسل الحمض النووي المرشح ، يصبح البحث الفعال في الجينوم المستهدف عن التطابقات ، كاملة أو جزئية ، دقيق أو غير دقيق ، مشكلة حسابية مباشرة نسبيًا. بالنظر إلى التسلسل ، تبحث خوارزميات المحاذاة المحلية مثل BLAST و FASTA و Smith-Waterman عن مناطق التشابه بين التسلسل المستهدف والمطابقات المرشحة المحتملة. يمكن أن تكون المطابقات كاملة أو جزئية ، ودقيقة أو غير دقيقة. نجاح هذا النهج محدود بمحتويات ودقة قاعدة بيانات التسلسل.

درجة عالية من التشابه مع مرسال معروف RNA أو منتج بروتين هو دليل قوي على أن منطقة من الجينوم المستهدف هي جين مشفر للبروتين. ومع ذلك ، لتطبيق هذا النهج بشكل منهجي يتطلب تسلسل واسع النطاق من mRNA ومنتجات البروتين. ليس هذا مكلفًا فحسب ، ولكن في الكائنات الحية المعقدة ، يتم التعبير عن مجموعة فرعية فقط من جميع الجينات في جينوم الكائن الحي في أي وقت معين ، مما يعني أن الأدلة الخارجية للعديد من الجينات لا يمكن الوصول إليها بسهولة في أي ثقافة خلية واحدة. وبالتالي ، فإن جمع الأدلة الخارجية لمعظم أو كل الجينات في كائن حي معقد يتطلب دراسة عدة مئات أو آلاف من أنواع الخلايا ، مما يمثل مزيدًا من الصعوبات. على سبيل المثال ، قد يتم التعبير عن بعض الجينات البشرية فقط أثناء التطور كجنين أو جنين ، مما قد يكون من الصعب دراسته لأسباب أخلاقية.

على الرغم من هذه الصعوبات ، فقد تم إنشاء قواعد بيانات واسعة النطاق للنسخ وتسلسل البروتين للإنسان وكذلك الكائنات الحية النموذجية المهمة الأخرى في علم الأحياء ، مثل الفئران والخميرة. على سبيل المثال ، تحتوي قاعدة بيانات RefSeq على نسخة وتسلسل بروتين من العديد من الأنواع المختلفة ، ويقوم نظام Ensembl بتعيين هذا الدليل بشكل شامل على الجينوم البشري والعديد من الجينومات الأخرى. ومع ذلك ، فمن المحتمل أن تكون قواعد البيانات هذه غير كاملة وتحتوي على كميات صغيرة ولكن كبيرة من البيانات الخاطئة.

تتيح تقنيات تسلسل النسخ عالية الإنتاجية الجديدة مثل RNA-Seq وتسلسل ChIP فرصًا لدمج أدلة خارجية إضافية في التنبؤ الجيني والتحقق من صحتها ، وتسمح ببديل غني من الناحية الهيكلية وأكثر دقة للطرق السابقة لقياس التعبير الجيني مثل علامة التسلسل المعبر عنها أو ميكروأري الحمض النووي.

تتضمن التحديات الرئيسية التي ينطوي عليها التنبؤ الجيني التعامل مع أخطاء التسلسل في بيانات الحمض النووي الخام ، والاعتماد على جودة تجميع التسلسل ، والتعامل مع القراءات القصيرة ، وطفرات تغيير الإطارات ، والجينات المتداخلة والجينات غير المكتملة.

في بدائيات النوى ، من الضروري التفكير في نقل الجينات الأفقي عند البحث عن تماثل تسلسل الجينات. هناك عامل مهم إضافي غير مستخدم بشكل كافٍ في أدوات الكشف عن الجينات الحالية وهو وجود مجموعات الجينات - أوبيرونات (التي تعمل وحدات من الحمض النووي تحتوي على مجموعة من الجينات تحت سيطرة محفز واحد) في كل من بدائيات النوى وحقيقيات النوى. تعالج معظم أجهزة الكشف عن الجينات الشائعة كل جين بمعزل عن الجينات الأخرى ، وهو أمر غير دقيق من الناحية البيولوجية.

التنبؤ الجيني Ab Initio هو طريقة جوهرية تعتمد على محتوى الجين وكشف الإشارة. بسبب المصاريف المتأصلة وصعوبة الحصول على أدلة خارجية للعديد من الجينات ، من الضروري أيضًا اللجوء إلى البداية اكتشاف الجين ، حيث يتم البحث في تسلسل الحمض النووي الجيني وحده بشكل منهجي عن علامات معينة من الجينات المشفرة للبروتين. يمكن تصنيف هذه العلامات على نطاق واسع إما إشارات، تسلسلات محددة تشير إلى وجود جين قريب ، أو المحتوى، الخصائص الإحصائية لتسلسل ترميز البروتين نفسه. البداية قد يكون اكتشاف الجين أكثر دقة في وصف الجين تنبؤ، نظرًا لأن الأدلة الخارجية مطلوبة عمومًا لإثبات أن الجين المفترض يعمل بشكل قاطع.

في جينومات بدائيات النوى ، تحتوي الجينات على تسلسلات (إشارات) محفز محددة ومفهومة جيدًا نسبيًا ، مثل صندوق Pribnow ومواقع ربط عامل النسخ ، والتي يسهل التعرف عليها بشكل منهجي. أيضًا ، يحدث الترميز التسلسلي للبروتين كإطار قراءة مفتوح متجاور (ORF) ، والذي يبلغ طوله عادةً مئات أو آلاف أزواج القواعد. إحصائيات أكواد الإيقاف تجعل حتى العثور على إطار قراءة مفتوح بهذا الطول علامة مفيدة إلى حد ما. (نظرًا لأن 3 من أصل 64 كودونًا محتملاً في الشفرة الوراثية عبارة عن أكواد توقف ، يمكن للمرء أن يتوقع كودون توقف تقريبًا كل 20-25 كودون ، أو 60-75 زوجًا قاعديًا ، في تسلسل عشوائي.) علاوة على ذلك ، فإن الحمض النووي المشفر للبروتين له بعض الدوريات والخصائص الإحصائية الأخرى التي يسهل اكتشافها في تسلسل بهذا الطول. تجعل هذه الخصائص العثور على الجينات بدائية النواة أمرًا سهلاً نسبيًا ، والأنظمة المصممة جيدًا قادرة على تحقيق مستويات عالية من الدقة.

بداية يعتبر العثور على الجينات في حقيقيات النوى ، وخاصة الكائنات المعقدة مثل البشر ، أكثر صعوبة لعدة أسباب. أولاً ، المحفز والإشارات التنظيمية الأخرى في هذه الجينومات أكثر تعقيدًا وأقل فهمًا من بدائيات النوى ، مما يجعل التعرف عليها أكثر صعوبة. مثالان تقليديان للإشارات التي تم تحديدها بواسطة مكتشفات الجينات حقيقية النواة هما جزر CpG ومواقع الربط لذيل بولي (A).

ثانيًا ، تعني آليات التضفير التي تستخدمها الخلايا حقيقية النواة أن تسلسل ترميز بروتين معين في الجينوم ينقسم إلى عدة أجزاء (exons) ، مفصولة بتسلسلات غير مشفرة (introns). (مواقع لصق هي نفسها إشارة أخرى غالبًا ما يتم تصميم مكتشفات الجينات حقيقية النواة لتحديدها.) يمكن تقسيم جين ترميز البروتين النموذجي في البشر إلى عشرات exons ، كل منها أقل من مائتي زوج أساسي ، وبعضها قصير يصل إلى عشرين. إلى الثلاثين. لذلك ، من الأصعب بكثير اكتشاف التواترات وخصائص المحتوى المعروفة الأخرى للحمض النووي المشفر للبروتين في حقيقيات النوى.

عادةً ما تستخدم مكتشفات الجينات المتقدمة لكل من جينومات بدائية النواة وحقيقية النواة نماذج احتمالية معقدة ، مثل نماذج ماركوف المخفية (HMMs) لدمج المعلومات من مجموعة متنوعة من قياسات الإشارات والمحتوى المختلفة. نظام GLIMMER هو مكتشف جينات عالي الدقة ومستخدم على نطاق واسع لدائيات النوى. GeneMark هو نهج شائع آخر. حقيقيات النوى البداية حقق مكتشفو الجينات ، بالمقارنة ، نجاحًا محدودًا فقط ، ومن الأمثلة البارزة برامج GENSCAN و geneid. إن مكتشف الجينات SNAP مبني على HMM مثل Genscan ، ويحاول أن يكون أكثر قابلية للتكيف مع الكائنات الحية المختلفة ، ويعالج المشكلات المتعلقة باستخدام مكتشف الجينات في تسلسل الجينوم الذي لم يتم تدريبه عليه. [7] بعض الأساليب الحديثة مثل mSplicer ، [8] التباين ، [9] أو mGene [10] تستخدم أيضًا تقنيات التعلم الآلي مثل آلات ناقلات الدعم للتنبؤ الناجح بالجينات. يبنون نموذجًا تمييزيًا باستخدام آلات دعم ماركوف المخفية أو الحقول العشوائية المشروطة لتعلم وظيفة دقيقة للتنبؤ بالجينات.

أب Initio تم قياس الطرق ، مع اقتراب بعضها من الحساسية بنسبة 100٪ ، [3] ولكن مع زيادة الحساسية ، تعاني الدقة نتيجة لزيادة الإيجابيات الخاطئة.

تحرير الإشارات الأخرى

من بين الإشارات المشتقة المستخدمة للتنبؤ الإحصائيات الناتجة عن إحصائيات التسلسل الفرعي مثل إحصائيات k-mer ، أو Isochore (علم الوراثة) أو تكوين نطاق GC / التوحيد / الانتروبيا ، التسلسل وطول الإطار ، Intron / Exon / المانح / المتقبل / المروج ومفردات موقع الربط الريبوزومي ، والبعد الكسوري ، وتحويل فورييه للحمض النووي المرمز بأرقام زائفة ، ومعلمات منحنى Z وميزات تشغيل معينة. [11]

لقد تم اقتراح أن الإشارات غير تلك التي يمكن اكتشافها مباشرة في التسلسل قد تحسن التنبؤ الجيني. على سبيل المثال ، تم الإبلاغ عن دور الهيكل الثانوي في تحديد الأشكال التنظيمية. [12] بالإضافة إلى ذلك ، فقد تم اقتراح أن التنبؤ بالهيكل الثانوي للحمض النووي الريبي يساعد على لصق التنبؤ بالموقع. [13] [14] [15] [16]

تحرير الشبكات العصبية

الشبكات العصبية الاصطناعية هي نماذج حسابية تتفوق في التعلم الآلي والتعرف على الأنماط. يجب تدريب الشبكات العصبية باستخدام بيانات الأمثلة قبل التمكن من التعميم للبيانات التجريبية ، واختبارها مقابل البيانات المعيارية. تستطيع الشبكات العصبية التوصل إلى حلول تقريبية للمشكلات التي يصعب حلها خوارزميًا ، بشرط وجود بيانات تدريب كافية. عند تطبيقها على التنبؤ الجيني ، يمكن استخدام الشبكات العصبية جنبًا إلى جنب مع الشبكات الأخرى البداية طرق للتنبؤ أو تحديد الميزات البيولوجية مثل مواقع لصق. [17] أسلوب واحد [18] يتضمن استخدام نافذة منزلقة ، والتي تعبر بيانات التسلسل بطريقة متداخلة. الإخراج في كل موضع عبارة عن درجة تستند إلى ما إذا كانت الشبكة تعتقد أن النافذة تحتوي على موقع لصق مانح أو موقع لصق متقبل. توفر النوافذ الأكبر حجمًا مزيدًا من الدقة ولكنها تتطلب أيضًا قوة حسابية أكبر. الشبكة العصبية هي مثال على مستشعر الإشارة حيث أن هدفها هو تحديد موقع وظيفي في الجينوم.

تجمع برامج مثل Maker بين الملفات الخارجية و البداية عن طريق تعيين بيانات البروتين و EST على الجينوم للتحقق من صحتها البداية تنبؤات. يمكن أن يتضمن أغسطس ، الذي يمكن استخدامه كجزء من خط أنابيب Maker ، تلميحات في شكل محاذاة EST أو ملفات تعريف البروتين لزيادة دقة التنبؤ الجيني.

نظرًا لتسلسل الجينوم الكامل للعديد من الأنواع المختلفة ، فإن الاتجاه الواعد في البحث الحالي حول اكتشاف الجينات هو نهج الجينوم المقارن.

يعتمد هذا على مبدأ أن قوى الانتقاء الطبيعي تجعل الجينات والعناصر الوظيفية الأخرى تخضع للطفرة بمعدل أبطأ من بقية الجينوم ، لأن الطفرات في العناصر الوظيفية من المرجح أن تؤثر سلبًا على الكائن الحي أكثر من الطفرات في أي مكان آخر. وبالتالي يمكن اكتشاف الجينات من خلال مقارنة جينومات الأنواع ذات الصلة لاكتشاف هذا الضغط التطوري للحفظ. تم تطبيق هذا النهج لأول مرة على الجينوم البشري والفأر ، باستخدام برامج مثل SLAM و SGP و TWINSCAN / N-SCAN و CONTRAST. [19]

تعدد المخبرين تحرير

فحص TWINSCAN التركيب التركيبي للفأر البشري فقط للبحث عن الجينات المتعامدة. سمحت برامج مثل N-SCAN و CONTRAST بدمج محاذاة من كائنات متعددة ، أو في حالة N-SCAN ، كائن حي بديل واحد من الهدف. يمكن أن يؤدي استخدام مخبرين متعددين إلى تحسينات كبيرة في الدقة. [19]

يتكون التباين من عنصرين. الأول هو مصنف أصغر ، يحدد مواقع لصق المانحين ومواقع لصق المتقبل بالإضافة إلى بدء وإيقاف الكودونات. يتضمن العنصر الثاني بناء نموذج كامل باستخدام التعلم الآلي. يعني تقسيم المشكلة إلى قسمين أنه يمكن استخدام مجموعات البيانات المستهدفة الأصغر لتدريب المصنفات ، ويمكن لهذا المصنف العمل بشكل مستقل ويتم تدريبه باستخدام نوافذ أصغر. يمكن للنموذج الكامل استخدام المصنف المستقل ، وليس من الضروري إضاعة الوقت الحسابي أو تعقيد النموذج لإعادة تصنيف حدود intron-exon. تقترح الورقة التي تم فيها تقديم CONTRAST أن يتم تصنيف طريقتهم (وطرق TWINSCAN ، إلخ) على أنها من جديد التجميع الجيني ، باستخدام جينومات بديلة ، وتحديدها على أنها متميزة عن البداية، والذي يستخدم جينومات "المخبر" الهدف. [19]

يمكن أيضًا استخدام اكتشاف الجينات المقارن لعرض تعليقات توضيحية عالية الجودة من جينوم إلى آخر. تشمل الأمثلة البارزة جهاز العرض و GeneWise و GeneMapper و GeMoMa. تلعب هذه التقنيات الآن دورًا رئيسيًا في شرح جميع الجينومات.

الجينات الكاذبة هي أقرباء للجينات ، تشترك في تماثل تسلسل عالٍ للغاية ، لكنها غير قادرة على الترميز لنفس المنتج البروتيني. في حين تم إهمالهم ذات مرة كمنتجات ثانوية لتسلسل الجينات ، بشكل متزايد ، مع الكشف عن الأدوار التنظيمية ، أصبحوا أهدافًا تنبؤية في حد ذاتها. [20] يستخدم تنبؤ الجينات الزائفة تشابه التسلسل الحالي وطرق ab initio مع إضافة ترشيح إضافي وطرق لتحديد خصائص الجينات الزائفة.

يمكن تخصيص طرق تشابه التسلسل للتنبؤ بالجينات الزائفة باستخدام ترشيح إضافي للعثور على الجينات الكاذبة المرشحة. يمكن أن يستخدم هذا اكتشاف التعطيل ، الذي يبحث عن طفرات غير منطقية أو طفرات تغيير الإطارات من شأنها أن تقطع أو تنهار تسلسل تشفير وظيفي بخلاف ذلك. [21] بالإضافة إلى ذلك ، يمكن أن تكون ترجمة الحمض النووي إلى تسلسلات بروتينية أكثر فاعلية من مجرد تماثل الحمض النووي المستقيم. [20]

يمكن تصفية مستشعرات المحتوى وفقًا للاختلافات في الخصائص الإحصائية بين الجينات الخادعة والجينات ، مثل انخفاض عدد جزر CpG في الجينات الخادعة ، أو الاختلافات في محتوى G-C بين الجينات الخادعة وجيرانها. يمكن أيضًا شحذ مستشعرات الإشارة إلى الجينات الخادعة ، بحثًا عن عدم وجود إنترونات أو ذيول بولي أدينين. [22]

علم الميتاجينوميات هو دراسة المواد الجينية المسترجعة من البيئة ، مما ينتج عنه تسلسل المعلومات من مجموعة من الكائنات الحية. إن التنبؤ بالجينات مفيد في علم الميتاجينوميات المقارنة.

تندرج أدوات Metagenomics أيضًا في الفئات الأساسية لاستخدام إما نهج تشابه التسلسل (MEGAN4) وتقنيات ab initio (GLIMMER-MG).

Glimmer-MG [23] هو امتداد لـ GLIMMER الذي يعتمد في الغالب على نهج ab initio لاكتشاف الجينات وباستخدام مجموعات التدريب من الكائنات الحية ذات الصلة. يتم تعزيز استراتيجية التنبؤ عن طريق التصنيف وتجميع مجموعات بيانات الجينات قبل تطبيق طرق التنبؤ الجيني ab initio. يتم تجميع البيانات حسب الأنواع. تستفيد طريقة التصنيف هذه من تقنيات تصنيف النشوء والتطور الميتاجينومي. مثال على البرمجيات لهذا الغرض ، Phymm ، الذي يستخدم نماذج ماركوف محرفة - و PhymmBL ، الذي يدمج بلاست في إجراءات التصنيف.

يستخدم MEGAN4 [24] نهج تشابه التسلسل ، وذلك باستخدام المحاذاة المحلية ضد قواعد بيانات التسلسلات المعروفة ، ولكنه يحاول أيضًا التصنيف باستخدام معلومات إضافية حول الأدوار الوظيفية ، والمسارات البيولوجية والإنزيمات. كما هو الحال في التنبؤ بجين كائن حي واحد ، تقتصر مناهج تشابه التسلسل على حجم قاعدة البيانات.

FragGeneScan و MetaGeneAnnotator هما برنامجان شهيران للتنبؤ بالجينات يعتمدان على نموذج Hidden Markov. تفسر هذه المتنبئات أخطاء التسلسل والجينات الجزئية وتعمل لقراءات قصيرة.

أداة أخرى سريعة ودقيقة للتنبؤ بالجينات في metagenomes هي MetaGeneMark. [25] يتم استخدام هذه الأداة من قبل معهد الجينوم المشترك التابع لوزارة الطاقة لتعليق IMG / M ، أكبر مجموعة ميتاجينوم حتى الآن.


مناقشة

لقد أبلغنا عن مقارنة متعددة الكائنات الحية للجينات الكاذبة التي تستفيد من التعليقات التوضيحية النهائية لجينومات الإنسان والديدان والذباب. نظرًا لأن هذه التعليقات التوضيحية عالية الجودة ، لا نتوقع رؤية أي تغييرات كبيرة في العدد الإجمالي للجينات الخادعة في المستقبل. (للحصول على مناقشة تفصيلية للتباين في عدد الجينات والجينات الزائفة على إصدارات التعليقات التوضيحية المسودة ، راجع الملحق SIS1 والمعلومات التكميلية في المراجع. 4 و 21) على عكس الجينات المشفرة للبروتين ، والتي تعتبر ضرورية للتطور الصحيح ووظيفة الكائن الحي ، وبالتالي فهي تخضع لضغط انتقائي قوي ، تتطور غالبية الجينات الكاذبة بشكل محايد ، مما يجعلها وكيلًا مثاليًا لدراسة تطور الجينوم.

بشكل عام ، تظهر نتائجنا أن مكمل الجين الكاذب محدد بالنسب ، مما يعكس عمليات إعادة تشكيل الجينوم المختلفة التي تميز تطور كل كائن حي. لا يوجد أساسًا أي جينات خادعة متعامدة بين هذه الكائنات البعيدة ، ونرى فقط تداخلًا على مستوى عائلة البروتين ، حيث ينتج عدد قليل من العائلات الكبيرة والمضاعفة للغاية (مثل الكينازات) عددًا كبيرًا من الجينات الخادعة في جميع الأنواع المدروسة .

نجد أن تكملة الجين الكاذب للثدييات تتميز بحدث كبير ، انفجار ارتجاعي حدث 40 ميا ، في فجر سلالة الرئيسيات (25 ، 39 ، 40). يمكن رؤية هذا الاندفاع بوضوح في التوزيع المنتظم إلى حد كبير للجينات الكاذبة عبر الكروموسومات وزيادة تراكمها الطفيف في المناطق ذات معدلات إعادة التركيب المنخفضة ، على سبيل المثال ، الكروموسومات الجنسية ومناطق السنترومير. كما أدى إلى كثرة الجينات الكاذبة المرتبطة بالجينات عالية النسخ مثل تلك الموجودة في مسارات التمثيل الغذائي المركزي والبروتينات الريبوسومية. على الرغم من أن انفجار أحداث التحويل الرجعي حدث بعد انتواع الإنسان / الفأر (∼75 ميا) (41 ، 42) ، فإن التواجد المرتفع للجينات الخادعة المعالجة في جينوم الفأر يشير إلى أن هذا الحدث قد حدث على نطاق أكبر بكثير ، وقد يكون أكثر الخصائص العامة للثدييات. في المقابل ، تحكي مكملات الجينات الزائفة للدودة والذباب قصة العديد من أحداث الازدواجية. يتضح هذا السيناريو في جينوم الدودة نظرًا لحقيقة أن عددًا كبيرًا من الجينات الكاذبة يرتبط بعائلات جينية مكررة للغاية مثل المستقبلات الكيميائية. علاوة على ذلك ، وبسبب عمليات المسح الانتقائية الأخيرة ، فقد تم الحفاظ على العديد من هذه الجينات الكاذبة ، والتي كان من الممكن تطهيرها عن طريق إعادة التركيب ، على أذرع الكروموسوم. في جينوم الذبابة ، أدى حجم السكان الكبير (43 ، 44) جنبًا إلى جنب مع اختيار قوي في التسلسل الجيني (43 ، 45) ومعدل الحذف المرتفع إلى استنفاد تكملة الجينات الزائفة. وبالتالي ، نرى فصل الجينات الخادعة المتبقية في مناطق إعادة التركيب المنخفضة.

إن التبادل الظاهري للجينات الزائفة المضاعفة بين الكروموسومات X و Y في الإنسان هو نتيجة لأحداث فقدان الجينات العديدة في التاريخ التطوري Y (46). على هذا النحو ، فإن غالبية الجينات الخادعة المكررة "المُصدرة من X" على Y من المحتمل أن تكون نسخًا متحللة أدت لاحقًا إلى تراكم طفرات ضارة (47).

أخيرًا ، نحدد مجموعة كبيرة من النشاط الكيميائي الحيوي (كما هو محدد بالنسخ ، والكروماتين النشط ، و Pol II و TF ملزم) للجينات الخادعة التي تتراوح من نشطة للغاية إلى الميتة. تم العثور على غالبية الجينات الكاذبة (75٪) بين هذين النقيضين ، وتظهر نسبًا مختلفة من النشاط المتبقي. على وجه الخصوص ، نحدد قدرًا ثابتًا من النسخ (∼15٪) في كل كائن حي. توزيع مستويات النشاط هذه متسق عبر جميع الأنواع مما يعني وجود معدل موحد من التدهور.

نحن نربط نشاط الجينات الكاذبة بالحفاظ على مناطق المنبع. بمقارنة الجينات الخادعة والبارالوغات الوظيفية ، نجد أن العديد من الجينات الخادعة لديها تسلسلات محفوظة في أعلى التيار أكثر مما هو معتاد بالنسبة للبارالوغ. علاوة على ذلك ، نحدد عددًا من الجينات الخادعة ذات مناطق المنبع المحفوظة للغاية بالنسبة إلى جيناتها الأم. ومع ذلك ، لا يتم الحفاظ على هذا الحفظ دائمًا من حيث نشاط المنبع (كما هو محدد بعلامات هيستون). في هذه الحالة ، تكون الجينات الخادعة أقل نشاطًا من نظيراتها المشفرة ، مما يعكس التدهور الوظيفي لهذه المناطق. مجموعة فرعية صغيرة من الجينات الخادعة مع المروجين المحفوظة على حد سواء في التسلسل والنشاط تلمح إلى الأدوار التنظيمية المحتملة.

نكمل تحليلنا بترتيب الجينات الخادعة بناءً على ميزات نشاطها وتحديد المرشحين الوظيفيين المحتملين. تم توضيح الأدوار التنظيمية للعديد من الجينات الخادعة من خلال منتجات RNA الخاصة بها سابقًا (8 ، 9 ، 48 -50). ومن ثم ، فإننا نقترح أن بعض الجينات الزائفة قد تلعب أدوارًا نشطة في بيولوجيا الجينوم وتتطلب مزيدًا من التحقيقات التجريبية. نحن ندرك أن فكرة الجين الزائف الوظيفي هي ، بمعنى ما ، تناقض لفظي. ومع ذلك ، نحن هنا نركز فقط على جدولة وتعداد هؤلاء المرشحين الوظيفيين المحتملين. في ضوء التطورات الحديثة في علم الجينوم الوظيفي وبيولوجيا الجينوم ، قد يكون من المفيد إعادة النظر في تعريف الجين والجينات الزائفة لوصف هذه الكيانات بشكل أفضل وأكثر دقة (6 ، 51 ، 52).


نتائج

بناء قاعدة بيانات بحث عن البروتينات الجينية

قمنا بتنزيل بيانات البروتينات التي تم جمعها من 40 عينة طبيعية من 31 نسيجًا سليمًا ، و 933 عينة ورم ، و 275 عينة طبيعية مجاورة للورم من قاعدة بيانات PRoteomics IDEntifcations (PRIDE) واتحاد تحليل الورم البروتيني السريري التابع للمعهد الوطني للسرطان (CPTAC) بوابة بيانات 11،12 . الأنواع الخمسة التي تم فحصها هي سرطان الثدي (BRCA) ، وسرطان الخلايا الكلوية الصافية (CCRCC) ، وسرطان القولون (COAD) ، وسرطان المبيض ، وسرطان بطانة الرحم (UCEC). يتم عرض عدد العينات في كل مجموعة بيانات في الشكل & # x000a0 1a. يتم تضمين التعليقات التوضيحية التفصيلية لمجموعات البيانات التي تم تنزيلها وعينة المعلومات في & # x000a0 البيانات التكميلية 1 (الجدول & # x000a01).

أ نوع وعدد العينات المستخدمة في هذه الدراسة. ب عدد مواقع الترميز الجديدة التي تم اكتشافها في مجموعات بيانات CPTAC. ج عدد مواقع الترميز الجديدة التي تم اكتشافها في 31 نسيجًا سليمًا (يتم تجميع الببتيدات في موضع واحد إذا تم ترميزها بواسطة نفس الجين غير المشفر). د يُظهر مخطط Venn تداخل مواقع الترميز الجديدة (& # x022652 اكتشاف ببتيدات فريدة) بين الأنسجة السليمة ومجموعات بيانات CPTAC. ه شرح المواقف الجينومية حيث تم الكشف عن الببتيدات غير المشفرة بالجينات. الجينات الزائفة: جميع فئات الجينات الزائفة (إذا كان الببتيد الجديد ينتمي إلى الجين الكاذب ، فلن نحسبه مرة أخرى في الفئات الأخرى). lncRNA: ncRNA. Exonic: ترميز الجين & # x02019s exon ، وليس في إطار القراءة المتعارف عليه. انترونيك: ترميز الجينات intron. حدود Intronic & # x02013exonic: الببتيد الممتد فوق جين الترميز & # x02019s exon & # x02013intron border. منطقة UTR: منطقة غير مترجمة لجين الترميز. المنبع: المنبع من الجين الترميز. المصب: المصب من الجين الترميز. F شرح الجينات الأبوية & # x02019 وظيفة الجينات الزائفة المترجمة.

للبحث في بيانات البروتينات ، أنشأنا أولاً قاعدة بيانات أساسية ، بما في ذلك البروتينات البشرية ENSEMBL ، والببتيدات المتغيرة CanProVar 2.0 ، وتسلسلات الببتيد من ثلاثة ترجمات إطارات للجينات الزائفة المشروحة من GENCODE v28 و lncRNA من LNCpedia 4.1 13 & # x0201316. تم استخدام قاعدة البيانات الأساسية هذه كقاعدة بيانات بحث عن بيانات البروتينات للأنسجة السليمة. بالنسبة لمجموعات بيانات السرطان المختلفة ، تم تنزيل مجموعة من الطفرات السرطانية من CGDS 17. تم تحويل هذه الطفرات بعد ذلك إلى تسلسلات بروتين متحولة باستخدام نصوص مخصصة واستكمالها بقاعدة بيانات البحث لنوع السرطان المقابل (انظر التفاصيل في & # x0201cMethods & # x0201d). تم إجراء البحث عن البروتينات الجينية باستخدام إصدار محدث بناءً على خط الأنابيب 4 المنشور مسبقًا (الشكل التكميلي & # x000a0S1).

غالبية الببتيدات الجديدة التي تم تحديدها من الجينات الكاذبة متماثلة مع جينات حفظ المنزل

في المجموع ، حددنا 7882 و 9013 ببتيدًا جديدًا من 31 نسيجًا طبيعيًا وخمسة أنواع من السرطان بمعدل اكتشاف خاطئ خاص بالفئة بنسبة 1 ٪ (FDR) ، على التوالي. تم تعريف مواقع الببتيدات / الترميز الجديدة على أنها متواليات الببتيد / الجينوم التي لا توجد في قواعد بيانات الجينات المشروحة للبروتين / الترميز (البروتين المرجعي البشري Uniprot بالإضافة إلى قاعدة بيانات البروتين البشري GENCODE v28). قمنا بتلخيص عدد الببتيدات الفريدة لكل موضع ترميز جديد لـ 31 من الأنسجة السليمة ، ومجموعات بيانات CPTAC (بما في ذلك كل من 933 عينة من الورم و 275 عينة طبيعية مجاورة للورم) ، على التوالي (الشكل & # x000a0 1 ب ، ج). ثم قسمنا المواقع الجديدة إلى ثلاث مجموعات وفقًا لعدد الببتيدات الفريدة التي تم دعمها بها. بعد إزالة مواضع مدعومة بببتيد واحد فقط ، تم تحديد 220 و 687 موقع ترميز جديد (يقابل 603 و 2320 ببتيدًا فريدًا) في بيانات الأنسجة الصحية ومجموعات بيانات CPTAC (الشكل & # x000a0 1d) ، على التوالي (التعليقات التوضيحية التفصيلية) من مواقع الترميز الجديدة متوفرة في البيانات التكميلية & # x000a01 (الجدول & # x000a02 والجدول & # x000a03)).

بعد ذلك ، قمنا بتوضيح الببتيدات الجديدة التي تم تحديدها والتي تم اكتشافها من مجموعة بيانات الأنسجة السليمة ومجموعات بيانات CPTAC استنادًا إلى أصلها ، بما في ذلك الجينات الكاذبة lncRNAs المناطق غير المترجمة ، والإنترونات ، والإكسونات من جينات ترميز البروتين (إطار القراءة البديل) مناطق المنبع والمصب (1 & # x02009kb المسافة إلى أقرب UTR) من جينات ترميز البروتين التي تمتد عبر تقاطعات intron & # x02013exon لجينات ترميز البروتين والعناصر الرجعية (الشكل & # x000a0 1e). في زوج ر- مقارنة الاختبار ، لم تظهر مجموعات بيانات CPTAC والأنسجة السليمة فرقًا معنويًا في النسبة المئوية لمواقع الترميز الجديدة المكتشفة في مناطق الجينوم المختلفة. علاوة على ذلك ، بما يتفق مع النتائج في Kim et al. 19 وعملنا السابق 4 ، كانت غالبية الببتيدات الجديدة من ترجمة الجينات الخادعة. كانت LncRNAs هي المصدر الرئيسي الثاني للببتيدات الجديدة التي تم تحديدها. تتماشى النسبة المنخفضة من الببتيدات الجديدة المكتشفة من lncRNAs مع دراسة سابقة أجراها جوتمان وآخرون. 20 ، حيث قدم تحليل شامل لبيانات التنميط الريبوزومي أدلة داعمة على أن الغالبية العظمى من lncRNAs لا تشفر البروتينات.

نظرًا لأن الجينات الخادعة لها تشابه كبير في التسلسل مع جيناتها الأبوية ، فقد قمنا بتوضيح الجينات الخادعة المترجمة بناءً على وظائف جيناتها الأبوية (الشكل & # x000a0 1f ، الشكل التكميلي & # x000a0S2a). تمشيا مع النتائج التي تم الكشف عنها من خلال تحليل بيانات RNA-seq السابق 7 ، كانت الجينات الكاذبة التي تم اكتشافها بشكل متكرر في الأنسجة السليمة ومجموعات بيانات CPTAC متماثلة مع جينات الحفاظ على المنزل مثل بروتينات الهيكل الخلوي (الأكتين ، والكيراتين ، والتوبولين) ، والبروتينات الريبوسومية ، والبروتينات النووية الريبية. ، وبروتينات الصدمة الحرارية ، وعامل استطالة الترجمة حقيقية النواة ، peptidylprolyl isomerase (الشكل & # x000a0 1f ، البيانات التكميلية 1 ، الجدول & # x000a04). تضمنت ببتيدات الجينات الكاذبة 428 و 1970 ببتيدات جديدة ، تضم 70.9٪ و 84.9٪ ببتيدات جديدة إجمالية ، تم اكتشافها من الأنسجة السليمة ومجموعات بيانات CPTAC ، على التوالي.

تكتشف البروتينات البروتينية في كل مكان الترجمة الخاصة بالأنسجة للجينات الخادعة والـ lncRNAs

تميزت دراسات البروتينات الجينية السابقة بشكل أساسي بتغييرات مستوى البروتين من انحرافات الجينوم بما في ذلك الاختلافات في عدد النسخ وطفرات الخطأ 21 & # x0201323. Our recent work investigated the tissue-specific expression of noncoding gene-encoded peptides in five different human tissues 4 . Here, we extended this analysis in a comprehensive proteomics dataset of 31 different tissues 5 . We quantified the identified novel peptides by extracting MS1 maximum peak intensity using moFF 24 . We limited the analysis to novel coding loci with at least two unique peptides. Our analysis identified three groups of novel coding loci expression: 12 ubiquitous (expressed in at least 15 tissues), 93 nonspecific (expressed in 2� tissues, robustly translated in one or two tissues but frequently translated at lower levels in other tissues), and 114 with tissue-specific expression (Fig.  2 ). The pseudogene expression profile we observed was different from the RNA-seq study, where the majority of expressed pseudogenes were identified as nonspecific 7 . We speculated that many non-specific and lowly expressed pseudogenes were stochastically detected in tissues with only one sample analyzed (24 of 31 tissues have only one sample), consequently increasing the number of tissue-specific pseudogenes here (see Supplementary Data 1, Tableਂ, with representative tissue-specific pseudogenes/lncRNAs highlighted).

Heatmap of novel coding loci expression sorted based on tissue-specific expression shows ubiquitously (left), nonspecific (middle), and tissue-specific (right) expressed novel coding loci.

From the 31 healthy tissues dataset, we detected two previously reported tissue-specific non-coding gene translation products: testis-specific TATDN2P1 (TatD DNase domain-containing 2 pseudogene 1, supported by two unique peptides) and placenta-specific lncRNA lnc-CACNG8-28:1 (supported by eight unique peptides) 4 . In addition, several new tissue-specific non-coding genes were discovered (see Supplementary Dataਁ, Tableਂ). For example, ten unique peptides encoded by a lncRNA, lnc-AFF3-13:1, located in the 5′ UTR of gene TSGA10 were detected in fallopian tissue. Six unique peptides from a PRH1-PRR4 read-through transcript were detected in the salivary gland. Pseudogene CCDC150P1 was detected with five unique peptides in testis, and this pseudogene CCDC150P1 transcript is also specifically expressed in testis according to GTex data (Supplementary Fig. S2b). Interestingly, in both pituitary tissue samples, peptides were identified from a lncRNA that overlaps with the coding region of a pituitary specific protein-coding gene, GH1, but in a noncanonical reading frame (see annotated spectra in Supplementary Dataਂ). Our data indicate that GH1 may have dual coding frames that encode unknown new proteins.

We compared our proteomics results with two recent studies that used ribosomal profiling and full-length mRNA sequencing to search translated noncoding genes in multiple cell types and cancer cell lines 25,26 . Lu et al. identified 2969 translating non-coding genes from mRNA sequencing and ribosomal profiling data, and mass spectrometry detected 10% (308) noncoding gene-encoded new proteins (372 unique peptides). Among these new proteins, 59 were also identified in our results (See Supplementary Dataਁ, Tableਅ). These include MCTS2P, MKKS 5′ UTR ORF, LINE-1 ORF1, and PA2G4P4. In comparison, only eight novel CDS were found in common between Chen et al. 27 and our current study. This could be due to the sample difference since their novel CDS were identified from induced pluripotent stem cells (iPSCs), iPSC-derived cardiomyocytes, and human foreskin fibroblasts. Of note, these common novel CDS include MCTS2P, STARD10 5′ UTR ORF, and TSGA10 5′ UTR ORF.

Overlap of detected non-coding gene translation in different samples and datasets

We analyzed the overlap of detected novel coding loci in different samples within each study (Fig.  3a ). We divided the novel coding loci into four groups by the percentage of samples in which they were identified. For example, the dataset PXD002619 produced the largest number of novel coding loci, but two-thirds were identified in fewer than 25% of samples. On average, one-third of all novel loci were identified in more than 50% of samples.

أ The overlap of detected novel coding loci in different samples. For example, red bar indicates the number of novel coding loci that are only missing in 0�% of the samples, while the blue bar indicates the number of novel coding loci missing in 75�% of the samples. For iTRAQ or TMT labeled data, a valid value or a missing value is used to determine if the locus is detected in the corresponding sample or not. ب Overlap of pseudogenes and non-pseudogenes between CPTAC datasets. ج The percentage of samples detected with RHOXF1P3 و MCTS2P.

Among different CPTAC datasets (in total 13 datasets covering five cancer types), 46% of pseudogene identifications were repeatedly detected in at least two datasets. In comparison, only 16% of non-pseudogenes were detected in more than one dataset. Further analysis showed that 93% of pseudogenes that were identified commonly in 8� different datasets belong to housekeeping genes, which suggests pseudogenes derived from house-keeping genes are also ubiquitously expressed in different cancer types (Fig.  3b ).

Apart from the ubiquitously expressed pseudogenes, many pseudogenes were recurrently detected in specific cancers. The notable examples were RHOXF1P3 (Rhox homeobox family member 1 pseudogene 3) and MCTS2P (malignant T cell amplified sequence 2 pseudogenes) which were repeatedly detected from independent datasets of breast and ovarian cancers (Fig.  3c ). The parental gene of RHOXF1P3, RHOXF1, is thought to inhibit cell apoptosis by activation of BCL-2 28 . MCTS2 is an imprinted gene and only paternally expressed retrogene copy 29 .

In addition to pseudogenes, we also found several long noncoding RNA-encoded peptides that were detected in specific cancers. For example, lncRNA lnc-SERPIND1-41:10 were detected with ten unique peptides from different samples in CCRCC (Fig.  4c , Supplementary Dataਁ, Tableਃ). This lncRNA is located in the last intron of the noncoding RNA gene DGCR9 (DiGeorge Syndrome Critical Region Gene 9, located on chromosome 22q11, see Supplementary Fig. S3). Our results present the first evidence to our knowledge that a potential novel coding locus in DGCR9’s last intron may encode a protein product in CCRCC.

أ Heatmap of colorectal cancer (PXD002137). Heatmap was scaled by row value. ب Boxplot of noncoding genes significantly differentially expressed between tumor and normal (paired ر اختبار، ص.value <𠂐.05). ج Relative expression of the ten unique peptides detected from DGCR9 in tumor (CCRCC) and normal (ر اختبار ص.adjust <𠂐.01). د Relative expression of peptides detected at 5′ UTR in tumor (UCEC) and normal. e Relative expression of peptides detected from MKKS 5′ UTR in tumor (COAD) and normal. CCRCC clear cell renal cell carcinoma, UCEC uterine corpus endometrial carcinoma, COAD colon cancer.

Since pseudogene expression has been extensively analyzed at the transcript level using RNA-seq data 7,8 and the major biological functions of pseudogenes have been revealed at the RNA level, we wondered whether any pseudogenes expressed at the RNA level are translated into proteins. Therefore, we compared pseudogenes detected in our proteomics analysis with two major studies in which the expression of pseudogenes was investigated through RNA-seq analysis 7,8 . We found that the pseudogenes commonly detected in RNA and protein level are pseudogenes of house-keeping genes such as ribosomal proteins, GAPDH, cytokeratin, eukaryotic translation initiation factors, and heterogeneous nuclear ribonucleoprotein. In addition, pseudogenes corresponding to cancer-associated genes HMGB1, VDAC1، و PTMA reported in a previous RNA-seq study 7 were detected both in the healthy tissues and cancers in our proteomics analysis (Supplementary Dataਁ, Tablesਂ and 3). In comparison, many of the known functional pseudogenes such as PTENP1 were not detected in these proteomics data. This was not unexpected since they are functional as ceRNA molecules regulating the expression of their parental genes 30 . Another example is the BRCA pseudogene ATP8A2P1, which showed high expression at the RNA level 7,8 but was not detected at the protein level in any of the BRCA proteomics data, suggesting this pseudogene may only exert functions at the RNA level.

Differential expressed noncoding gene-encoded peptides between tumor and normal tissue

We investigated if certain pseudogene/lncRNA-encoded peptides had elevated expression in tumors in the colorectal cancer (CRC) dataset with 8 paired CRC samples and matched normal tissues (PXD002137) 27 . In this dataset, 73 pseudogenes and lncRNAs identified were supported by multiple peptides. Unsupervised clustering of these 73 pseudogenes and lncRNAs by the centered log2 intensity is shown in Fig.  4a . A paired ر test analysis found 11 of the pseudogenes/lncRNAs were significantly upregulated in tumors compared to matched normal tissues. For example, lnc-KMT5B-20:1, lnc-NANOGP8-26:6، و RP11-351N4.2 are upregulated in CRC compared to matched normal tissues (Fig.  4b ).

In other cancer datasets, we also detected several noncoding gene-encoded peptides with increased expression in tumors. For example, the peptides encoded by lncRNA lnc-SERPIND1-41:10 (DGCR9 intron) showed significantly higher expression levels in CCRCC compared to adjacent normal tissues (Fig.  4c ). In UCEC, peptides detected from the 5′ UTR or noncanonical reading frame of the protein-coding genes TSGA10, NPLOC4, MKKS، و MUC1 were more abundant in tumors compared to normal tissues (Fig.  4d ). Similarly, increased expression of peptides from MKKS 5′ UTR was also detected in another CRC dataset (Fig.  4e ).

In the two CPTAC BRCA datasets, the pseudogene RHOXF1P3 was identified with eight and seven unique peptides, respectively, covering 89% of amino acid sequences of the open reading frame encoded by this pseudogene (Fig.  5a ). More interestingly, the peptides encoded by pseudogene RHOXF1P3 were upregulated (2- to 16-fold) in a subset of BRCA patients both in the CPTAC BRCA Discovery and Confirmatory cohorts (Fig.  5 b, c) 21 . بالإضافة الى، RHOXF1P3-encoded peptides were also detected in two ovarian cancer patients (Fig.  5d ). We then analyzed the expression of RHOXF1P3 in a published RNA-seq dataset including 63 breast tumors and 10 adjacent normal tissues, which also showed upregulated expression of RHOXF1P3 in tumor samples (Fig.  5e ). Together, our results demonstrated that pseudogene RHOXF1P3 is not only translated, but also upregulated in a subset of breast tumors.

أ Predicted protein sequence of pseudogene RHOXF1P3 (amino acids in red were supported by detected peptides). ب Relative expression of RHOXF1P3 encoded peptides in 77 breast tumors. Gray color boxes indicate missing values. ج Relative expression of RHOXF1P3 encoded peptides in 133 breast tumors and 18 adjacent normal tissues. د Relative expression of RHOXF1P3 encoded peptides in 86 ovarian tumors and 22 normal ovarian tissues. e RNA seq read count of RHOXF1P3 transcript in breast tumor and normal. F Relative expression of peptides detected at 5′ UTR of STARD10 in 77 breast tumors.

Finally, we detected peptides from the 5′ UTR of STARD10, which also displayed higher abundance in a subset of breast tumors (Fig.  5f ). STARD10 is a lipid transfer protein and this protein has been previously reported to be overexpressed in BRCAs and correlate with ErbB2/Her2 status 31 . Our data suggest that this gene may use an upstream non-AUG start codon to initiate translation in a subset of breast tumors.

LINE-1 retrotransposon ORF1 encoded peptides show higher expression in tumors

As evidenced in many studies, cellular mechanisms that repress the expression of repetitive DNA are disrupted in cancer cells. Overexpression of satellite repeats was previously observed in pancreatic and other epithelial cancers 32,33 . This phenomenon correlates with the overexpression of the long interspersed nuclear element 1 (LINE-1) retrotransposon, which is suggested as a hallmark of many cancers 33 .

In previous proteogenomics studies, peptides mapped to multiple genomic locations were often neglected. In our analysis, LINE-1 retrotransposon ORF1-encoded peptides were detected in different cancer datasets. LINE-1 RNA contains two non-overlapping open reading frames, encoding two proteins ORF1p and ORF2p. The expression level of ORF1p is 1000-10,000 times higher than ORF2p 34 . In the analyzed proteomics datasets, we detected ORF1p peptides from all five cancer types (Supplementary Dataਁ Tableਃ). The quantitative analysis showed higher expression of the LINE-1 ORF1p encoded peptides in UCEC, ovarian cancer and COAD compared to their respective normal samples (Fig.  6 ). In comparison, LINE-1 ORF2p was not detected in our analysis. It corroborates findings from an antibody-based study which concluded that LINE-1 ORF2p expression is hardly detectable in human cancers 35 . Surprisingly, we also detected peptides of LINE-1 ORF1 in healthy tissues, including lung, ovary, and prostate (Supplementary Dataਁ, Tableਂ). Another independent study using RNA-sequencing data also observed widespread expression of retroelements in human somatic tissues 36 . This may be explained by a recent finding that LINE-1 activity becomes derepressed in senescent cells and healthy tissues could have senescent cells at old age 37 .

The heatmap shows the log2 relative abundance of LINE-1 ORF1 encoded peptides in five different cancers. Gray boxes indicate missing values. BRCA breast cancer, OV ovarian cancer, CCRCC clear cell renal cell carcinoma, UCEC uterine corpus endometrial carcinoma, COAD colon cancer.

Noncoding region encoded peptides as a new class of cancer neoantigens

Laumont et al. 10 demonstrated noncoding region encoded peptides can be used as a cancer vaccine to prevent tumor progression. Here, we try to predict if any of noncoding region-encoded peptides can be used as potential cancer neoantigens. T cells recognize and bind to a peptide–MHC complex in a complex process with many crucial steps. First, the abnormal proteins are hydrolyzed by proteases into peptide fragments in the cytoplasm, and then peptide fragments transported by the transporter associated with antigen processing (TAP) protein into the endoplasmic reticulum, where the peptide bind to an MHC molecule 38 . The NetCTLpan server integrates predictions of proteasomal C terminal cleavage, TAP transport efficiency, and MHC class I binding affinities, which take into account antigen processing and presentation 39 . Therefore, we used the NetCTLpan server to predict the neoantigens.

We selected neoantigen candidates based on the following criteria: (1) The average expression of novel loci in tumor tissue was upregulated by 1.5 times compared with matched normal tissue (restricted to the datasets in which matched normal tissues are available) (2) peptides were supported by NetCTLpan predictions. By NetCTLpan prediction, 64 pseudogenes or lncRNAs had at least one 9-mer peptide with predicted affinity ranked at threshold 𢙀.5% (Supplementary Dataਁ, Tableਆ). These results suggest that there are a large number of candidate neoantigens in the noncoding regions. Of note, the 9-mer peptide (HEDTGNPGL) encoded by pseudogene RHOXF1P3, and the peptide (RLQEGLAAV) encoded by lncRNA lnc-SERPIND1-41:10 (DGCR9 intron) were predicted as neoantigens.


خلفية

Pseudogenes were previously considered unimportant relics of evolution that played an unclear role in biological processes [ 1]. However, more pseudogenes have been discovered to be involved in gene regulation [ 2– 4]. These regulatory relationships between pseudogenes and genes have increasingly been explored, such as the transcriptional regulation of PTEN by pseudogene PTENP1 in several cancer conditions [ 5]. PTEN acts as a tumor suppressor gene, which is underexpressed in gastric cancer. However, by overexpressing PTENP1 in gastric cancer, both PTEN underexpression and cell proliferation are mitigated via the regulatory relationship between PTEN و PTENP1 [ 6]. Relationships between these pseudogenes and their parent genes have been found to play critical roles indicating functional potentials of these pseudogenes [ 7, 8]. This point can most clearly be seen in the importance of the role that sequence homology between pseudogenes and coding genes plays in competing endogenous RNA (ceRNA) networks [ 9, 10]. In ceRNA networks the pseudogenes act as decoy targets for the microRNAs (miRNAs) targeting a protein-coding gene. In short, researchers have made huge strides in understanding pseudogenes from genomic variation to functional potentials [ 11, 12], and from “deciphering” the mechanism of ceRNA networks [ 13] to experimental validation [ 14].

With this progress, there has been renewed interest in pseudogenes, especially in relation to cancer [ 15]. This interest has even uncovered biomarkers in human cancer including but not limited to SUMO1P3 upregulation as a diagnostic biomarker in gastric cancer and OCT4-pg4 expression as a prognostic biomarker in hepatocellular carcinoma [ 16– 18]. Pseudogene expression has been used to stratify tumor subtypes in seven distinct cancer types [ 19]. However, owing to the close sequence homology between pseudogenes and their parent genes, identifying the expression profile unique to a pseudogene or highly homologous gene can be challenging. Efforts have been made to address these technical challenges in estimating pseudogene expression using modified alignment and quantification techniques [ 20]. Perhaps more intriguing is that pseudogenes can be somatically acquired in cancer development effectively “representing a new class of mutations” [ 21, p.1] that can be either activating or inactivating mutations which function as an on/off switch [ 22]. Specific pseudogenes have been implicated in specific cancers. For example, FTH1 regulates tumorigenesis in prostate cancer [ 23], TP73-AS1 regulates proliferation in esophageal squamous cell carcinoma [ 24], and pseudogenes NKAPP1, MSTO2P، و RPLP0P2 are associated with poor prognosis in lung adenocarcinoma [ 25].

For these reasons, having a complete understanding of these pseudogene-gene (PGG) relationships is important. While studying these relationships, a common conception is to only consider the pseudogenes in relation to their parent genes with highest homology [ 7– 9, 26]. There have also been pioneering studies probing pseudogene functions through aligning them to parent proteins (corresponding to the parent genes) and then to parent protein domains [ 7, 27, 28].

The conventional idea of single parent genes may not be comprehensive enough to model the complex phylogenetic relationships involving multiple genes and pseudogenes in a homolog family. While pseudogenes diverged from their parent genes distantly in the past, only the daughter protein-coding genes other than the original parent gene may now exist. The result is that aligning to the true phylogenetic parent gene itself may not be possible. For this reason, we advocate the use of homologous gene families rather than single parent genes to compare against pseudogenes. By viewing the homologies as a weighted network instead of a single scalar value, we believe that new relationships can be uncovered.

We build the PGG family databases using two methods: (i) CUDAlign [ 29] based local alignment of all pseudogenes to gene families (totaling 1.6 billion individual local alignments and >40,000 graphics processing unit [GPU] hours). By aligning all pseudogenes to all gene families (CUDAlign), we can study underlying sequence homology and more easily set cutoffs to assign pseudogenes to gene families. (ii) Basic Local Alignment and Search Tool (BLAST) [ 30] based assignment of pseudogenes to gene families. This provides a fast heuristic search option. BLAST derivative methods have been commonly used to find parent genes in previous pseudogene studies [ 31, 32]. Using these two methods, we show that these pseudogenes are usually assigned to the gene family of their parent genes but are often not exclusively so. Besides, most pseudogenes can be categorized into processed pseudogenes and unprocessed pseudogenes depending on whether they came from retrotranscription of messenger RNAs [ 11, 33, 34]. We take these differences into account using both of our methods (CUDAlign and BLAST).

Furthermore, we make these data publicly downloadable from GitHub [ 35]. We also created an R Shiny web application called PseudoFuN (Pseudogene Functional Networks) [ 36] that supports querying the PGG databases, interactive visualization and functional analysis of the PGG networks, and visualization of PGG co-expression and miRNA binding (including binding prediction with Miranda [ 37], PicTar [ 38], and TargetScan [ 39]) using The Cancer Genome Atlas (TCGA) and GTEx (Genotype-Tissue Expression) Project–derived public data [ 20, 40, 41]. Besides, we provide another interactive web application hosted by the Ohio Supercomputer Center (OSC), which supports querying novel sequences against any of our PGG databases and visualization of the resulting PGG networks.

The PGG databases can be used to study pseudogene-gene-miRNA co-expression indicative of ceRNA networks across the entire TCGA. With these diverse tools provided by PseudoFuN, it is possible to generate hypotheses regarding (i) the regulatory roles of pseudogenes across tumor and normal tissue, (ii) PGG relationships through من جديد reassignment of pseudogenes to gene families, and (iii) functional annotation of pseudogenes. We expect these databases and tools to have more use in cancer studies.


Genetics Exam 1

Unique features include synapsis, reduction division, random assortment of chromosomes, and cross-over or homologous recombination chromosomes leading to genetic variation.

They constitute the majority of the pseudogenes in the human genome. They have no introns. Often they contain a polyadenylation signal.

They are generally associated with non-coding DNA.

Encoded as long sequence, undergo transcription, pre mRNA, go into cytoplasm and undergo farther processing and produce the final product

Finds the target gene and binds, for degradation or inhibits translation- both cause no protein production

DNA is wound around the histone protein core forming a nucleosome

The nucleosomes coil to form the _____ fibers

In Mammals, it occurs at the CpG dinucleotides.

Is catalyzed by de novo methyltransferase (DNMT) enzyme, and it is maintained through cell division.

It remains condensed throughout the lifespan therefore it is Highly methylated.

The methylation pattern changes between cell types. It could be condensed in one cell type but packaged in euchromatin form in another cell type depending on the transcriptional status of the genes in the area.

Imprinted genes exist in clusters and each cluster is controlled by its own ____ (cis-acting regulatory element)

Genomic changes that lead to diseases

Normally is an autosomal dominant disorder but can present with a de novo mutation during gamete formation of one of the parents

There are emerging evidence that VNTR alleles may influence transcription rate when the VNTR is in a ____ region.

Alleles with 26-63 repeats leads to lower rate of Insulin transcription and lower protein levels during the development of the immune system
- Predisposing, not necessarily causing (not based off of one single allele)

Clearest link between genetic variation and antisocial behavior

Identified a polymorphic sequence in the promoter region that affects the transcriptional potential of the promoter

• There are 4 alleles in the human populations with different frequencies

• The promoter activity depends on the number of repeats, promoter with 3 repeats exhibits a low transcriptional activity
- Along with adverse environment causes a high risk of developing anti-social behavior

Since many _____ include genes that result in differential levels of gene expression, they may contribute significantly to normal phenotypic variation.


A mystery

When the team applied these criteria to yeast proteins, they found that the function of most of them was discovered in the 1990s. Progress slowed in the 2000s and plateaued in the 2010s with the function of a fifth still unknown.

Next the team showed that the same proportion of human protein-coding genes remain a mystery. “There are 3000 human proteins whose function is unknown,” says Wood.

The team didn’t look at the rate of progress for human proteins, but Wood thinks the situation is similar. There are two reasons why progress is grinding to a halt, she says.

First, a common way to find out what protein-coding genes do is to mutate them in animals such as mice and zebrafish to see what happens. The mystery proteins don’t show up in these screens, perhaps because they are involved in processes, such as ageing, that have subtle effects.

Second, funders are turning down applications to study these unknown proteins because of the risk of people spending years working on them without any results.

Read more: Dark DNA: The missing matter at the heart of nature

That might be a mistake. Another thing Wood’s team showed was that a quarter of the mystery proteins in yeast are also found in humans. That means these proteins have been conserved over the billion or so years since our ancestors split from those of yeast.

“They must be doing something pretty important,” says Wood. “I’m absolutely certain there are big discoveries to be made.”


Pseudogene: lessons from PCR bias, identification and resurrection

Pseudogenes are fragments of non-functional genomic DNA with high sequences similarity to normal functional genes. They are a kind of non-coding DNA produced by gene duplications or retrotranspositions. Pseudogenes exist in human genome at a large quantity which is nearly as much as that of normal functional genes. They could cause PCR bias in molecular biology experiments and confuse related analysis. On the other hand, pesudogenes are important elements in genomics study for getting an integral picture of genome annotation. They give diverse information of evolutionary history and are regarded as genome fossils. Worldwide research project “encyclopedia of DNA elements”(ENCODE) founded in recent years have enhanced our understanding of pseudogenes. Approaches established to identify pseudogenes include PseudoPipe, HAVANA method, PseudoFinder, RetroFinder, GIS-PET method and consensus method. This paper discuss pseudogenes with respect to the formation mechanisms, distribution, and problems for PCR, importance and identification of pseudogenes. Furthermore, potential resurrection of pseudogenes and their potential function are discussed.


شاهد الفيديو: From DNA to protein - 3D (أغسطس 2022).