معلومة

كيفية المعالجة المسبقة لحسابات htseq للتعبير الجيني (TCGA)

كيفية المعالجة المسبقة لحسابات htseq للتعبير الجيني (TCGA)


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

أريد إعداد مصفوفة من التعبير الجيني لتحليل بيانات TCGA LAML.

البيانات المطلوبة متاحة في TCGA LAML - تقدير التعبير الجيني.

فيما يلي مثال على نوع البيانات المسترجعة من بوابة بيانات TCGA:

ENSG00000000003.13 9 ENSG00000000005.5 1 ENSG00000000419.11 661 ENSG00000000457.12 1434 ENSG00000000460.15 1211 ENSG00000000938.11 405 ENSG00000000971.14 251 ENSG00000001036.12 786 ENSG00000001084.9 4423 ENSG0001167.13. 15 1932 ENSG00000001561.6 1693 ENSG00000001617.10 55 ENSG00000001626.13 8 ENSG00000001629.8 4629

يعرض كل صف ، لكل جين ، تقدير عدد مرات القراءة بواسطة أداة htseq.

سؤالي هو ، كيف يجب أن أعالج البيانات (على سبيل المثال فيما يتعلق بطول الجين) قبل استخدام البيانات للتحليل اللاحق؟

في هذه الحالة ، لن أفكر في التطبيع (مثل اللوس) وإزالة التأثيرات المجمعة (على سبيل المثال مع القتال).


كيفية استخدام TCGAbiolinks لتنزيل تعداد جينات RSEM الخام لنوع معين من السرطان (مجموعة بيانات COAD RNA-Seq) # 59

بعد مناقشتنا ، أبدأ أيضًا منشورًا هنا للحصول على اقتراحات وملاحظات كاملة !! باختصار ، بناءً على مشروعي الحالي الخاص بسرطان القولون والمستقيم ، أود تنزيل مجموعة بيانات COAD RNA-Seq / أو مجموعة بيانات READ ، من أجل إجراء بعض التعبير الجيني التفاضلي (في حالة توفر أي عينات عادية أيضًا) وبعض مقارنات في حالة وجود أي أنواع فرعية جزيئية أيضًا. إذن ، أسئلتي المحددة هي التالية:

ومع ذلك ، في القسم أعلاه ، حيث أن مجموعة البيانات تحمل التسمية "ميراث" (موجود أيضًا في البرنامج التعليمي كمعلومات) ، يجب أيضًا تضمين الحجة file.type = "النتائج" ?

أو أن تطبيقي أعلاه خاطئ؟

ثانيًا ، يغير إرث الحجة أيضًا نتائج محاذاة الجينوم المرجعي؟ على سبيل المثال ، إذا لم أستخدم مجموعة بيانات القراءة ، فإن الوسيطة lecagy = TRUE؟ وسيكون أكثر ملاءمة بشكل أساسي لاستخدام محاذاة النهج ضد hg38؟

علاوة على ذلك ، إذا كنت أرغب في رؤية نوع العينة للبيانات التي تم تنزيلها إذا كانت هناك أي عينات عادية ، باستثناء الأورام ، فيجب علي استخدام:

  1. أخيرًا ، من الأفضل استخدام / تثبيت أحدث إصدار من جيثب ، من أجل تنفيذ أحدث الإمكانات؟

يرجى المعذرة عن أي أسئلة ساذجة (لقد قرأت أيضًا الورقة والمقالة القصيرة) ، لكني أود أن أكون متأكدًا من أي نهج لاستخدام البيانات بشكل مناسب !!

تم تحديث النص بنجاح ، ولكن تمت مواجهة هذه الأخطاء:

لا يمكننا تحويل المهمة إلى مشكلة في الوقت الحالي. حاول مرة اخرى.

تم إنشاء المشكلة بنجاح ولكن لا يمكننا تحديث التعليق في الوقت الحالي.


مقدمة

الساركوما هي أورام خبيثة غير متجانسة ونادرة تنشأ من أنسجة مختلفة. الخصائص البيولوجية للساركوما غير مفهومة جيدًا بسبب عدم التجانس العالي وعدم شيوع هذا المرض. الساركوما العضلية الملساء (LMS) ، والتي نشأت من خلايا العضلات الملساء ، تمثل 14٪ من الأورام اللحمية وهي أكثر أنواع ساركوما الأنسجة الرخوة شيوعًا 1. يقسم تحليل ميكروأري LMSs إلى ثلاثة أنواع فرعية. النوع الفرعي الأول يعبر عن الجينات المرتبطة بالعضلات ، والنوع الفرعي الثاني لا يظهر تمايزًا كبيرًا عن العضلات الملساء ، والنوع الفرعي الثالث يظهر مواقع تشريحية محددة وينشأ من الرحم 2. في السنوات الأخيرة ، تم زيادة الجهود لشرح عدم التجانس الجزيئي لـ LMS. تولد تقنيات الإنتاجية العالية فرصًا لإنشاء رؤية جديدة في جوانب مختلفة من الأنظمة البيولوجية. قد تعوض هذه الفرصة عن العدد النادر من التجارب السريرية في إيجاد علاجات LMS جديدة في المستقبل.

هناك بعض الدراسات حول تحليل التعبير الجيني لـ LMS 3،4،5. تم التعبير عن بعض الجينات المكتشفة بشكل تفاضلي في LMS مقارنة بالأنسجة السليمة 3. علاوة على ذلك ، تم تأكيد التعبير العالي عن ناهض موت الخلايا المرتبط بـ BCL2 (BAD) ، وجين الأورام الأولي SRC ، وغير المستقبلات التيروزين كيناز (SRC) ، وعامل استجابة المصل (SRF) ، و myocardin (MYOCD) في LMS مقارنة مع غيرها. أنواع فرعية من الأورام اللحمية 6. تم الإبلاغ أيضًا عن فقدان شظايا في الكروموسومات 1 و 4 و 16 و 18 في تهجين الجينوم المقارن في LMS 7،8. على الرغم من العديد من الجهود المميزة لإيجاد خيارات العلاج من خلال تحديد مستويات التعبير الجيني في LMS ، لا تزال الجراحة هي العلاج الرئيسي. العلاجات المنهجية المتاحة حاليًا ليست فعالة دائمًا في هذا السرطان. علاوة على ذلك ، لا يوجد علاج موجه ، ويبدو أن مناهج الطب الشخصي بعيدة في إدارة LMS. يتفاقم هذا الوضع في LMS النقيلي. في السرطانات الأخرى ، يساعد تقدير تشخيص المرضى على اتخاذ قرار بشأن العلاج المناسب 9،10. لكن الدراسات التي تشير إلى تأثير التعبير الجيني في بقاء المرضى الذين يعانون من LMS نادرة 11.

استخدمت معظم التحقيقات حول التعبير الجيني LMS الجينات المعبر عنها التفاضلية (DEGs). على الرغم من أن DEGs تستخرج معلومات حيوية من البيانات عالية الإنتاجية ، إلا أن لها بعض القيود. في الواقع ، في تحليلات DEG ، يتم تحديد الجينات الفردية ، لذلك يتم تجاهل التفاعلات بين الجينات. بمعنى آخر ، تفشل DEGs في التعرف على تعبير وتنظيم آلاف الجينات في وقت واحد. يتم تنظيم التعبير الجيني بدرجة عالية ، ويشكل نمطًا من شبكات التعبير المشترك في الخلايا 12. من المفترض أن تكون السرطنة في معظم الأحيان ليست نتيجة لتحرير العديد من الجينات. إنه نتيجة لآليات معقدة ، مثل الترابط الدقيق بين الجينات في الشبكات التنظيمية 13. يعد تعلم مثل هذه الأنماط أمرًا بالغ الأهمية في الدراسات المرتبطة بالسرطان والتي لا يمكن الحصول عليها باستخدام DEGs البسيطة. على حد علمنا ، لم يركز أي بحث على الساركوما العضلية الملساء غير الرحمية (NULMS) بناءً على شبكات التفاعل الجيني في السنوات الأخيرة. ومع ذلك ، تم نشر دراسة بحثت في جميع أنواع أنظمة LMS معًا 14.

يعد تحليل التعبير المشترك للجين الموزون (WGCNA) إطارًا عامًا يوفر نهجًا لبيولوجيا النظام. من خلال تطبيق WGCNA ، تم التحقق من الخصائص التفصيلية على مستوى الشبكة الجينية 15. تم استخدام هذا الإطار بنجاح لدراسة السرطانات المختلفة والأمراض غير السرطانية 16،17 ، ويمكن أن يربط العثور على أنماط التعبير المشترك أيضًا الجينات الوظيفية غير المعروفة بالعمليات البيولوجية بسبب أساس الذنب بالارتباط (GBA) لـ WGCNA.

في هذه الورقة ، استخدم المؤلفون خوارزمية WGCNA كطريقة لبيولوجيا النظام لتحديد الجينات المعبر عنها بشكل مشترك والجينات المحورية التي تؤثر على بقاء NULMS. في النهاية ، تم فحص الوظيفة والمقصورة الخلوية والمسارات المتعلقة بانتكاس المرضى من خلال علم الجينات. هدفت الدراسة إلى تحسين فهم الجينات التنبؤية لـ NULMS من خلال بناء شبكة تعبير مشترك مع بيانات تسلسل الحمض النووي الريبي.


المواد والأساليب

مجموعات البيانات

تم اختيار العديد من مجموعات البيانات من قاعدة بيانات TCGA للتحقق من صحة كلتا الطريقتين (Weinstein et al. ، 2013).

تم تحديد مجموعات البيانات التي تحتوي على 30 عينة صحية فقط (يشار إليها بـ & # x0201cSolid Tissue Normal & # x0201d في قاعدة بيانات TCGA) أو أكثر. تم تنزيل جميع أعداد القراءة التي تنتجها HTSeq بالإضافة إلى البيانات السريرية باستخدام حزمة TCGABiolinks R / Bioconductor (Colaprico et al. ، 2015).

يتم تلخيص مجموعات البيانات المحددة في الجدول & # x200B Table1 1.

الجدول 1

مجموعات بيانات TCGA المستخدمة في هذه الدراسة.

اسمنوع السرطانن (أورام)ن (صحي)منتصف العمرالفئة العمرية
TCGA-BRCAسرطان الثدي الغازية1,09711359.0726-90
TCGA-LUADسرطان الغدة الرئوية5825966.8833-88
TCGA-UCECسرطان بطانة الرحم5593564.2431-90
TCGA-KIRCسرطان الخلايا الكلوية الصافية5357261.1626-90
TCGA-HNSCسرطان الخلايا الحرشفية في الرأس والرقبة5284461.1420-90
TCGA-THCAسرطان الغدة الدرقية5075846.9215-89
TCGA-LUSCسرطان الخلايا الحرشفية في الرئة5044968.6639-90
TCGA-PRADسرطان البروستاتا4985261.9942-78
TCGA-COADسرطان القولون الغدي4604168.8831-90
TCGA-STADغدية المعدة4433267.5630-90
TCGA-LIHCسرطان الكبد3775061.5316-88
TCGA-KIRPسرطان الخلايا الحليمية الكلوية2913262.0328-88

المنهجية

لكل مجموعة بيانات ، تم تطبيق المنهجية الموضحة في الشكل & # x200B الشكل 1 1:

تصميم الدراسة: رسم بياني يصف المنهجية.

يتم تطبيع جميع العينات باستخدام حزمة برامج DESeq2 ، باستخدام معلمات سير العمل الافتراضية والأوامر المناسبة للملفات التي تم إنشاؤها بواسطة htseq-count أداة (وهي وظائف R التالية: DESeqDataSetFromHTSeqCount ، EstimSizeFactors ، التهم مع ال تطبيع تعيين الحجة ل حقيقية) كما هو موضح في الدليل المرجعي لـ DESeq2 (Love et al. ، 2014).

يتم تقسيم العينات إلى مجموعة تدريب ومجموعة التحقق من الصحة. تحتوي مجموعة التدريب على جميع العينات الصحية لمجموعة البيانات الأصلية (ن) ونفس عدد عينات الورم كعينات صحية (ن). تحتوي مجموعة التحقق على عينات الورم المتبقية (ن & # x02013 ن).

يتم إجراء تحليل التعبير التفاضلي على مجموعة التدريب باستخدام حزمة برامج DESeq2 ، باستخدام المعلمات والخيارات الافتراضية. ترتيب الجينات بناءً على تعديلها ص- يتم الحصول على القيمة المتعلقة باختبار التعبير التفاضلي.

تم تصميم مصنف الغابات العشوائية على مجموعة التدريب مع حزمة ranger R ، باستخدام 100000 شجرة وقيمة لـ ممحاولة المعلمة 236 (تساوي الجذر التربيعي لإجمالي عدد الميزات Wright and Ziegler ، 2015). يتم الحصول على ترتيب للجينات بناءً على قيم أهمية التقليب (يتم حساب أهمية التقليب عن طريق التباديل العشوائي لقيم السمة محل الاهتمام وقياس الزيادة الناتجة في الخطأ).

يتم تطبيق طريقة EPS (انظر القسم Extreme Pseudo-Sampling) على مجموعة (مجموعات) التدريب لاستخراج ترتيب للجينات.

يترك الترددات اللاسلكية تشير إلى الترتيب الجيني العشوائي القائم على الغابات ، DE الترتيب الجيني القائم على التعبير التفاضلي و EPS الترتيب الجيني المتطرف القائم على العينات الزائفة. الترددات اللاسلكيةأنا يدل على أنا- الجين الثالث للترتيب الجيني للغابات العشوائية. بصورة مماثلة، DEأنا يدل على أنا- الجين من التعبير التفاضلي القائم على الترتيب الجيني و EPSأنا يدل على أنا- الجين الرابع في الترتيب الجيني القائم على EPS.

لكلا التصنيفين ، تم إنشاء 20 توقيعًا جينيًا ، بما في ذلك عدد متزايد من الجينات. يترك sigRFأنا للدلالة على أنا- التوقيع الجيني الثالث على أساس الترتيب العشوائي للغابات ، sigDEأنا للدلالة على أناتوقيع الجين -th بناءً على ترتيب التعبير التفاضلي و سيجبسأنا ال أناتوقيع الجين -th بناءً على تصنيف EPS. يتم تعريف التوقيعات رسميًا على النحو التالي:

& # x025e6 تم تصميم نموذج الخطر النسبي لـ Cox باستخدام جميع جينات التوقيع

& # x025e6 تم تقسيم عينات مجموعة التحقق إلى مجموعتين (بقاء أعلى وأقل) ، بناءً على متوسط ​​نموذج الخطر النسبي لكوكس.

& # x025e6 تم إجراء اختبار لوغاريتم رتبة لمقارنة بقاء المجموعتين على قيد الحياة.

لكل مجموعة بيانات ، تم حساب معاملات الارتباط بين قيم التعبير للجينات الأكثر تعبيرًا بنسبة 50٪ ، وتم إجراء تجميع هرمي للجينات الأكثر تعبيرًا بنسبة 50٪ ، لتقييم ما إذا كان تعدد الخطوط الخطية قد لعب دورًا في أداء الطريقة القائمة على التردد الراديوي ( تشير العلاقة الخطية المتعددة إلى وجود ميزات غير مستقلة مثل أن العلاقة بين كل من هذه الميزات ومخرجات النموذج تتأثر بالعلاقات بين الميزات غير المستقلة). تم أيضًا إجراء تجميع هرمي لجميع العينات ، مع 50 ٪ من الجينات المعبر عنها. تم إجراء تحليل الإثراء على قوائم الجينات من كلا الطريقتين.

تم حساب معامل الارتباط بين كل جين في المرتبة الأولى من كلتا القائمتين و 50٪ من الجينات الأكثر تعبيرًا لكل مجموعة بيانات.

على الصعيد العالمي ، تم حساب الارتباط بين البقاء الكلي على قيد الحياة في 5 سنوات لجميع أنواع السرطان ، وأداء الأساليب المقدمة.

لكل تصنيف جيني تم الحصول عليه لجميع مجموعات البيانات ، تم إجراء تحليل تخصيب مجموعة الجينات باستخدام إجماع أداة على الإنترنت (Kamburov et al. ، 2012).

أخذ العينات الزائفة المتطرفة

تجدر الإشارة إلى أنه في معظم مجموعات البيانات التي تم تناولها في هذه الدراسة ، توجد عينات من كلا الفئتين في مساحة عالية الأبعاد ومنسقة بإحكام معًا ، بحيث لا يمكن للمصنف الخطي فصلها على الإطلاق. يساهم العدد المنخفض للعينات العادية مقارنة بالمجموع الإجمالي للعينات أيضًا في فشل المصنفات الخطية التي تميل إلى تلقي التحيز من عدم التوازن في إحصائيات عضوية الفئة.

قررنا استخدام تقنية تقليل الأبعاد من أجل معالجة كل من لعنة الأبعاد والعثور على تمثيل تكمن فيه هذه العينات في فضاء فرعي يمكن فصله خطيًا.

أظهرت أجهزة التشفير التلقائي أنها قادرة على إنشاء مثل هذه التمثيلات الكامنة بشكل أفضل من نظيراتها الخطية مثل PCA (Tan et al. ، 2014 Danaee et al. ، 2017). ومع ذلك ، فإن مثل هذه التمثيلات لا تزودنا بمعرفة مفيدة وقابلة للتنفيذ حول الجينات بسبب وظائف التنشيط غير الخطية بشكل أساسي.

علاوة على ذلك ، فإن المبردات التلقائية العادية ليست إنتاجية ، على سبيل المثال ، في حين أنه من الممكن التوصل إلى تمثيلات كامنة مفيدة لأغراض التصنيف ، لا يمكن للمرء إنشاء عينات جديدة مماثلة للعينات الحقيقية عن طريق تعديل قيم التمثيل الكامنة بشكل طفيف وإدخال النتيجة في شبكة وحدة فك التشفير .

ومع ذلك ، يمكن لنوع جديد من المشفر التلقائي ، يسمى Variational Autoencoder ، أن ينجح في هذه المهمة (Kingma and Welling ، 2013). تختلف VAEs اختلافًا جوهريًا عن AEs الأخرى من حيث أنها نماذج توليدية:

كل نقطة x في الفضاء الحقيقي سيقترن بالتوزيع ص (ض | س). لغرض هذه المنهجية ، افترضنا أن هذا التوزيع طبيعي. الحصول على التمثيل الكامن ض1 من العينة x1، وبالتالي ، سيكون مساويًا لسحب عينة من التوزيع ن(& # x003bc1، & # x003c31)، أين & # x003bc1، & # x003c31 يتم تعلمها من بيانات التدريب.

يتكون التدريب VAE من 9 طبقات ، بها 30000 ، 15000 ، 10000 ، 2000 ، 500 ، 2000 ، 10000 ، 15000 ، 30000 مدروس ، على التوالي. تتطلب عملية التدريب لهذه الطبقات صقل ما يقرب من 5 مليارات معلمة. بالنظر إلى أن أداء عملية الضبط الدقيق هذه يزداد مع زيادة عدد العينات ، بالإضافة إلى مجموعة التدريب المستخرجة من مجموعة بيانات TCGA المدروسة ، يتم استخدام اختيار عشوائي للعينات من 11 مجموعة تدريب أخرى في عملية تدريب VAE.

بعد خطوة التدريب ، كل مجموعة بيانات دج يتحول إلى تمثيله الكامن إلج. يسمح التمثيل الكامن المذكور بالفصل الخطي للعينات العادية عن العينات السرطانية بدقة تقارب 100٪ لكل من مجموعات بيانات الاختبار والتدريب. بالنظر إلى الفاصل الخطي ، دعنا نشير إلى أبعد المناطق المأهولة بالسكان على جانبي الفاصل ، والتي تسمى نج للجانب الطبيعي للفاصل الخطي و جج للجانب السرطاني. إذا أخذنا بعين الاعتبار نقطة ضن في إحدى هذه المناطق ، نعلم أنه تم استخلاصه عشوائيًا من التوزيع ن(& # x003bcن، & # x003c3ن).

أثناء الاختيار ضن هي عملية عشوائية ، مرة واحدة أ ضن تم استخلاصه من أي من التوزيعات وإعادة البناء & # x01e8bن & # x02248 xن من عند ضن هي عملية حتمية يقوم بها جهاز فك التشفير. ومع ذلك ، كل نقطة على مقربة من ضن يمكن استخلاصه من نفس التوزيع. نظرًا للسمات الحتمية لوحدة فك الترميز ، سينتهي الأمر بكل نقطة من هذه النقاط بإنشاء قيمة مختلفة & # x01e8bن. على الرغم من اختلاف كل شيء ممكن & # x01e8bن يجب أن يشبه الأصل xن يجب أن تتبع عن كثب الخصائص الإحصائية العامة للجميع xفي مجموعة البيانات.

ثم قمنا برسم 400 نقطة عشوائية في المناطق نج و جج من الفضاء الكامن إلج، على جانبي الفاصل الخطي وتم إنشاء عينات جديدة & # x0201cvirtual & # x0201d أو & # x0201cpseudo & # x0201d لكل من الفئتين السرطانية والعادية ، وهي عملية نسميها Extreme Pseudo Sampling (EPS). تم اختيار مقدار النقاط العشوائية المسحوبة (400) باستخدام التحقق المتقاطع على بيانات التدريب. كان هذا هو أصغر عدد من العينات التي انتهى بها الأمر في عملية انحدار ناجحة.

بينما لا يمكن تقسيم العينات الحقيقية باستخدام فاصل خطي وتعاني من عدم التوازن في أعداد أعضاء الفصل ، فقد تمكنا من إنشاء عينات زائفة جديدة يمكن تقسيمها خطيًا في مساحة حقيقية بسبب ميزاتها السرطانية / العادية المبالغ فيها. هذه العينات هي أيضا ذات عدد متساو. تتيح السمة اللاحقة أن تكون خطوط الانحدار المقسمة أقل تحيزًا تجاه فئة معينة. وهكذا ، فإن خطوط الانحدار المذكورة تحافظ على نفس المسافة من كلا الفئتين.

أخيرًا ، نظرًا لأنه تم تطبيع جميع ميزات العينة في العملية ، يمكن ترجمة معاملات الوزن في صيغة الخط إلى عوامل مهمة لتصنيف العينات الزائفة المتطرفة. كلما كان المعامل أكبر ، زادت أهمية الميزة المرتبطة به في تحديد عضوية الفصل. وبالتالي ، نحن قادرون على استخلاص ترتيب الأهمية لجميع الجينات ، في كل مجموعة بيانات.

نصوص R و Python المستخدمة لإجراء التحليلات المذكورة أعلاه متاحة على الإنترنت: https://github.com/stephwen/ML_RNA-Seq & # x00026 https://github.com/roohy/Extreme-Pseudo-Sampler

مقاييس الأداء والاستقرار

كل من الطريقة العشوائية المستندة إلى مجموعة التفرعات وطريقة EPS غير حتمية وتستفيد بطبيعتها من أحجام العينات الكبيرة.

لتقييم استقرار تصنيفات الجينات الناتجة عن هاتين الطريقتين وتأثير أحجام العينات الأصغر ، استخدمنا الطريقتين التاليتين:

أولاً ، قمنا باختبار استقرار تصنيفات الجينات من خلال تنفيذ المنهجية الكاملة الموضحة في قسم منهجية ، في كل مجموعة بيانات TCGA ، 10 مرات. نظرًا للتركيز على الجينات الأعلى مرتبة ، حسبنا ، لكل مجموعة بيانات ، عدد الجينات المشتركة بين أفضل 20 جينًا عبر التكرارات العشر. قمنا أيضًا بحساب المتوسط ​​والانحراف المعياري لترتيب كل جين تم الإبلاغ عنه في التشغيل الأولي للمنهجية ، عبر هذه التكرارات العشرة ، لكل مجموعة بيانات.

ثانيًا ، قمنا بتنفيذ المنهجية الموضحة في قسم المنهجية ، باستخدام اختيار عشوائي فقط بنسبة 20 في المائة من جميع العينات (بحد أدنى 20 عينة صحية لأصغر مجموعات البيانات). ثم قمنا بمقارنة أداء طريقتين قائمتين على التعلم تحت الإشراف مع DESeq2 ، كما هو موضح في قسم المنهجية.

لمزيد من تقييم فائدة طرق التعلم الخاضعة للإشراف على طرق اختيار الجينات أحادية المتغير الحتمية ، استخرجنا ترتيبًا للجينات لكل مجموعة بيانات بناءً على حجم التغير المطلق لكل جين. تم تطبيق المنهجية التي تركز على البقاء الموصوفة في القسم "المنهجية" على ترتيب الجينات القائم على التغيير ، للحصول على 20 ص- القيم التي تم مقارنتها بعد ذلك بترتيب اللوغاريتمات ص- تم الحصول على القيم بالمنهجيات الثلاث الأخرى.


مناقشة

في هذه الدراسة ، قمنا بفحص الأهمية النذير لجينات السمة المميزة للسرطان 5. لتحليل البقاء على قيد الحياة ، استخدمنا قاعدة بيانات RNA-seq من TCGA التي تحتوي على 9720 مريضًا من 26 نوعًا من الأورام مع التعليقات التوضيحية السريرية. كان سرطان الخلايا الكلوية الصافية ، والورم الدبقي منخفض الدرجة ، والورم الميلانيني أعلى نسبة من جينات السمة المميزة للسرطان والتي ارتبطت بالبقاء على قيد الحياة. أظهر تحليل المجموعات الهرمية أن بعض جينات السمة المميزة للسرطان تتجمع معًا ، مثل تلك المتورطة في تنشيط الغزو ورم خبيث ، وعدم استقرار الجينوم ، والإشارات التكاثرية المستمرة وإلغاء تنظيم الطاقة الخلوية (استندت المسافة إلى النسبة المئوية للجينات المهمة لكل سمة مميزة في كل نوع ورم).

تم أيضًا تحديد توقيع بديل نصي لكل سمة مميزة وهذا يعتمد على متوسط ​​التعبير عن جينات السرطان المرتبطة بالسمة المميزة المحددة. تم فحص الأهمية النذير لهذه العوامل في أنواع مختلفة من السرطانات. من بين السمات المميزة الرئيسية الثمانية ، كانت تلك المرتبطة بتنشيط الجينات الورمية ، وعدم استقرار الجينوم ، والطاقة الخلوية ، والغزو والورم الخبيث ومقاومة موت الخلايا ، مهمة في خمسة أنواع على الأقل من الأورام.

من المهم أن نذكر أننا في هذا التحليل لم نقم ببساطة بوضع متوسط ​​الجينات التي يؤدي الإفراط في التعبير عنها إلى تفاقم الإنذار وتلك التي يؤدي فقدانها إلى تفاقم التشخيص. بدلاً من ذلك ، نستخدم مجموعة مختارة مسبقًا من الجينات المرتبطة بسمة سرطانية واحدة. لذلك ، ليس متوسط ​​الجينات ولكن التغيير النسبي يؤثر على التصنيف النهائي. ضمن سمة مميزة واحدة ، لا نتوقع وجود ارتباط سلبي أو إيجابي تام بين الجينات ، وسيكون متوسطها ممثلًا للنشاط العام للسمة المميزة.

هذا النهج مدعوم بملاحظة أن العديد من الجينات لها أنماط تعبير عكسية - ارتباط سلبي من حيث مستويات التعبير الجيني المطلق. على سبيل المثال ، بالنسبة لـ CDKN2A و CCND1 ، لوحظ هذا في دراسات متعددة 14،15،16،17. في حالة وجود ارتباط سلبي ، يجب أن يتم الجمع بين تلك الجينات بالضبط حيث يرتبط التعبير الأعلى لأحدها بتكهن أسوأ والتعبير المنخفض عن الآخر يؤدي أيضًا إلى سوء التشخيص. من خلال الجمع بين هذه في توقيع واحد ، ستزداد القوة الإجمالية لاكتشاف التأثير المشترك. نظرًا للعدد الكبير من الجينات المتضمنة في كل سمة مميزة من سمات السرطان ، نعتقد أن التوقيع المشترك قوي بشكل مرض. وتجدر الإشارة إلى أن هذه المشكلة معقدة بسبب حقيقة أن الجينات المختلفة لها ارتباط مختلف بالبقاء على قيد الحياة في أنواع الورم المختلفة. على سبيل المثال ، زاد كل من CDKN2A و CCND1 من التعبير في الخلايا الليفية الشائخة 18.

تلعب الجينات المسرطنة دورًا رئيسيًا في التحكم في تكاثر الخلايا والتمايز والبقاء على قيد الحياة أثناء تكون الأورام. كان c-MYC أول جينات أورام مميزة يتم تنشيطها عن طريق إزفاء الكروموسوم في أورام بوركيت اللمفاوية 19 البشرية. يزداد التعبير عن جين c-MYC المتغير في الخلايا السرطانية ويرتبط بتكاثر الخلايا على نطاق واسع ويساهم في تطور الورم. لا تزال العلاقة بين تعبير c-MYC وبقاء المريض مثيرة للجدل 19 ، وقد لاحظنا تشخيصًا أسوأ في المرضى الذين لديهم تعبير أعلى عن c-MYC. ظهرت نتائج مماثلة في حالة جين ERBB2 ، الذي يشفر مستقبلات بروتين التيروزين كيناز على سطح الخلية المرتبط بتطور سرطان الثدي 20 والتعبير الأعلى للجينات في مسار Wnt-β-catenin. تم تحور هذا المسار في أكثر من 85٪ من سرطانات القولون والمستقيم 21. β-catenin (CTNNB1) هو الجين الأكثر تحورًا ، ويمكن اكتشافه في أكثر من 80٪ من أورام القولون والمستقيم. بالإضافة إلى ذلك ، يرتبط التعبير العالي لـ CTNNB1 ببقاء أقصر في سرطان القولون والمستقيم 21. أخيرًا ، يرتبط الإفراط في التعبير عن cyclin D1 (CCND1) ، وهو عضو في عائلة cyclin ، بضعف البقاء على قيد الحياة في سرطان الخلايا الحرشفية المريئي 22.

يعد عدم الاستقرار الكروموسومي (CIN) وعدم استقرار الأقمار الصناعية الصغيرة (MSI) النوعين الرئيسيين من عدم الاستقرار الجيني في السرطانات البشرية 4. يكون التعبير عن الجينات المرتبطة بعدم الاستقرار الجيني أعلى في العينات النقيلية منه في الأورام الأولية 23. في سرطان الثدي ، هابرمان وآخرون. أجرى تنميط التعبير الجيني حيث فحصوا العلاقة بين التعبير الجيني وعدم استقرار الجينوم والنتائج السريرية 24 وحددوا توقيعًا محددًا لاختلال الصيغة الصبغية 12 جينًا والذي يعد مؤشراً مستقلاً للنتائج السريرية. في تحليلنا ، كان التوقيع النسخي المكون من 150 جينًا يساهم في عدم استقرار الجينوم 5 تنبؤيًا في ثمانية أورام. من بين هؤلاء ، ارتبط تعبير التوقيع العالي بضعف البقاء على قيد الحياة في الورم الدبقي منخفض الدرجة وسرطان الكبد وسرطان الكلى الحليمي وسرطان الغدة الرئوية والساركوما. في سرطان عنق الرحم وسرطان الخلايا الكلوية الصافية وورم التوتة ، ارتبط التعبير العالي للتوقيع المميز بنتيجة إيجابية.

ينطوي استقلاب الطاقة المتغير على زيادة معدل تحلل السكر ومحدودية الفسفرة المؤكسدة. تتيح ميزات تكاثر الخلايا السرطانية الاحتفاظ بالجزيئات الكبيرة ، مما يساعد على دفع نمو الخلايا التأسيسية وتكاثرها 4. من بين الجينات العديدة المرتبطة بالمسار الأيضي ، يرتبط التعبير العالي عن GLUT1 و G6PD و TKTL1 و PGI / AMF بشكل كبير مع انخفاض معدل البقاء على قيد الحياة في سرطان الثدي. يتم تنظيم جين FAS في مرحلة مبكرة في العديد من السرطانات ، بما في ذلك سرطان الثدي 26 والمعدة 27 وسرطان البروستات 28 ويرتبط تعبيره بشكل إيجابي بضعف البقاء على قيد الحياة. تظهر نتائجنا أن التعبير العالي عن التوقيع النسخي للجينات المرتبطة بعملية التمثيل الغذائي للسرطان يرتبط بانخفاض معدل البقاء على قيد الحياة في ابيضاض الدم النخاعي الحاد وسرطان الرأس والرقبة وسرطان الثدي وسرطان الرئة وسرطان الجلد. ومع ذلك ، في سرطان الخلايا الكلوية الصافية وسرطان الكلى الحليمي والورم الدبقي منخفض الدرجة ، ارتبط التعبير العالي للتوقيع بنتيجة أفضل.

الانتقال الظهاري واللحمة المتوسطة (EMT) هو عملية متعددة الخطوات تساهم في قدرة الخلايا المهاجرة والجائرة ، والتي تعد ضرورية لتطور ورم خبيث للسرطان 4. في العديد من أنواع السرطان ، بما في ذلك سرطانات الثدي والرأس والرقبة ، تم الإبلاغ عن عدم انتظام مسارات النمو EMT مثل Notch ، وغالبًا ما يرتبط تنشيط هذه المسارات بضعف البقاء على قيد الحياة. يؤدي قمع EMT إلى زيادة تكاثر الخلايا مع زيادة التعبير عن ناقلات النيوكليوزيد في أورام البنكرياس. تؤدي هذه التغييرات إلى زيادة الحساسية للعلاج بالجيمسيتابين وزيادة البقاء على قيد الحياة بشكل عام في الفئران 30. يتم دعم أهمية EMT من خلال ملاحظتنا أن التوقيع النسخي لغزو الورم والجينات المرتبطة بتنشيط ورم خبيث 5 كان لها أهمية تنبؤية في أكبر عدد من الأورام. من بين الأورام ، ارتبط التعبير العالي للتوقيع بضعف نتيجة البقاء على قيد الحياة في الورم الدبقي منخفض الدرجة وسرطان الكبد وسرطان الدم النخاعي الحاد وسرطان عنق الرحم وسرطان الرأس والرقبة وسرطان البنكرياس وسرطان المثانة وسرطان الرئة.

تعد مقاومة الخلايا السرطانية لموت الخلايا المبرمج جانبًا أساسيًا من جوانب تطور السرطان ، والذي يتضمن زيادة تنظيم البروتينات المضادة للخلايا وتقليل تنظيم البروتينات الاستباقية 31. عدد دراسات توقيع التعبير الجيني للجينات الأبوطوزية محدود ، وتعكس الدراسات بشكل أكثر شيوعًا على جينات موت الخلايا المبرمج الفردية. هولمان وآخرون. أجرى دراسة التعبير الجيني ميكروأري حيث فحصوا نمط التعبير عن 70 جينًا رئيسيًا في سرطان الدم الليمفاوي الحاد (ALL) وخلصوا إلى أن الأنواع الفرعية لسرطان الدم لها نمط تعبير فريد عن جينات موت الخلايا المبرمج وأن الجينات المحددة مرتبطة بمقاومة الأدوية الخلوية والتشخيص في سلالة ب الطفولة الكل 32. فحصت دراسة أخرى 40 جينًا متورطًا في المسارات الخارجية والداخلية في خلايا الورم النقوي ، وتم ربط هذه الجينات بسوء التشخيص وتم الإفراط في التعبير عنها في الخلايا البلازمية الطبيعية 33. في دراستنا ، تم ربط توقيع مقاومة موت الخلايا بناءً على مجموعة من 119 جينًا 34،35 بضعف البقاء على قيد الحياة في سرطانات الكبد والبنكرياس والبقاء الجيد في سرطان الجلد وسرطان الخلايا الكلوية الصافية وسرطان الثدي وسرطان الغدة الدرقية.

باختصار ، تم استخدام بيانات النسخ المستندة إلى RNA-seq لإجراء تحليل البقاء على قيد الحياة عبر 26 نوعًا مختلفًا من السرطان. اللافت للنظر أن التواقيع التي تم إنشاؤها من جينات السمة المميزة للسرطان أظهرت ارتباطات خاصة بنوع الورم مع البقاء على قيد الحياة. كما تم الكشف عن جينات مميزة للسرطان تظهر أهمية إنذارية في أكثر من 10 أنواع من السرطان. تساعد هذه النتائج في تحديد أولويات استهداف السمة المميزة الأكثر صلة بتطوير الأدوية في كل نوع من أنواع الأورام.


يتم تنفيذ FPKM في GDC على أعداد القراءة على مستوى الجينات التي يتم إنتاجها بواسطة HTSeq 1 ويتم إنشاؤها باستخدام البرامج النصية المخصصة 2. الصيغة المستخدمة لإنشاء قيم FPKM هي كما يلي:

  • RMز: عدد القراءات المعينة للجين
  • RMر: العدد الإجمالي للقراءة المعينة لتسلسل ترميز البروتين في المحاذاة
  • L: طول الجين في أزواج القاعدة

يضاف العددية (9 10) لتطبيع البيانات إلى "كيلو قاعدة "و"مليون يقرأ المعين ".

مثل ملفات HTSeq - count ، تتوفر ملفات FPKM كملفات محددة بعلامات جدولة مع معرفات الجينات Ensembl في العمود الأول وقيم التعبير في العمود الثاني. انظر HTSeq-FPKM-UQ للحصول على طريقة بديلة لتطبيع مستوى التعبير الجيني.


هل يُوصى بإعادة تطبيع بيانات RNAseq لتحليل مجموعات فرعية من الجينات؟

لقد قمت بتنزيل مجموعة بيانات RNAseq من قاعدة بيانات TCGA في 3 تنسيقات: 1) عدد HTSeq 2) FPKM 3) FPQM - الربع العلوي المقيس.

تحتوي مجموعة البيانات الكاملة على

60 ألف جين. سيركز كل تحليلي على مجموعة فرعية من

ما أربكني هو العبارة التالية في صفحة وثائق TCGA: "يتم تسوية أعداد قراءة مستوى تعبير RNA-Seq التي تنتجها HT-Seq باستخدام طريقتين متشابهتين: FPKM و FPKM-UQ. يجب استخدام القيم المقيسة فقط في سياق مجموعة الجينات بأكملها. يتم تشجيع المستخدمين على تطبيع قيم عدد القراءة الأولية إذا تم فحص مجموعة فرعية من الجينات. "

إذا قمت بتطبيع 2500 عدد الجينات بمعزل عن الباقي ، فأنا أعتقد أن عامل التطبيع سيكون أكثر استقرارًا بين العينات من استخدام مجموعة الجينات الكاملة. هذا يعني أنه إذا كان لدى أحد المرضى تعبير أعلى للمجموعة الفرعية عن الآخر ، فإن التطبيع داخل المجموعة الفرعية سيحجب هذا الاختلاف.

ومع ذلك ، فإن عامل التطبيع (إما إجمالي القراءات المعينة أو الربع العلوي) يصبح أكثر استقرارًا كلما زاد عدد الجينات المعتبرة. سيظهر تباين أقل على نطاق عالمي بسبب الاختلافات البيولوجية ، في حين سيتم تطبيع الاختلافات الفنية.

باختصار ، هل تقوم بتطبيع عدد الجينات de novo إذا قمت بتحليل مجموعة فرعية فقط من الجينات؟ لماذا ا؟


ملاحظة الناشر تظل Springer Nature محايدة فيما يتعلق بالمطالبات القضائية في الخرائط المنشورة والانتماءات المؤسسية.

البيانات الموسعة الشكل 1 التوصيف المظهري والوظيفي لـ 10 مزارع سرطان الجلد.

أ، تم مضاعفة تسعة خطوط MM مشتقة من المريض وخط الخلية A375 في ممر واحد من الكروم 10x ، متبوعًا بإزالة تعدد الإرسال الحسابي باستخدام SNPs. ب، المخططات الدائرية التي تمثل جزء الخلايا داخل كل مرحلة من مراحل دورة الخلية ، وتظهر لكل ثقافة سرطان الجلد الأساسية. ج، يعرض t-SNE تجمعات الخلايا وفقًا لأصل خط الخلية (يسار). تحتوي كل ثقافة على مجموعة سكانية فرعية من الخلايا ذات نشاط دورة الخلية العالية ، كما هو موضح في مخطط t-SNE الملون وفقًا لنشاط التوقيع الجيني لنقطة تفتيش G2M (وسط هولمارك). t-SNE ملون حسب TFAP2A و TFAP2B يظهر التعبير أن جميع خطوط MM تعبر عن TFAP2A بينما يعبر خط الخلية A375 TFAP2B (حق). د، تُظهر الخريطة الحرارية نشاط توقيعات الجينات (الصفوف) في كل خلية (أعمدة) ، مقاسة بواسطة AUCell. يوضح التجميع الهرمي غير الخاضع للإشراف أن مجموعتين تتشكلان على أساس النشاط المتناقض للتوقيعات الصباغية والمتعلقة بالتصبغ مقابل التواقيع الشبيهة باللحمة المتوسطة (غير المتمايزة ، الشبيهة بالقمة العصبية ، الشبيهة بالمناعة) والتوقيعات المرتبطة بالمقاومة. ن = 4،322.

البيانات الموسعة الشكل. 2 تحليل الارتباط للخلية المفردة والترحيل بالجملة.

أ، مخططات مبعثرة لخلية واحدة (ثلاثة متغيرات على المحور س) وبيانات ترحيل مجمعة (المحور ص) تظهر ارتباطًا كبيرًا. يشير الخط المنقط إلى خط الانحدار الخطي المجهز. تعرض المنطقة المظللة 0.95 فاصل ثقة (ن = 9).

البيانات الموسعة الشكل 3 اللوائح المحددة باستدلال GRN.

أ، تم استخراج أفضل 20 regulons لكل ولاية وتم رسم قيم AUCell (Z-Score) في مخططات الصندوق. تنظيم HES6 لحالة الخلايا الصباغية NFATC2 و EGR3 و ETV4 و ELF1 و SOX6 للحالة المتوسطة و FOSL2 ، أنظمة JUN للحالة الشبيهة باللحمة المتوسطة لها قيم AUCell مميزة عبر الولايات المختلفة. تعرض مخططات الصندوق الوسيط كخط مركزي والربيعين العلوي والسفلي كحدود للمربع (n = 100 نقطة تمثل القواعد المصفاة). ب، مخططات مبعثرة لقيم AUCell المقابلة للقواعد القائمة على الحافز والمسار لكل خلية ومعامل ارتباط سبيرمان الناتج ، من أجل 21 من عوامل النسخ التي تمت ملاحظتها بشكل متكرر (ن = 4،322). ج، مخططات مبعثرة لقيم AUCell المقابلة للوائح المستندة إلى المسار والعزف لكل خلية ومعامل ارتباط سبيرمان الناتج لعوامل النسخ المتبقية (ن = 4،322). د، يتم عرض مخططات الكمان لنشاط منظم MITF القائم على الحافز والمسار لـ 10 ثقافات سرطان الجلد مما يدل على انخفاض تدريجي من الثقافات الشديدة الميلانينية إلى الثقافات الوسيطة. تعرض مخططات الكمان كثافة الخلايا كشكل وخلايا كنقاط (ن = 4،322).

بيانات موسعة الشكل .4 منظر لوني لزرعات الميلانوما.

أ، إشارة ATAC-seq الطبيعية في مناطق الخلايا الصباغية (ن = 6669) والمناطق الشبيهة باللحمة المتوسطة (ن = 13،453) كما تم تحديده مسبقًا 4 تُظهر إمكانية وصول أعلى للكروماتين في مناطق الخلايا الصباغية في الثقافات الصباغية والوسيطة وإمكانية الوصول إلى الكروماتين الأقل في المناطق الشبيهة باللحمة المتوسطة ، والعكس صحيح. ب، تُظهر إشارة ATAC-seq الطبيعية في المناطق المرتبطة بـ SOX10- و FOS- و JUND ، كما تم تحديدها سابقًا بواسطة ChIP-seq ، إمكانية الوصول إلى الكروماتين المتناقضة في المناطق المرتبطة بـ SOX10 بين الثقافات التي تشبه اللحمة المتوسطة والخلايا الصباغية ، وانخفاض إمكانية الوصول التدريجي في AP -1- المناطق المرتبطة (FOS و JUND) التي تنتقل من الثقافات الشبيهة باللحمة المتوسطة ، فوق المتوسطة إلى الخلايا الصباغية. ج، تطبيع إشارة ATAC-seq في IRF2 (أعلى اليسار)، FN1 (فوق على اليمين)، SOX9 (أسفل اليسار) و NFATC2 (أسفل اليمين) تظهر مواضع الجينات إمكانية وصول أعلى في الثقافات المتوسطة والشبيهة باللحمة المتوسطة مقارنة بالثقافات الصباغية المتطرفة.

البيانات الموسعة الشكل 5 حالات الميلانوما في مجموعة الخزعات scRNA-seq.

أ، تصور إجراء AUCell الثنائي الذي يُظهر t-SNE ملونًا مع درجة AUCell من Regulon (أعلى) ، الرسم البياني AUCell مع العتبة المشار إليها على أنها خط أحمر (وسط) و t-SNE ملون بعد AUCell binarization (أسفل). الخلايا الخبيثة محاطة في الجزء العلوي الأيسر من t-SNE. ب، تصور إجراء AUCell الثنائي الذي يُظهر t-SNE ملونًا مع أنظمة SOX11 و TFAP2B. تشير الأسهم الرمادية إلى المجموعات التي لها درجات عالية من AUCell لكلا النظامين. ج، تصور للترميز الثنائي AUCell لعتبة MITF أعلى (القواعد القائمة على الحافز والمسار). تتوافق الخلايا ذات النشاط التنظيمي الأعلى لـ MITF مع الخلايا التي لها نشاط HES6 Regulon عالي (انظر اللوحة أ).

البيانات الموسعة الشكل 6 تحليلات موسعة لخزعات الورم الميلانيني مجموعة scRNA-seq.

أ، يتم رسم مخططات مبعثرة لقيم AUCell للوائح المتوسطة ضد بعضها البعض في خزعات سرطان الجلد من Jerby-Arnon et al. (2018) 46. يشير الخط الأزرق إلى خط الانحدار الخطي المناسب. ب، المخططات الصندوقية لمعاملات ارتباط بيرسون بين الأنظمة الحقيقية ، مقارنةً بالنظم العشوائية ، للعينات في مجموعة الخزعة هذه. يشار إلى الارتباطات بين القواعد الحقيقية بنقطة حمراء. تعرض مخططات الصندوق الوسيط كخط مركزي والربيعين العلوي والسفلي كحدود للمربع ج، GSEA للخلايا الوسيطة مقارنة بالخلايا الخبيثة الأخرى في خزعات الورم الميلانيني. تم ترتيب الجينات وفقًا للسجل2- قيم تغيير الطيات المحولة بعد تحليل التعبير الجيني التفاضلي للخلايا ذات نشاط Regulon الوسيط المرتفع مقابل المنخفض (بناءً على أنظمة SOX6 و NFATC2 و EGR3 المرتبطة). يتم عرض اسم Geneset ودرجة الإثراء الطبيعية (NES) وقيمة p المعدلة FDR BH لكل مجموعة جينية. ن = 2،018.

البيانات الموسعة الشكل. 7 التوصيف المظهري والوظيفي للنسخة بعد KD لـ SOX10.

أ، الإعداد التجريبي لـ scRNA-seq بعد KD لـ SOX10. ب، لطخة غربية لـ SOX10 ، و GAPDH كعنصر تحكم ، بعد KD لـ SOX10 (نفس النقاط الزمنية) في نفس خطوط MM الثلاثة (MM074 و MM087 و MM057 WB تم إجراؤها مرة واحدة). ج، تُظهر المخططات الدائرية كسور الخلايا في مراحل دورة الخلية المختلفة لـ MM074 و MM087 و MM057 عند خط الأساس والتحكم في شروط KD مع نقاط زمنية مختلفة بعد KD لـ SOX10. د، المحاذاة المقارنة لمسارات الانتقال باستخدام طرق مختلفة. تمت محاذاة المسارات التي تنبأ بها DiffusionMap و Scorpius و Monocle-2 من خلال تطبيق التفاف الوقت الديناميكي ، باستخدام cellAlign ، وتظهر المحاذاة المثلى المتوقعة بخط أبيض. التوافق بين الطرق المختلفة مرتفع.

بيانات موسعة الشكل. 8 خلايا GRN للورم الميلانيني الديناميكي بعد KD لـ SOX10.

أصبح الورم الميلانيني GRN (الشكل 4) ملونًا الآن بالتعبير عن MM074 و MM087 و MM057 لنقاط زمنية مختلفة بعد KD لـ SOX10 (أرقام مجموع نقاط z وتسميات TF الموضحة في الشكل 4).

البيانات الموسعة الشكل 9 مسار الانتقال المتكرر عبر الثقافات الميلانينية.

أ، يُظهر التعبير الجيني المحرف والمقاس بعد KD لـ SOX10 لكل ثقافة على طول الوقت الزائف انهيارًا في النسخ. ب، خريطة حرارية مع نشاط التوقيعات الجينية (الصفوف) في كل خلية (أعمدة) ، تم قياسها بواسطة AUCell لجميع ثقافات سرطان الجلد بعد KD لـ SOX10 (لكل من تقنيات 10x و Drop-seq scRNA-seq) ، مما يشير إلى التقليل المتكرر للخلية برامج النسخ الدائرية والخلايا الصباغية ، وتنظيم الهجرة الخلوية ، و EMT ، ورم خبيث السرطان ، وتنشيط الخلايا المناعية ، وتكوين الأوعية ، ومجموعات الجينات الخاصة بسرطان الجلد مثل التوقيعات الشبيهة باللحمة المتوسطة ، واستجابة الورم الميلانيني TNF ، وتوقيع برنامج AXL والتوقيع المكتسب مقاومة تثبيط BRAF. توضح المقارنة بين طرائق 10x و Drop-seq scRNA-seq اتساق التغييرات النصية المرصودة. ج, د، المؤامرات الثلاثية للتعبير الجيني (ج) ونشاط التوقيع الجيني (د) بعد KD لـ SOX10 يشير إلى توافق نسبي عالي جدًا بين ثقافات الورم الميلانيني من مختلف العمليات السفلية والمنظمة ذات الصلة.

البيانات الموسعة الشكل. 10 استجابة نسخية بعد تثبيط CDK7 بواسطة THZ2.

أ، تُظهر الخريطة الحرارية لـ 104 من الجينات الـ 114 التي تم الإبلاغ عن تنظيمها بعد THZ1 أيضًا انخفاض التنظيم بعد THZ2 (مقارنةً بمعالجة DMSO ، لم تكن الجينات العشرة المتبقية في المصفوفة بعد التصفية). ب، تظهر مخططات الكمان تغييرات في نشاط أهداف CDK7 المباشرة لـ MM074 و MM087 و MM057. تعرض مخططات الكمان كثافة الخلايا كشكل (ن = 27163).


النتائج

COMMD7 التعبير في عموم السرطانات و AML

تم تنزيل بيانات RNA-seq من UCSC XENA (https://xenabrowser.net/datapages/) بتنسيقات TCGA و GTEx التي تمت معالجتها بشكل موحد من خلال عملية الكدح. بمقارنة التعبير عن COMMD7 العينات العادية في قاعدة بيانات TCGA و GTEX وعينات الورم المقابلة في قاعدة بيانات TCGA ، COMMD7 تم العثور على نسبة عالية بشكل ملحوظ معبراً عنها في 28 نوعًا من السرطان (الشكل 1 أ) ، بما في ذلك ابيضاض الدم النقوي الحاد (LAML) (الشكل 1 ب).

أعلى تعبير عن COMMD7 في ابيضاض الدم النقوي الحاد مقارنة بالعينات العادية. (أ) مستوى التعبير COMMD7 في العينات المزدوجة العادية وعينات السرطان. (ب) مستوى التعبير COMMD7 في العينات المزدوجة العادية وعينات AML. التحليل بين مجموعتين: اختبار مجموع تصنيف ويلكوكسون NS: ص 0.05 أو أعلى * ص & # x0003c 0.05 ** ص & # x0003c 0.01 *** ص & # x0003c 0.001.

تحديد DEGs في عينات AML مع التعبير المنخفض والعالي COMMD7

تم تحليل ملفات تعريف التعبير الجيني للمجموعات عالية ومنخفضة التعبير من أجل الاختلافات في متوسط ​​تعبير mRNA. تم تحديد ما مجموعه 529 DEGs من التعبير الجيني RNA-seq-HTSeq-Counts ، بما في ذلك 92 up-regulated و 437 down-regulated ، ذات دلالة إحصائية بين COMMD7 المجموعات عالية ومنخفضة التعبير (| تغيير أضعاف السجل (logFC) | & # x0003e 1.5 ، ص & # x0003c 0.05) (الشكل 2 أ). أعلى خمسة DEGs خاضعة للتنظيم وأعلى خمسة DEGs خاضعة للتنظيم بين COMMD7 تم توضيح المجموعات العالية والمنخفضة من خلال خريطة الحرارة (الشكل 2 ب).

تم تحديد ما مجموعه 529 DEGs باعتبارها ذات دلالة إحصائية بين COMMD7 مجموعات عالية التعبير ومنخفضة التعبير. (أ) مؤامرة بركان من الجينات المعبر عنها تفاضليًا ، بما في ذلك 92 جينًا منظمًا و 437 جينًا خاضعًا للتنظيم. تم عرض مستويات التعبير الطبيعي بترتيب تنازلي من الأخضر إلى الأحمر. (ب) خريطة حرارية لـ 10 من الحمض النووي الريبي المعبر عنه تفاضليًا ، بما في ذلك 5 جينات منظمة و 5 جينات خاضعة للتنظيم. يمثل المحور X العينات ، بينما يشير المحور Y إلى RNAs المعبر عنها تفاضليًا. تمثل النغمات الخضراء والحمراء الجينات ذات التنظيم المنخفض والمرتفعة التنظيم ، على التوالي.

تحليل الإثراء الوظيفي لـ DEGs

لفهم التضمين الوظيفي لـ 529 DEGs بين التعبير العالي والمنخفض لـ COMMD7 في تحليل التخصيب الوظيفي AML و GO و KEGG تم إجراؤه بواسطة حزمة clustProfiler (الجدول التكميلي 1 ، الشكل 3). تضمن الارتباط بالعملية البيولوجية (BP) عملية تحديد الأنماط ، والإقليم ، والمكونات الخلوية لتطوير اللحمة المتوسطة (CC) التي تضمنت مصفوفة خارج الخلية تحتوي على الكولاجين ، ومجمع قناة أيون ، ووظيفة جزيئية للغشاء القاعدي (MF) بما في ذلك نشاط مستقبلات الربط ، DNA- نشاط منشط النسخ الملزم / المكون الهيكلي للمصفوفة خارج الخلية الخاص بـ RNA polymerase II. تضمن KEGG مسار إشارات PI3K-Akt ، والتصاق بؤري ، و ECM- تفاعل المستقبلات.

تحليل إثراء GO / KEGG لـ DEGs بين المرتفع والمنخفض COMMD7 التعبير في مرضى TCGA-LAML. (أ) مصطلحات GO المخصّصة في & # x0201cbiological process & # x0201d فئة (ب) مصطلحات GO المخصّصة في فئة & # x0201cmolecular & # x0201d. (ج) مصطلحات GO المخصّصة في & # x0201ccellular component & # x0201d category (د) شروح مسار KEGG. يمثل المحور X نسبة DEGs ، ويمثل المحور Y فئات مختلفة. تشير الألوان المختلفة إلى خصائص مختلفة ، وتمثل الأحجام المختلفة عدد DEGs.

تم إجراء تحليل GSEA للحصول على مزيد من التبصر في المسارات البيولوجية المشاركة في AML مع مختلف COMMD7 مستويات التعبير. تم إجراء GSEA بين منخفض وعاليCOMMD7 مجموعات بيانات التعبير لتحديد مسارات الإشارات الحرجة المشاركة في مكافحة غسيل الأموال. اختلافات كبيرة (FDR & # x0003c 0.05 ، ADJ ص & # x0003c 0.05) في إثراء مجموعة MSigDB (C2.all.v7.0.symbols.gmt) لهذه المسارات (الجدول التكميلي 2 والشكل 4). الطفرات الجينية أو الاندماج مع تشخيص جيد لابيضاض الدم النقوي الحاد (AML) ، مثل PML-RARa انصهار، NPM1 طفره، AML-ETO الانصهار و CBFB-MYH11 الانصهار ، تم إثرائه في COMMD7 النمط الظاهري منخفض التعبير بناءً على NES ، مع تعديل ص value & # x0003c0.05 و FDR value & # x0003c0.05 (الشكل 4A & # x02013 4D). على العكس من ذلك ، في التعبير العالي عن COMMD7 الأنماط الظاهرية ، العوامل ذات التشخيص السيئ في AML ، مثل FLT3-ITD الانصهار و MLL الانصهار ، قدم المخصب بشكل كبير (الشكل 4I & # x02013 4J). وكذلك فعلت المسارات المشاركة في AML وتطور الأورام الأخرى ، مثل مسارات MAPK و RAS و Hedgehog و Wnt (الشكل 4E & # x02013 4H). تم إثراء المتغيرات الجينية الأخرى ، مثل أهداف TP53 الفسفورية وأهداف MYC بشكل كبير في هذا النمط الظاهري (الشكل 4K & # x02013 4L).

قطع التخصيب من تحليل تخصيب مجموعة الجينات (GSEA). (أ& # x02013إل) ES ، درجة تخصيب NES ، تطبيع ES ADJ ص-val ، معدل ص-القيمة.

تحليل التسلل المناعي في AML

أظهر تحليل ارتباط سبيرمان أن مستوى التعبير COMMD7 في البيئة المكروية لمكافحة غسل الأموال كان مرتبطًا بمستوى تسلل الخلايا المناعية الذي تم تحديده بواسطة SSGSEA. خاصة، COMMD7 كان مرتبطا إيجابيا مع NK CD56bright الخلايا والخلايا التغصنية النشطة (aDCs) (الشكل 5).

التعبير عن COMMD7 كان مرتبطًا بالتسلل المناعي في البيئة المكروية لابيضاض الدم النقوي الحاد. (أ) ، أظهرت قطع الأراضي الحرجية علاقة ارتباط موجبة بين COMMD7 و 13 خلية مناعية ، ووجود ارتباط سلبي بينهما COMMD7 و 11 مجموعة فرعية من الخلايا المناعية. أظهر حجم النقاط القيمة المطلقة لـ Spearman r. (ب) العلاقة بين درجة الإثراء النسبي لخلايا NK CD56 (الساطعة) ومستوى التعبير (TPM) لـ COMMD7. (ج) تسلل خلايا NK CD56 (الساطعة) بين منخفضة وعاليةCOMMD7 أعربت.

تحليل التخصيب PPI في AML

شبكة COMMD7 والجينات المحتملة المعبر عنها في COMMD7تم إنشاء DEGs ذات الصلة بواسطة STRING ، مع عتبة 0.4 (الجدول التكميلي 3). تم فحص ما مجموعه 529 DEGs (| تغيير أضعاف السجل (logFC) | & # x0003e1.5 ، ص & # x0003c 0.05). تم عرض شبكة PPI مع 238 عقدة و 367 حافة بواسطة Cytoscape-MCODE (الشكل 6 أ). احتوت الوحدة النمطية الأكثر أهمية مع درجة MCODE 7.317 على 42 عقدة و 150 حافة (الشكل 6 ب). في غضون ذلك ، تم استخدام Metascape-MCODE لتحديد مكونات شبكة PPI المتصلة بكثافة COMMD7، كما هو موضح في الشكل التكميلي 1. أفضل ثلاث مصطلحات GO حاصلة على الدرجات ص- تم عرض قيمة الوصف الوظيفي للمكونات المقابلة في الجدول التكميلي 4.

شبكة PPI الخاصة بـ COMMD7ذات الصلة DEGs وأهم وحدة. (أتم إنشاء شبكة PPI الخاصة بـ DEGs باستخدام Cytoscape. (ب) تم الحصول على أهم وحدة من شبكة PPI مع 42 عقدة و 150 حافة.

الرابطة بين COMMD7 التعبير والميزات السريرية والمخاطر الوراثية الخلوية

تم عرض الخصائص السريرية الرئيسية لـ AML في TCGA في الجدول 1. تم تحليل إجمالي 151 حالة (68 أنثى و 83 ذكر) في هذه الدراسة بمتوسط ​​عمر 56.7 سنة. بينهم، COMMD7 كان التعبير منخفضًا في 76 (50.3٪) من مرضى AML ومرتفعًا في 75 حالة (49.3٪) المتبقية. المتوسط COMMD7 التعبير (log2 (TPM + 1)) ، وهو 5.783 ، كان يعتبر بمثابة القيمة الفاصلة. اقترح تحليل الارتباط ذلك COMMD7 ارتبط التعبير بشكل كبير بالمخاطر الوراثية الخلوية وعدد خلايا الدم البيضاء (& # x000d710 9 / L) (ص & # x0003c 0.001). بالإضافة الى، COMMD7 كان التعبير مرتبطًا بشكل كبير بعوامل أخرى بما في ذلك نخاع العظام (BM) (ص = 0.007) ، انفجارات الدم المحيطي (٪) (ص = 0.005) ، تصنيف FAB (ص = 0.036), FLT3 طفره (ص = 0.004), IDH1 طفرة R132 (ص = 0.046) و NPM1 طفره (ص = 0.014).

الجدول 1

الشخصياتمستوىتعبير منخفض عن COMMD7تعبير عالي عن COMMD7صاختبار
ن 7675
مخاطر الوراثة الخلوية (٪)ملائم28 (36.8%)3 (4.1%)& # x0003c0.001
متوسط29 (38.2%)53 (72.6%)
مسكين19 (25.0%)17 (23.3%)
تصنيفات بنك أبوظبي الأول (٪)م 07 (9.2%)8 (10.8%)0.036بالضبط
م 113 (17.1%)22 (29.7%)
م 218 (23.7%)20 (27.0%)
م 312 (15.8%)3 (4.1%)
م 419 (25.0%)10 (13.5%)
م 56 (7.9%)9 (12.2%)
م 60 (0.0%)2 (2.7%)
م 71 (1.3%)0 (0.0%)
علم الوراثة الخلوية (٪)+86 (8.3%)2 (3.2%)& # x0003c0.001بالضبط
مركب12 (16.7%)12 (19.0%)
ديل (5)0 (0.0%)1 (1.6%)
ديل (7)4 (5.6%)2 (3.2%)
إنفست (16)8 (11.1%)0 (0.0%)
طبيعي27 (37.5%)42 (66.7%)
ر (1517)8 (11.1%)3 (4.8%)
ر (821)7 (9.7%)0 (0.0%)
ر (911)0 (0.0%)1 (1.6%)
جنس تذكير أو تأنيث (٪)أنثى37 (48.7%)31 (41.3%)0.457
ذكر39 (51.3%)44 (58.7%)
العنصر (٪)آسيا0 (0.0%)1 (1.4%)0.67بالضبط
أسود أو أمريكي من أصل أفريقي6 (8.0%)7 (9.5%)
أبيض69 (92.0%)66 (89.2%)
FLT3 طفره (٪)نفي14 (18.9%)31 (42.5%)0.004
إيجابي60 (81.1%)42 (57.5%)
IDH1R132 طفره (٪)نفي3 (4.0%)10 (13.5%)0.046بالضبط
إيجابي72 (96.0%)64 (86.5%)
IDH1R140 طفره (٪)نفي8 (10.5%)4 (5.5%)0.369بالضبط
إيجابي68 (89.5%)69 (94.5%)
IDH1R172 طفره (٪)نفي2 (2.6%)0 (0.0%)0.497بالضبط
إيجابي74 (97.4%)73 (100.0%)
RAS طفره (٪)نفي5 (6.6%)3 (4.1%)0.719بالضبط
إيجابي71 (93.4%)71 (95.9%)
NPM1 طفره (٪)نفي10 (13.2%)23 (31.1%)0.014
إيجابي66 (86.8%)51 (68.9%)
DNMT3A طفره (٪)نفي49 (89.1%)43 (79.6%)0.273
إيجابي6 (10.9%)11 (20.4%)
RUNX1 طفره (٪)نفي46 (83.6%)51 (94.4%)0.124بالضبط
إيجابي9 (16.4%)3 (5.6%)
العمر (الوسيط [IQR]) 55.50 [44.50,67.00]58.00 [40.50,66.00]0.816غير طبيعي
عدد كرات الدم البيضاء (X10 ^ 9 / L) (متوسط ​​[IQR]) 11.00 [3.00,32.50]35.00 [8.00,78.00]& # x0003c0.001غير طبيعي
انفجارات BM (٪) (متوسط ​​[IQR]) 29.00 [5.00,55.75]49.00 [14.00,71.50]0.007غير طبيعي
انفجارات PB (٪) (متوسط ​​[IQR]) 61.50 [41.75,79.50]77.00 [57.50,86.00]0.005غير طبيعي

تم تطبيق التحليل اللوجستي لمزيد من التحقق من العلاقة بين العوامل الإكلينيكية لسرطان الدم النخاعي المزمن و COMMD7 انقسام مرتفع ومنخفض. نتيجة عالية التعبير COMMD7 أظهر ارتباطًا إيجابيًا كبيرًا مع ارتفاع عدد كرات الدم البيضاء (& # x0003e20 & # x000d7 10 9 / L) (نسبة الأرجحية [OR] ، 3.16 ص & # x0003c 0.001) وانفجارات PB عالية (& # x0003e70٪) (OR ، 2.89 ص = 0.002) ، بينما يرتبط سلبًا بـ FLT3 طفرة (OR ، 0.32 ص = 0.002) و NPM1 طفرة (أو ، 0.34 ص = 0.01) (الجدول 2). علاوة على ذلك ، القيمة المحتملة لـ COMMD7 في التمييز بين مرضى AML والأفراد الأصحاء تم فحصه من خلال تحليل منحنى ROC ، مع AUC من 0.760 ، وكشف أن COMMD7 كان لها إمكانات كعلامة بيولوجية (الشكل 7 أ). الى جانب ذلك ، تم استخدام اختبار Wilcoxon Rank SUM لمقارنة التعبير عن COMMD7 في المرضى الذين يعانون من سمات إكلينيكية مختلفة. أظهرت النتيجة ذلك COMMD7 تم التعبير عنه بشكل كبير في المرضى الذين يعانون من انفجارات BM (& # x0003e20٪ ص = 0.014) ، عدد WBC (& # x0003e20 & # x000d7 10 9 / لتر ص = 0.002) ، تصنيف FAB (نوع غير M3 ص = 0.019) ، خطر الوراثة الخلوية (متوسط ​​/ ضعيف ص & # x0003c 0.001) ، NPM1 طفرة (سلبية ص = 0.005), FLT3 طفرة (سلبية ص = 0.004) و IDH1 R132 طفرة (سلبية ص = 0.019) (الشكل 7B & # x02013 7H).

الجدول 2

مميزاتنسبة الاحتمالات في COMMD7 التعبيرنسبة الأرجحية (أو)ص القيمة
عدد WBC (x10 ^ 9 / L) (& # x0003e20 مقابل & # x0003c = 20)1503.16 (1.64 & # x020136.24)& # x0003c0.001
انفجارات PB (٪) (& # x0003e70 مقابل & # x0003c = 70)1512.89 (1.50 & # x020135.66)0.002
انفجارات BM (٪) (& # x0003e20 مقابل & # x0003c = 20)1511.91 (0.99 & # x020133.74)0.055
مخاطر الوراثة الخلوية (ضعيف مقابل مفضل & # x00026 متوسط)1490.91 (0.43 & # x020131.93)0.807
FLT3 طفرة (إيجابية مقابل سلبية)1470.32 (0.15 & # x020130.65)0.002
IDH1 R132 طفرة (إيجابية مقابل سلبية)1490.27 (0.06 & # x020130.92)0.052
IDH1 R140 طفرة (إيجابية مقابل سلبية)1492.03 (0.61 & # x020137.89)0.266
RAS طفرة (إيجابية مقابل سلبية)1501.67 (0.39 & # x020138.37)0.495
NPM1 طفرة (إيجابية مقابل سلبية)1500.34 (0.14 & # x020130.75)0.01
DNMT3A طفرة (إيجابية مقابل سلبية)1092.09 (0.73 & # x020136.51)0.179
RUNX1 طفرة (إيجابية مقابل سلبية)1090.30 (0.06 & # x020131.08)0.085

الرابطة بين COMMD7 التعبير والميزات السريرية والمخاطر الوراثية الخلوية. (أ) الفعالية التشخيصية لـ COMMD7 في ابيضاض الدم النقوي الحاد الذي تم تحليله بواسطة ROC. (ب& # x02013ح) الارتباط بين COMMD7 التعبير والانفجارات BM (20٪) ، عدد WBC (20 & # x000d7 10 9) ، تصنيف FAB ، مخاطر الوراثة الخلوية ، طفرة NPM1 ، طفرة FLT3 ، وطفرة IDH1 R132 التي تم تحليلها باستخدام اختبار Wilcoxon Rank SUM.

عالي COMMD7 أثرت على تشخيص ابيضاض الدم النقوي الحاد (AML) في المرضى الذين يعانون من حالات إكلينيكية مختلفة

العلاقة بين COMMD7 تم تحليل التعبير والتشخيص في مرضى AML باستخدام Kaplan-Meier. كما رأينا في الشكل 8 أ ، المرضى الذين يعانون من ارتفاع التعبير COMMD7 كان التكهن أسوأ بكثير من أولئك الذين يعانون من انخفاض COMMD7 التعبير (نسبة الخطر [HR] ، 1.91 (1.25-2.93) ص = 0.003). قدم تحليل كابلان ماير هذا التعبير العالي COMMD7 يرتبط بسوء التشخيص في المجموعات الفرعية لانفجارات BM & # x02265 20٪ (ص = 0.024) ، انفجارات PB & # x02264 70٪ (ص = 0.007) ، العمر & # x0003e60 (ص = 0.009), FLT3 طفرة سلبية (ص = 0.009), IDH1 R132 طفرة إيجابية (ص = 0.001), R140 طفرة إيجابية (ص = 0.002), R172 طفرة إيجابية (ص = 0.001), NPM1 طفرة إيجابية (ص & # x0003c 0.001) ، RAS طفرة إيجابية (ص = 0.002), RUX1 طفرة سلبية (ص = 0.004) و DNMT3A طفرة سلبية (ص = 0.019) (الشكل 8B & # x02013 8L).

تعبير عالي عن COMMD7 كان مرتبطًا بضعف نظام التشغيل في مرضى AML. (أ) منحنيات كابلان ماير في جميع مرضى ابيضاض الدم النقوي الحاد (AML). (ب) منحنيات كابلان ماير في مرضى AML الذين يعانون من انفجارات BM & # x0003e 20٪. (ج) منحنيات كابلان ماير في مرضى AML المصابين بانفجارات PB & # x02264 70٪. (د) منحنيات كابلان ماير في مرضى AML مع تقدم العمر & # x02265 60. (ه& # x02013إل) منحنيات كابلان ماير في مجموعات فرعية ذات FLT3 طفرة سلبية ، IDH1 R132 طفرة إيجابية ، IDH1 R140 طفرة إيجابية ، R172 طفرة إيجابية ، طفرة إيجابية NPM1 ، طفرة RAS إيجابية ، طفرة RUX1 سلبية ، و DNMT3A طفرة سلبية في مرضى AML.

وبالمثل ، أوضحت مؤامرة الغابة القيمة التنبؤية لـ COMMD7 في مختلف أنواع AML الفرعية باستخدام الانحدار أحادي المتغير كوكس ، مع استنتاج يتوافق مع النتائج المذكورة أعلاه (الشكل 9).

أظهرت مؤامرة الغابة ذلك COMMD7 توقع سوء التشخيص في المجموعة الفرعية من عدد كرات الدم البيضاء (& # x0003e20 & # x000d7 10 9 / لتر) (HR = 2.062 ، ص = 0.030) ، انفجارات BM (& # x0003e20٪) (معدل ضربات القلب = 1.897 ، ص = 0.024) ، انفجارات PB (& # x0003e70٪) (معدل ضربات القلب = 2.435 ، ص = 0.007), FLT3 طفرة سلبية (HR = 3.330 ، ص = 0.009) ، و NPM1 طفرة إيجابية (HR = 2.345 ، ص & # x0003c 0.001).

فيما بعد ، تم استخدام انحدار المخاطر النسبية أحادي المتغير كوكس لتقييم العوامل التي تؤثر على نظام التشغيل ، والكشف عن ذلك COMMD7 (مرتفع- مقابل منخفض- ، ص = 0.003) كان عاملاً تنبئيًا لنظام التشغيل الأسوأ ، وكذلك خطر الوراثة الخلوية (ضعيف & # x00026 وسيط مقابل موات ، ص & # x0003c 0.001) والعمر (& # x0003e60 مقابل & # x0226460 ، ص & # x0003c 0.001) (الجدول 3). مخاطر الوراثة الخلوية والعمر و COMMD7 تم تضمينها بعد ذلك في انحدار كوكس متعدد المتغيرات ، مما يشير إلى أن العمر & # x0003e 60 (ص & # x0003c 0.001) والتعبير العالي عن COMMD7 (ص = 0.01) كانت عوامل تنبؤية مستقلة لنظام التشغيل الأسوأ (ص & # x0003c 0.05).

الجدول 3

مميزاتالموارد البشرية (95٪ CI)
تحليل أحادي أو عديد المتغير
ص القيمة
تحليل أحادي أو عديد المتغير
الموارد البشرية (95٪ CI)
تحليل متعدد المتغيرات
ص القيمة
تحليل متعدد المتغيرات
عدد WBC
(10 9 / لتر)
(& # x0003e20 مقابل & # x0003c = 20)
1.161
(0.760 & # x020131.772)
0.49
انفجارات PB (٪)
(& # x0003e70 مقابل & # x0003c = 70)
1.230
(0.806 & # x020131.878)
0.338
انفجارات BM (٪)
(& # x0003e20 مقابل & # x0003c = 20)
1.165
(0.758 & # x020131.790)
0.486
مخاطر الوراثة الخلوية
(مفضل مقابل ضعيف & # x00026 متوسط)
0.312
(0.160 & # x020130.606)
& # x0003c0.0010.535
(0.261 & # x020131.097)
0.088
جنس تذكير أو تأنيث
(ذكر مقابل أنثى)
1.030
(0.674 & # x020131.572)
0.892
سن
(& # x0003e60 مقابل & # x0003c = 60)
3.333
(2.164 & # x020135.134)
& # x0003c0.0013.374
(2.130 & # x020135.344)
& # x0003c0.001
العرق (الأبيض مقابل الآسيوي & # x00026Black
أو أمريكي من أصل أفريقي)
1.200
(0.485 & # x020132.966)
0.693
FLT3 طفره
(إيجابي مقابل سلبي)
0.787
(0.496 & # x020131.248)
0.309
IDH1 R132 طفره
(إيجابي مقابل سلبي)
1.702
(0.689 & # x020134.205)
0.249
IDH1 R140 طفره
(إيجابي مقابل سلبي)
0.884
(0.442 & # x020131.769)
0.727
IDH1 R172 طفره
(إيجابي مقابل سلبي)
1.641
(0.228 & # x0201311.804)
0.623
RAS طفره
(إيجابي مقابل سلبي)
1.555
(0.568 & # x020134.254)
0.39
NPM1 طفره
(إيجابي مقابل سلبي)
0.879
(0.546 & # x020131.416)
0.596
DNMT3A طفره
(إيجابي مقابل سلبي)
1.404
(0.731 & # x020132.696)
0.308
RUNX1 طفره
(إيجابي مقابل سلبي)
1.119
(0.553 & # x020132.267)
0.754
COMMD7
(مرتفع مقابل منخفض)
1.914
(1.251 & # x020132.927)
0.0031.850
(1.158 & # x020132.954)
0.01

نموذج النذير COMMD7 في AML

للتنبؤ بشكل أفضل بتوقعات مرضى AML ، تم إنشاء مخطط رسم بياني بناءً على نتائج تحليل الانحدار Cox باستخدام حزمة RMS R (الشكل 10 أ). ثلاثة متغيرات عامل تنبؤي مستقل ، العمر ، مخاطر الوراثة الخلوية ، و COMMD7 التعبير ، تم تضمينه في النموذج ، تم اختياره في نموذج التنبؤ عند مستوى دلالة إحصائية قدره 0.2. بناءً على تحليل Cox متعدد المتغيرات ، تم استخدام مقياس نقطي لتعيين نقاط لهذه المتغيرات. تم رسم الخط المستقيم لأعلى لتحديد نقاط المتغيرات ، وتم إعادة قياس مجموع النقاط المخصصة لكل متغير إلى نطاق 0 & # x02013100. تم تجميع نقاط كل متغير وتسجيلها كمجموع النقاط. تم تحديد احتمالية بقاء مريض AML على قيد الحياة في 1 و 3 و 5 سنوات عن طريق رسم خط من محور النقاط الإجمالي مباشرة إلى محور النتيجة. تم تحديد احتمالية البقاء على قيد الحياة لمدة عام واحد من خلال رسم خط عمودي لأسفل على محور النقطة الإجمالي على طول محور النهاية ذي 162 اتجاه ، مما يشير إلى احتمال البقاء على قيد الحياة لمدة عام واحد و # x0003c 20 ٪ ، كلا الاحتمالين 3 و 5 - العام & # x0003c 10٪. كانت نتائج التنبؤ لمنحنى معايرة nomogram لنظام التشغيل متسقة مع نتائج مراقبة جميع المرضى (الشكل 10 ب).

نموذج تنبؤي تنبؤي لـ COMMD7 في AML. (أ) مخطط للتنبؤ باحتمالية نظام تشغيل من 1 إلى 3 أو 5 سنوات لمكافحة غسل الأموال. (ب) مخطط معايرة الرسم البياني للتنبؤ باحتمالية نظام التشغيل في 1 و 3 و 5 سنوات.


تنسيق البيانات هو أحد المبادئ الأساسية التي تستند إليها GDC. عادةً ما يتم جمع البيانات الجينومية ومعالجتها وتحليلها على أساس مستوى المشروع من قبل العديد من المجموعات المختلفة. حتى أكثر المشاريع تشابهًا لا يمكن دائمًا مقارنتها بطريقة صحيحة نظرًا للاختلافات الصغيرة عبر خطوط أنابيب معالجة البيانات وتحليلها. تجمع GDC البيانات الأولية من العديد من مشاريع السرطان وتعالجها باستخدام خطوط الأنابيب الموحدة 1 والجينوم المرجعي GRCh38 2. يعطي هذا ميزة تحليل أنواع متعددة من السرطان أو نفس نوع السرطان عبر مشاريع متعددة.

يتم تنسيق بيانات GDC باستخدام خطوط أنابيب المعلوماتية الحيوية المنسقة بعناية وتنتج استدعاءًا جسديًا متغيرًا ، وتعبيرًا جينيًا ، وتقديرًا لتغير رقم النسخ ، وبيانات مثيلة. يتم أيضًا تنسيق البيانات السريرية وبيانات العينات الحيوية من خلال إتاحة مجموعة من العناصر المشتركة لجميع المشاريع للتنزيل من خلال واجهة برمجة التطبيقات. مع تقديم المشاريع الجديدة إلى GDC ، تتم مراجعة البيانات الواردة من قبل فريق من خبراء المعلومات الحيوية الذين يحددون كيفية المضي قدمًا في التنسيق بناءً على نوع البيانات وجودتها والموارد الحسابية المتاحة.


شاهد الفيديو: GenomeSpace Recipe Webinar - June 27, 2016 - Find Differentially Expressed Genes in RNA-Seq Data (يوليو 2022).


تعليقات:

  1. Taran

    أهنئ ، فكرتك ببساطة ممتازة

  2. Tagor

    أوافق ، هذه إجابة رائعة.

  3. Murisar

    غير جيد!



اكتب رسالة