معلومة

كيف تدمج بيانات SNP مع جينوم مرجعي؟

كيف تدمج بيانات SNP مع جينوم مرجعي؟


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

بياناتي

لدي ملف 23andMe يسرد SNPs في النموذج:

وضع الكروموسوم rsid النمط الجيني rsXXXXX 1 PPPPPP CT rsXXXXX 1 PPPPPP GG

الحقول مفصولة بعلامات تبويب وكل سطر يتوافق مع SNP واحد. لكل SNP ، يتم توفير أربعة مجالات من البيانات.

  1. معرّف (rsid أو معرف داخلي)
  2. موقعه على الجينوم المرجعي.
    • الكروموسوم الموجود عليه.
    • يقع الموضع داخل الكروموسوم على.
  3. دعوة النمط الجيني موجهة فيما يتعلق بحبلا زائد على التسلسل المرجعي البشري.

الجينوم المرجعي هو بناء التجمع البشري 37 (المعروف أيضًا باسم إصدار التعليقات التوضيحية 104).

سؤالي

كيف أقوم بدمج النيوكلوتايد في الجينوم المرجعي؟

على سبيل المثال ، خذ السطر الأول في ملف SNP الخاص بي:

rsXXXXX 1 PPPPPP CT

الجزء الأول

أستطيع أن أرى أنني بحاجة إلى استبدال النيوكليوتيد في الموضع PPPPPP على الصبغي 1 من الجينوم المرجعي بنوكليوتيد من حقل النمط الجيني ، ولكن ما هو النيوكليوتيد الذي من المفترض أن أستخدمه؟ C أو T؟ و لماذا؟

الجزء 2

من أين من المفترض أن أبدأ العد من الجينوم المرجعي؟ بالنظر إلى الكروموسوم 1 من بناء التجمع البشري 37 ، فإن الأحرف الأولى ~ 10000 حرف (باستثناء وصف السطر الأول) هين. هل أول N رقم 1؟ على سبيل المثال إذا كان PPPPPP هو 100000 ، فكنت سأستبدل الحرف رقم 100000 في الجينوم المرجعي بالنيوكليوتيدات الصحيحة من الجزء الأول من هذا السؤال؟ أم يجب أن أبدأ العد من أول حرف غير N في ملف Fasta؟


أولاً ، تحتاج إلى معرفة تسلسل الجينوم الذي يشير إليه ملف SNP. يجب أن يكونوا قد ذكروا التسلسل المرجعي الذي استخدموه.

كما ذكر آخرون حالةCTهو تغاير الزيجوت. إذا كنت ترغب فقط في تحديد التغييرات ، فتخلص من البقايا الموجودة بالفعل في الجينوم المرجعي واستخدم الأليل الآخر. ومع ذلك ، فأنت تريد تتبع النمط الفرداني ، ثم تأكد من أن مجموعة SNPs تأتي من نفس الكروماتيد. هذا صعب - ربما لا تزال قادرًا على معرفة تعدد الأشكال القريبة بما يكفي لتعيينها بقراءة واحدة ، لكن يكاد يكون من المستحيل بالنسبة إلى تعدد الأشكال المفصولة جيدًا بما فيه الكفاية.

كما قال إندري ، عليك أن تبدأ من أول نيوكليوتيد. ومع ذلك ، يبدو من المشكوك فيه أنك تحصل على $ (NNNN) _n $ في بداية الكروموسوم 1. لا تحتوي الكروموسومات المجمعة الكاملة على مثل هذه الامتدادات. فيما يلي الأسطر العشرة الأولى من ملف الكروموسوم 1 fasta. انظر بنفسك.

> gi | 568815364 | المرجع | NT_077402.3 | الانسان العاقل كروموسوم 1 سقالة الجينومية، الجمعية الابتدائية GRCh38 HSCHR1_CTG1 TAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAAC CCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCAACCCTAACCCTAACCCTAACCCTAACCCTAA CCCTAACCCCTAACCCTAACCCTAACCCTAACCCTAACCTAACCCTAACCCTAACCCTAACCCTAACCCT AACCCTAACCCTAACCCTAACCCCTAACCCTAACCCTAAACCCTAAACCCTAACCCTAACCCTAACCCTA ACCCTAACCCCAACCCCAACCCCAACCCCAACCCCAACCCCAACCCTAACCCCTAACCCTAACCCTAACC CTACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCCTAACCCCTAACCCTAACCCTAACCCTA ACCCTAACCCTAACCCTAACCCCTAACCCTAACCCTAACCCTAACCCTCGCGGTACCCTCAGCCGGCCCG CCCGCCCGGGTCTGACCTGAGGAGAACTGTGCTCCGCCTTCAGAGTACCACCGAAATCTGTGCAGAGGAC AACGCAGCTCCGCCCTCGCGGTGCTCTCCGGGTCTGTGCTGAGGAGAACGCAACTCCGCCGTTGCAAAGG

تعتبر كيفية استبدال $ N ^ {th} $فية مهمة مباشرة. لكن هذا سؤال برمجي وليس نطاق هذا المنتدى. بافتراض أنك قمت بحل مشكلة الجزء الأول وأن لديك علامة تبويب منفصلة مرتبة ملف مثل هذا:

بقايا موضع الكروموسوم 1 79989 G 1100232 T 3 341342 A

قد لا يكون هذا البرنامج النصي هو الأفضل ولكنه سيعمل في محطة linux / * nix / Cygwin ، لاستبدال المخلفات (تأكد من أن لديكإصدار gawk> = 4.0):

gawk -F " t" '(FNR == 1) {x ++} (x == 1) {a [$ 1] [$ 2] = $ 3 ؛ التالي} (x == 2) {if ($ 0 ~ /> / ) {h = $ 0؛ sub (/ ^.* chromosome /، ""، h)؛ sub (/. * /، ""، h)} else {seq [h] = seq [h] $ 0}} END { لـ (i in a) {s = 0 ؛ لـ (j in a [i]) {m = m substr (seq [i]، s، j-1) a [i] [j]؛ s = j + 1} m = m substr (seq [i]، س)؛ طباعة "> Chr" i " n" m}} 'SNP_file Genome.fa | أضعاف 60

علم الوراثة 101 ، لديك نسختان من الحمض النووي الخاص بك في كل موضع ، نسخة واحدة من والدتك ، ونسخة من والدك. لذلك بالنسبة إلى "CT" ، لديك نسخة واحدة بحرف C وأخرى بحرف T.

ونعم ، من الطبيعي أن تكون أول عدة آلاف أو ملايين من الأحرف ن. الجينوم متكرر ومقزز هناك ، لكنه يُحسب لأغراض الترقيم على أي حال.

بصراحة ، لن أفعل هذا بملف نصي ضخم للجينوم. ابحث فقط عن SNP الخاص بك في ensembl.org باستخدام رقم rs ، وستحصل على SNP وبعض التسلسلات المرافقة وبعض السياق. ابحث عنه في PubMed إذا كنت تريد معرفة ما إذا كان قد ظهر في أي منشور


الجزء 1:

وفقًا لـ Lior Pachter ، لا يتم تقسيم بيانات 23andme على مراحل. مما يعني أنه بالنسبة لكل إدخال في حقل التركيب الوراثي ، فأنت لا تعرف أي نسخة من الكروموسوم أتت منه. يحدث هذا لأن منصات ميكروأري الحديثة غير قادرة على معرفة أي من نسختين من الكروموسوم يأتي من snp.

يمكنك حل هذه المشكلة لمعظم snps عن طريق مقارنة الأليلات الخاصة بك بالجينوم المرجعي ، لكن هذا قد يستغرق بعض القطع البرمجية. يمكنك استخدام https://github.com/endrebak/qc_gwas كمثال ، والذي يفعل نفس الشيء ، ولكن لملفات plink.

الجزء 2:

أفترض أنك ترغب في القيام بذلك بشكل برمجي ، وليس عن طريق نسخ ولصق snps في الجينوم المرجعي.

الإجابة المختصرة هي أن أول N هو أول نوكليوتيد. لكن ، بدلاً من ذلك ، يجب عليك استخدام حزمة مثل Biopython لإجراء العد نيابة عنك ، فقد تكون أكثر تعقيدًا مما تعتقد (تحتاج إلى ضبط نهايات الأسطر في ملف fasta ، على سبيل المثال).


كيف تدمج بيانات SNP مع جينوم مرجعي؟ - مادة الاحياء

وصف موجز لجميع النصوص المستخدمة في Picard and Gehring، 2017 Genome Biology. جميع البرامج النصية التي كتبها Colette L Picard (cpicard AT mit DOT edu) ومرخصة بموجب ترخيص Apache ، الإصدار 2.0:

حقوق النشر 2017 Colette L Picard

مرخصًا بموجب ترخيص Apache ، الإصدار 2.0 ("الترخيص") لا يجوز لك استخدام هذا الملف إلا وفقًا للترخيص. يمكنك الحصول على نسخة من الترخيص على

ما لم يكن مطلوبًا بموجب القانون المعمول به أو تم الاتفاق عليه كتابيًا ، يتم توزيع البرامج الموزعة بموجب الترخيص على أساس "كما هي" ، دون أي ضمانات أو شروط من أي نوع ، سواء كانت صريحة أو ضمنية. راجع الترخيص لمعرفة الأذونات والقيود التي تحكم اللغة المحددة بموجب الترخيص.

يمكن توجيه أي أسئلة أو قضايا إلى CLP. تتطلب بعض البرامج النصية أدوات إضافية ليتم تثبيتها ، والتي سيتم الإشارة إليها حيثما أمكن ذلك.

لاحظ أنه يمكن استدعاء جميع البرامج النصية المذكورة هنا بدون وسيطات لمزيد من التفاصيل حول الخيارات والاستخدام. أي نصوص غير موصوفة هنا هي نصوص مساعدة مطلوبة بواسطة واحد أو أكثر من هذه البرامج النصية الأولية ، ولكن لم يتم وصفها بشكل منفصل.

الإصدار 1.3 ، نص بيثون ، يتطلب Python 2 ، تم اختباره على 2.7.6 - الحزم المطلوبة sys، os، argparse، re

يتطلب الإصدار 1.2 ، R script ، R ، تم اختباره على 3.3.2 - يتطلب حزمة optparse

الإصدار 1.0 ، نص بيثون ، يتطلب Python 2 ، تم اختباره على 2.7.6 - الحزم المطلوبة sys ، os ، argparse ، re ، matplotlib ، numpy ، scipy

الإصدار 1.7 ، bash script ، يتطلب Python 2 ، تم اختباره في 2.7.6 ، و R ، تم اختباره على 3.3.2 - البرامج النصية المساعدة المطلوبة (يجب أن تكون في نفس الدليل مثل هذا البرنامج النصي): - end_analysis_get_intervals.py - بواسطة Colette L Picard - end_analysis_process_intersect.py - بواسطة Colette L Picard - end_analysis_make_plot.R - بواسطة Colette L Picard - end_analysis_make_matrix.py - بواسطة Colette L Picard (مطلوب فقط في حالة استخدام خيارات -M أو -C) - مطلوب التثبيت على PATH المستخدم: - أدوات السرير (تم اختبارها على الإصدار 2.23.0)

v.1.0 ، bash script - البرامج النصية المساعدة المطلوبة (يجب أن تكون في نفس الدليل مثل هذا البرنامج النصي): - merge_by_column.R (بواسطة Colette Picard) - fishers_exact.R (بواسطة Colette Picard) - مطلوب مثبت على PATH المستخدم: - أدوات bedtools (تم اختبارها) في الإصدار 2.23.0)


الملخص

يعد نظام MUMmer ونظام محاذاة تسلسل الجينوم المتضمن فيه من بين حزم المحاذاة الأكثر استخدامًا في علم الجينوم. منذ الإصدار الرئيسي الأخير من MUMmer الإصدار 3 في عام 2004 ، تم تطبيقه على العديد من أنواع المشاكل بما في ذلك محاذاة تسلسل الجينوم الكامل ، ومحاذاة القراءات مع الجينوم المرجعي ، ومقارنة التجميعات المختلفة لنفس الجينوم. على الرغم من فائدتها الواسعة ، فإن MUMmer3 لديها قيود يمكن أن تجعل من الصعب استخدامها في الجينومات الكبيرة ومجموعات بيانات التسلسل الكبيرة جدًا الشائعة اليوم. في هذا البحث ، وصفنا MUMmer4 ، وهو إصدار محسّن بشكل كبير من MUMmer يعالج قيود حجم الجينوم عن طريق تغيير بنية بيانات شجرة لاحقة 32 بت في قلب MUMmer إلى مصفوفة لاحقة 48 بت ، والتي توفر سرعة محسّنة من خلال المعالجة المتوازية لـ تسلسل استعلام الإدخال. مع الحد النظري لحجم الإدخال 141 تيرا بايت ، يمكن لـ MUMmer4 الآن العمل مع تسلسلات الإدخال بأي طول واقعي بيولوجيًا. لقد أظهرنا أنه نتيجة لهذه التحسينات ، فإن برنامج nucmer في MUMmer4 قادر بسهولة على التعامل مع محاذاة الجينوم الكبير الذي نوضح ذلك من خلال محاذاة جينومات الإنسان والشمبانزي ، مما يسمح لنا بحساب أن النوعين متطابقان بنسبة 98 ٪ عبر 96٪ من طولها. مع التحسينات الموضحة هنا ، يمكن أيضًا استخدام MUMmer4 لمحاذاة القراءات بكفاءة مع الجينومات المرجعية ، على الرغم من أنها أقل حساسية ودقة من محاذاة القراءة المخصصة. يمكن الآن استدعاء nucmer aligner في MUMmer4 من لغات البرمجة النصية مثل Perl و Python و Ruby. تجعل هذه التحسينات MUMer4 واحدة من أكثر حزم محاذاة الجينوم تنوعًا المتاحة.

الاقتباس: Marçais G ، Delcher AL ، Phillippy AM ، Coston R ، Salzberg SL ، Zimin A (2018) MUMmer4: نظام محاذاة جينوم سريع ومتعدد الاستخدامات. بلوس كومبوت بيول 14 (1): e1005944. https://doi.org/10.1371/journal.pcbi.1005944

محرر: آرون إي دارلينج ، جامعة التكنولوجيا سيدني ، أستراليا

تم الاستلام: 15 أغسطس 2017 وافقت: 1 يناير 2018 نشرت: 26 يناير 2018

هذا مقال مفتوح الوصول ، وخالي من جميع حقوق النشر ، ويمكن إعادة إنتاجه أو توزيعه أو نقله أو تعديله أو بنائه أو استخدامه بأي طريقة أخرى من قبل أي شخص لأي غرض قانوني. العمل متاح تحت إشراف المشاع الإبداعي CC0 على الملك العام.

توافر البيانات: البيانات المستخدمة في هذه الورقة متاحة من NCBI SRA https://www.ncbi.nlm.nih.gov/sra ومن موقع ويب Cold Spring Harbour Laboratory http://schatzlab.cshl.edu/data/ectools /.

التمويل: تم دعم هذا البحث جزئيًا من قبل المعاهد الوطنية الأمريكية للصحة بموجب المنحة R01 GM083873 لستيفن سالزبيرج ، جزئيًا من خلال مبادرة الاكتشاف المستند إلى البيانات لمؤسسة Gordon and Betty Moore من خلال Grant GBMF4554 إلى Carl Kingsford ، وجزئيًا من قبل National Science Foundation Grants IOS-1238231 إلى Jan Dvorak و IOS-144893 إلى Herbert Aldwinckle و Keithanne Mockaitis و Aleksey Zimin و James Yorke و Marcela Yepes. لم يكن للممولين دور في تصميم الدراسة أو جمع البيانات وتحليلها أو اتخاذ قرار النشر أو إعداد المخطوطة.

تضارب المصالح: وقد أعلن الباحثون إلى أن لا المصالح المتنافسة موجودة.

هذا ال علم الأحياء الحسابي PLOS ورقة البرمجيات.


الاختلاف الوظيفي المفترض

عندما قمنا بتقييد التحليلات على المتغيرات التي من المرجح أن تؤثر على وظيفة الجين ، وجدنا جينومًا نموذجيًا يحتوي على 149-182 موقعًا مع متغيرات اقتطاع البروتين ، و 10000 إلى 12000 موقع مع متغيرات تغيير تسلسل الببتيد ، و 459000 إلى 565000 موقع متغير متداخل مع التنظيم المعروف. المناطق (المناطق غير المترجمة (UTRs) والمروجين والعوازل والمعززات ومواقع ربط عامل النسخ). كانت الجينومات الأفريقية دائمًا في أعلى نهاية هذه النطاقات. لم يتبع عدد الأليلات المرتبطة بمرض أو نمط ظاهري في كل جينوم هذا النمط من التنوع المتزايد في إفريقيا (البيانات الموسعة الشكل 4): لاحظنا ∼ 2،000 متغير لكل جينوم مرتبط بسمات معقدة من خلال دراسات الارتباط على مستوى الجينوم (GWAS) ) و 24-30 متغيرًا لكل جينوم متورط في مرض نادر من خلال ClinVar مع جينومات أصل أوروبي في نهاية هذه التهم. من غير المحتمل أن يتم تفسير حجم هذا الاختلاف من خلال الديموغرافيا 10،11 ، ولكنه يعكس بدلاً من ذلك التحيز العرقي للدراسات الجينية الحالية. نتوقع أن التوصيف المحسن للعواقب السريرية والظاهرية للأليلات غير الأوروبية سيمكن من تفسير أفضل للجينومات من جميع الأفراد والسكان.


نتائج

تحليل SNP على نطاق الجينوم

كان لجميع الجينومات متوسط ​​تغطية لا يقل عن 29.6 × ، باستثناء DAL972 الذي كان له تغطية 5.7 × وكان الجينوم الوحيد في مجموعة البيانات المتسلسلة باستخدام طريقة Sanger (الجدول التكميلي S2 ، المواد التكميلية عبر الإنترنت). في المجموع ، تم استدعاء 890170 SNPs في جينومات 56 المثقبيات سلالات و 194.566 اجتازت معايير التصفية الخاصة بنا. تم استخدام SNPs التي تمت تصفيتها لإنشاء شبكة Neighbournet (الشكل 1) ، وتحليل التجميع القائم على النمط الفرداني (الشكل 2) ، وشجرة احتمالية الحد الأقصى لـ RAxML (الشكل التكميلي S1 ، المواد التكميلية عبر الإنترنت).

—شبكة NeighbourNet مبنية على 194.566 مواقع SNP على مستوى الجينوم في 3 المثقبية البروسية الغامبية المجموعة 1 ، 3 T. ب. غامبيينسي المجموعة 2 ، 17 المثقبية البروسية الروديسية, 21 المثقبية بروسي بروسي, 8 المثقبية إيفانسيو 4 المثقبية المثقبية سلالات.

—شبكة NeighbourNet مبنية على 194.566 مواقع SNP على مستوى الجينوم في 3 المثقبية البروسية الغامبية المجموعة 1 ، 3 T. ب. غامبيينسي المجموعة 2 ، 17 المثقبية البروسية الروديسية, 21 المثقبية بروسي بروسي, 8 المثقبية إيفانسيو 4 المثقبية المثقبية سلالات.

- مصفوفة سكن تعتمد على بيانات النمط الفرداني المرحلي. يلخص Heatmap عدد مقاطع النمط الفرداني (مفتاح اللون على اليمين) التي تلقاها طفيلي معين (صفوف) من أي طفيلي آخر (أعمدة). يتم ترتيب الأفراد على طول كل محور وفقًا للشجرة (على اليسار) التي تم استنتاجها من تشغيل الهيكل الدقيق.

- مصفوفة سكن تعتمد على بيانات النمط الفرداني المرحلي. يلخص Heatmap عدد مقاطع النمط الفرداني (مفتاح اللون على اليمين) التي تلقاها طفيلي معين (صفوف) من أي طفيلي آخر (أعمدة). يتم ترتيب الأفراد على طول كل محور وفقًا للشجرة (على اليسار) التي تم استنتاجها من تشغيل الهيكل الدقيق.

كشفت جميع التحليلات الثلاثة عن تاريخ تطوري مماثل لـ T. إيفانسي و T. equiperdum. 6 T. إيفانسي تشكل سلالات النوع A عنقود أحادي النمط وتظهر تباينًا طفيفًا في SNP بمرور الوقت والمكان على الرغم من عزلها عن أنواع حيوانية مختلفة في كينيا وإثيوبيا والبرازيل وإندونيسيا والصين بين عامي 1980 و 2013. ضمن هذه المجموعة ، كان أكبر فرق جينومي هو وجدت بين STIB810 و E110 بإجمالي 2534 اختلاف SNP فقط (متماثل الزيجوت ومتغاير الزيجوت). أظهرت السلالات الإفريقية C13 و MU09 أدنى فرق جينومي (375 SNPs) وكانت أكثر ارتباطًا بالسلالة البرازيلية E110 مقارنة بالسلالات الآسيوية STIB805 و STIB810 و RoTat 1.2. الاثنان T. إيفانسي تشكل سلالات النوع B KETRI2479 و MU010 أيضًا مجموعة أحادية اللون ، والتي ظهرت بشكل منفصل عن سلف المثقبيات في غرب ووسط إفريقيا.

ال T. equiperdum السلالات هي الأكثر ارتباطًا وراثيًا بشرق إفريقيا T. بروسي سلالات. ال T. equiperdum سلالات Dodola 943 و TeAp-N / D1 و OVI تشكل كتلة أحادية اللون ترتبط ارتباطًا وثيقًا بكيبوكو T. ب. بروسي سلالات TREU927 و KETRI1738 و T. ب. الروديسيين سلالة EATRO 240. لاحظنا فقط 27 اختلاف SNP (متماثل الزيجوت ومتغاير الزيجوت) بين T. equiperdum جينومات Dodola 943 و TeAp-N / D1 ، 27 اختلافات SNP بين OVI و TeAp-N / D1 ، و 24 اختلاف SNP بين Dodola 943 و OVI. ال T. equiperdum سلالة BoTat ، المعزولة عن حصان في المغرب ، تختلف عن هذه الكتلة أحادية الخلية وجينومها وثيق الصلة بـ T. ب. بروسي سلالة J10 معزولة من ضبع في زامبيا. يُظهر كل من BoTat و J10 أصلًا غير مؤكد ويتشاركان الأنماط الفردية مع T. ب. الروديسيين EATRO 240 ، T. ب. بروسي TRUE972 و KETRI1738 و T. equiperdum Dodola 943 و TeAp-N / D1 و OVI (الشكل 2). إلى حد أقل ، يتشاركون أيضًا في الأنماط الفردانية مع شرق وغرب إفريقيا T. بروسي سلالات.

مجموعة فرعية محددة SNPs

SNPs فريدة من نوعها لـ T. إيفانسي نوع أ، T. إيفانسي اكتب ب ، T. equiperdum BoTat و T. equiperdum تم تحديد مجموعة Dodola 943 و TeAp-N / D1 و OVI monophyletic. قمنا فقط بتضمين الطفرات التي تختلف عن الحالة المرجعية متماثلة اللواقح (مقارنة مع الجينوم المرجعي TREU927) من خلال كونها متماثلة اللواقح للأليل البديل. يتم تقديم القائمة الكاملة لـ SNPs لكل مجموعة فرعية مدروسة في الجدول التكميلي S3 ، المواد التكميلية عبر الإنترنت. حددنا 354 SNPs التي تعتبر فريدة من نوعها في monophyletic T. equiperdum العنقودية مع Dodola 943 و TeAp-N / D1 و OVI ، ولم يحدث ذلك في أي من سلالات هذه الدراسة البالغ عددها 53. من 354 SNPs ، كان 224 منها في مناطق تشفير منها 109 كانت بدائل غير مجهولة. في ال T. equiperdum سلالة BoTat ، لوحظ 1425 تعدد الأشكال الفريدة من نوعها ، منها 850 في مناطق الترميز و 429 كانت بدائل غير مجهولة. تم مشاركة خمسة عناصر SNP فريدة فقط من قبل الجميع T. equiperdum الجينوم ، بما في ذلك جينوم BoTat المتميز. ل T. إيفانسي من النوع B اكتشفنا 701 تعدد أشكال تعدد الأشكال فريد منها 454 في مناطق الترميز و 238 كانت بدائل غير مجهولة. يتم تقديم نظرة عامة على SNPs الخاصة بالمجموعة الفرعية في الجدول التكميلي S2 ، المواد التكميلية عبر الإنترنت.

جينات مقاومة المصل البشري ، ووحدة VSG التشخيصية ، والوحدة الفرعية F1-ATP Synthase γ

تم اكتشاف جين TgsGP في الكل T. بروسي غامبينس سلالات المجموعة 1 وليس في أي من المثقبيات الأخرى. ال T. ب. غامبيينسي كان كودون S210 الخاص بالمجموعة 1 في جين TbHpHbR فريدًا أيضًا للجميع T. ب. مجموعة غامبين 1 سلالات ، بينما تم ترميز السلالات الأخرى في هذه الدراسة لـ L210 في جين TbHpHbR. الجميع T. ب. الروديسيين الجينومات الواردة SRA، باستثناء EATRO240. والمثير للدهشة أن T. ب. الروديسيين تم اكتشاف جين SRA محدد أيضًا في T. ب. بروسي تم عزل سلالتي H883 و STIB213 على التوالي من كلب في أوغندا وضبع في تنزانيا. تم العثور على RoTat 1.2 في الكل T. إيفانسي سلالات من النوع أ وليس في أي سلالة أخرى. في المقابل ، تُظهر بياناتنا أن VSG JN 2118HU ، تعتبر فريدة من نوعها T. إيفانسي النوع B ، موجود أيضًا في T. ب. غامبيينسي من النوع 2 سلالات ABBA و TH126 و STIB 386 و T. ب. بروسي سلالات B8 / 18 Clone B و KP33 Clone 16 و TSW187 / 78E. لم تكن تسلسلات JN 2118HU متطابقة في جميع الجينومات ولكن لم يتم تحديد SNP واحد فريد من نوعه T. إيفانسي النوع B. الوحدة الفرعية سينسيز F1-ATP - تمت محاذاة تسلسل الحمض النووي والأحماض الأمينية لجميع الجينومات المدرجة في هذه الدراسة (التين التكميلي S2 و S3 ، المواد التكميلية عبر الإنترنت). الاستبدال غير المتجانس C142C / T (R48R / G) والحذف متغاير الزيجوت GCT841del (A281del) فريدان للجميع T. إيفانسي سلالات من النوع A ، ومتغايرة الزيجوت A844A / T (M282M / L) للجميع T. إيفانسي سلالات النوع ب. الاستبدال غير المتماثل غير المتماثل G817C (A273P) فريد من نوعه لـ T. equiperdum سلالة BoTat.


SNiPloid: أداة لاستغلال بيانات SNP عالية الإنتاجية المشتقة من RNA-Seq في الأنواع متعددة الصبغيات

يعد التسلسل عالي الإنتاجية نهجًا شائعًا لاكتشاف متغيرات SNP ، خاصة في الأنواع النباتية. ومع ذلك ، غالبًا ما يتم تحسين طرق تحليل SNPs المتوقعة لأنواع النباتات ثنائية الصبغيات في حين أن العديد من أنواع المحاصيل عبارة عن جزيئات متعددة الصبغيات وتجمع بين الجينات الفرعية ذات الصلة ولكن المتباينة (مجموعات الكروموسوم المتجانسة). أنشأنا أداة برمجية ، SNiPloid ، تستغل وتفسر تعدد الأشكال المفترضة في سياق تعدد الصبغيات من خلال مقارنة تعدد الصبغيات من متعدد الصيغ الصبغية مع تلك التي تم الحصول عليها في أسلافها ثنائية الصيغة الصبغية الحديثة. يمكن لـ SNPloid مقارنة SNPs التي تم الحصول عليها من عينة لتقدير مساهمة الجينوم الفرعي في النسخ أو SNPs التي تم الحصول عليها من إدخالين متعددي الصيغ الصبغية للبحث عن اختلاف SNP.

1 المقدمة

أحدث ظهور تقنيات التسلسل عالي الإنتاجية ثورة في قدرتنا على اكتشاف واستغلال تعدد الأشكال أحادي النوكليوتيدات (SNPs). يحدث تعدد الصبغيات في العديد من الحيوانات والنباتات ولكنه منتشر بشكل خاص في النباتات المزهرة ، بما في ذلك العديد من المحاصيل الرئيسية. ومع ذلك ، تم تحسين معظم الطرق المستخدمة لاكتشاف تعدد الصبغيات المتوقعة والتحقق من صحتها للأنواع ثنائية الصبغيات ، لذلك لا يزال يتعين معالجة التحديات المحددة المتعلقة بتعدد الصبغيات.

العديد من النباتات متعددة الصيغة الصبغية بما في ذلك القهوة (قهوة ارابيكا)، قمح (Triticum durum Desf.) والقطن (جوسيبيوم هيرسوتوم L.) والفول السوداني (Arachis hypogaea L.) هي أشباه متعددة الصبغيات وتحتوي على اثنين أو أكثر من الجينومات المتميزة (الكروموسومات المتجانسة) بعد التهجين بين الأنواع ثنائية الصبغيات ذات الصلة ومضاعفة الكروموسوم. نتيجة لذلك ، تحتوي جينومات متعدد الصيغ الصبغية على نسخ مختلفة من معظم جيناتها ، ويؤدي الاندماج الجيني والمضاعفة إلى مجموعة واسعة من التأثيرات الجينومية ، بما في ذلك التغييرات في التعبير عن هذه الجينات المكررة ("المتجانسات"). في تعدد الصبغيات ، لا تتزاوج الكروموسومات المشتقة من أنواع أبوية مختلفة عند الانقسام الاختزالي ، كما أن النسخ الجينية ، "الموازية المتماثلة" أو "المتجانسات" المشتقة من الأنواع الأبوية المختلفة ليس لها علاقات أليلية وبالتالي يمكن تمييزها عن الأليلات الحقيقية. بعبارة أخرى ، يتعايش تباين التسلسل بين الجينومات الفرعية مع التباين الأليلي داخل الجينومات الفرعية. يعد التحديد الدقيق لـ homoeoSNPs (أي تعدد الأشكال الذي حدث في واحد فقط من الجينوم الفرعي) في بيانات تسلسل رباعي الصبغية تحديًا بسبب تجميع المتجانسات. في التجميع المشترك ، يمكن الخلط بين الاختلافات النوكليوتيدية المفردة بين الجينوم الفرعيين وبين SNP في موضع واحد.

يمكن أن يوفر تسلسل النصوص باستخدام طرق التسلسل عالية الإنتاجية (RNA-Seq) رؤى جديدة في علم الأحياء متعدد الصيغ الصبغية [1]. عادة ، تتم محاذاة القراءات من متعدد الصبغيات مع نسخة مرجعية. بعد ذلك ، إذا كان من الممكن أخذ عينات من متواليات أليل الأنواع السلفية ثنائية الصبغة ، فمن الممكن استنتاج أصل الجينوم لـ SNPs المحددة وتقدير مساهمة الجينات المتجانسة في إجمالي مستوى النسخ.

نقدم هنا أداة جديدة ، SNiPloid ، يمكنها معالجة الجوانب العديدة التي ينطوي عليها تحليل تعدد الأشكال في سياق تعدد الصبغيات. استنادًا إلى تجميع المتجانسات ، يقارن SNiPloid إما تعدد الأشكال المفترضة المكتشفة من متعدد الصيغ الصبغية مع تلك التي تم الحصول عليها في جينومات الوالدين ، أو تعدد الأشكال المفترضة المشتقة من إدخالين متعدد الصيغ الصبغية للبحث عن تعدد الأشكال. يمكن الوصول إلى خادم الويب SNiPloid وكود المصدر (القابل للتنزيل بموجب ترخيص CeCILL العام) على http://sniplay.cirad.fr/cgi-bin/sniploid.cgi.

2. الطرق

2.1. معالجة البيانات

قبل تفسير نتائج بيانات RNA-Seq باستخدام SNiPloid ، يلزم معالجة البيانات مسبقًا. يمكن لعلماء الأحياء معالجة بياناتهم مسبقًا من خلال خادم Galaxy العام (https://main.g2.bx.psu.edu/) كما هو موضح في الشكل 1.


معالجة البيانات. قبل بدء تشغيل SNiPloid ، يجب معالجة كل عينة فردية مسبقًا عن طريق تشغيل محاذاة الخرائط واستدعاء SNP على التوالي.

يفترض SNiPloid أن مجموعات بيانات القراءة القصيرة (على سبيل المثال ، العينات) المستمدة من النمط الجيني الفردي الفريد أو المدخلات المميزة (ثنائية الصبغيات أو متعدد الصيغ الصبغية) تتم محاذاتها بشكل منفصل مع مرجع نسخة ثنائية الصبغية واحد يتوافق مع أحد ثنائيي الصبغيات الأبوية باستخدام برنامج رسم خرائط مخصص مثل BWA [2] أو الصابون [3] أو بووتي [4].

تعد محاذاة الخرائط خطوة أساسية في المعالجة المسبقة للبيانات وتحتاج معلمات رسم الخرائط إلى تعديلها وتحسينها لتلائم بشكل أفضل جينوم ثنائي الصيغة الصبغية المستخدم كمرجع. في الواقع ، نظرًا لأن النسخة المرجعية ثنائية الصبغة ترتبط ارتباطًا وثيقًا بأحد الجينوم الفرعيين في رباعي الصيغة الصبغية ، فقد يكون لها تأثيرات جانبية على كفاءة رسم الخرائط وتسبب بشكل غير مباشر تحيزات في تفسير SNP ، لا سيما عند تحليل التعبير الجيني المتماثل النسبي الممثل من خلال مساهمة الجينومات الفرعية في التعبير الجيني الكلي.

تستخدم الأداة المساعدة SNiPloid قوة تنسيق النداء المتغير (VCF) الذي يسرد متغيرات SNP ويعين الأليلات لكل عينة متسلسلة ، بالمقارنة مع التسلسل المرجعي [5]. أصبح تنسيق VCF معروفًا الآن على نطاق واسع وهو ناتج تنسيق قياسي للعديد من برامج اتصال SNP. في هذا المنظور ، نقترح استخدام موحد Genotyper الوحدة النمطية في مجموعة أدوات GATK [6] لاكتشاف SNP. النوع الثاني من المدخلات المطلوبة بواسطة SNiPloid يتوافق مع ملف عمق التغطية الناتج عن ملف عمق التغطية وحدة GATK. اختياريًا ، يمكن تحسين اكتشاف SNP وتحليل SNiPloid اللاحق عن طريق تشغيل GATK ReadBackedPhasing فائدة لتحديد الارتباطات المحتملة بين الأليلات وإنتاج مراحل.

2.2. أداة SNiPloid

تتكون مدخلات برنامج SNiPloid من مخرجات GATK مختلفة لكل عينة: (1) ملف VCF يسرد SNPs المفترضة و (2) ملف عمق التغطية (الشكل 1). لكل عينة ، يمكن للمستخدم تعيين الحد الأدنى من تغطية العمق المطلوبة للنظر في موضع في إحصائيات المخرجات والحد الأدنى لتردد الأليل الصغير (MAF) المطلوب للنظر في الموضع كمتغير.

يتكون SNiPloid من ثلاث خطوات رئيسية (الشكل 2 (أ)). تتمثل الخطوة الأولى للأداة في استخراج المناطق التي تلبي الحد الأدنى لعتبة عمق التغطية لكل عينة (تم تعيينها مسبقًا من قبل المستخدم) ثم تحديد المناطق المتداخلة بين العينات. سيقتصر التحليل اللاحق على هذه المناطق لمقارنة المتغيرات. نتيجة لذلك ، إذا أظهرت SNPs المفترضة تغطية عمق كافية في متعدد الصيغة الصبغية ولكن ليس في ثنائي الصيغة الصبغية ، أو بشكل متبادل ، فلن تتم معالجة الموضع.


(أ)
(ب)
(أ)
(ب) (أ) إجراء SNiPloid. لكل تسلسل مرجعي أو جين لجينوم ثنائي الصيغة الصبغية G2 ، يستخرج SNiPloid الفواصل الزمنية التي تفي بحد أدنى لعمق التغطية لكل عينة (1 أ) ويحدد الفواصل الزمنية المتداخلة بين العينات (1 ب). ثم يستخرج تعدد الأشكال المفترضة في كلتا العينتين داخل هذه المناطق المشتركة المحددة (2) ويقارن الفروق الملحوظة بين العينات من أجل تفسير الموقف (3). (ب) سياقات النشوء والتطور داخل جينوم متعدد الصبغيات وتخصيص فئات تعدد الصبغيات.

في الخطوة الثانية أيضًا لكل عينة ، يستخرج SNiPloid الأليلات من ملف VCF لمواضع SNP داخل المناطق المشتركة المحددة. في الخطوة الثالثة ، تتم مقارنة الاختلافات التي لوحظت بين العينات وتفسير الموقف.

باستخدام وظيفته الرئيسية ("متعدد الصيغ الصبغية مقابل ثنائي الصبغيات الأبوية”) ، يوفر SNPloid خيار مقارنة وتفسير وتجميع SNPs. استنادًا إلى تجميع المتجانسات ، فإن SNiPloid قادر على استنتاج أصل جينوم SNP والتمييز بين أنواع SNPs و homoeoSNPs (أو SNP الخاص بالجينوم = HSV) [7] من خلال مقارنة SNPs المكتشفة في allopolyploid مع النيوكليوتيدات المقابلة في كل من جينومات الأبوية ثنائية الصبغيات الحديثة . وبالتالي ، يصنف SNPs SNPs في فئات مختلفة من خلال افتراض أنماط التطور على النحو التالي (الشكل 2 (ب)). (ط) يتوافق النمطان 1 و 2 مع تعدد الأشكال متعدد الأنواع ويتم تخصيصهما إذا كان الأليل خاصًا بأحد الجينومات الأبوية. حدثت الطفرة بعد حدث تعدد الصيغة الصبغية (على سبيل المثال ، ثنائي الصيغة 1 A / A ، ثنائي الصيغة 2 G / G ، و tetraploid G / G). (2) يتوافق النمط 5 مع homoeoSNPs المفترضة لأنه لوحظ نفس الاختلاف في tetraploids وبين الجينومات الأبوية (على سبيل المثال ، ثنائي الصيغة 1 A / A ، ثنائي الصيغة 2 G / G ، و tetraploid A / G). مع هذا النمط ، يحدد SNiPloid في أي الجينوم الفرعي يقيم فيه homoeoallele باستخدام أليلات التسلسل ثنائية الصيغة الصبغية. في الخطوة الثانية ، من خلال استرجاع ودمج أعماق الأليلات المرجعية والأليلات البديلة المتوفرة في تنسيق VCF ، يمكن تقدير مساهمة الجينوم الفرعي في النسخ لكل جينات متجانسة. (3) يُعزى النمطان 3 و 4 عندما لا يتم تحديد التباين الملحوظ في رباعي الصيغة الصبغية بين جينومات الوالدين (على سبيل المثال ، ثنائي الصيغة 1 A / A ، ثنائي الصيغة 2 A / A ، و tetraploid A / G). قد تكون الطفرة قد حدثت في أحد الجينومات الفرعية للالوتيترابلويد بعد حدث تعدد الصبغيات. مع مزيج من القراءات التي نشأت من جينومين فرعيين في رسم خرائط متآصل متآصل ، لا يمكن إسناد النمط 3 أو 4 بدون معلومات النمط الفرداني ، ويتم تعيين نمط "3 أو 4". بالإضافة إلى ذلك ، يمكن أن يستفيد SNiPloid من المعلومات المرحلية المضمنة في ملف VCF المشتق من allotetraploid لاستنتاج أصل الأليل والتمييز بين نمط التطور الافتراضي 3 أو 4. في الواقع ، يتوقع تنسيق VCF ترميز معلومات مراحل الأليل ( يتم تحديد أزواج الأليل بواسطة 0∣1 بدلاً من 0/1 إذا كانت متدرجة مع تعدد الأشكال السابق) من أجل تحديد كتل النمط الفرداني. وبالتالي ، إذا تم توفيرها في VCF ، يمكن لمعلومات التدريج تحديد الارتباطات المحتملة مع نمط SNP 5 الذي يُعرف أصل الجينوم الفرعي به وبالتالي التمييز بين الأنماط 3 و 4. بشكل أساسي ، هذه العملية القائمة على النمط الفرداني تجعل من الممكن تحديد الجينوم الفرعي المحدد SNPs .

3. الفوائد

3.1. تطبيق الويب

SNiPloid هو أحد مكونات منصة المعلومات الحيوية الجنوبية الخضراء (http://southgreen.cirad.fr) ويمكن الوصول إليه على http://sniplay.cirad.fr/cgi-bin/sniploid.cgi كأداة مساعدة محددة لتطبيق SNiPlay [8] لتحليل الأنواع متعددة الصبغيات.

بدلاً من ذلك ، يمكن تنزيل SNiPloid كعنصر من مكونات مشروع Galaxy [9] ، وهو إطار عمل حسابي مفتوح المصدر على شبكة الإنترنت يسمح بسهولة دمج الأدوات المختلفة. من خلال تنزيل هذه الحزمة ، من الممكن أيضًا تشغيل الأداة المساعدة عن طريق سطر الأوامر ، مما يعني أنه يمكن للمستخدمين إدارة المزيد من مجموعات بيانات الإدخال الضخمة.

3.2 مخرجات SNiPloid

يسمح تطبيق الويب بتصدير قائمة مفصلة من SNPs المصنفة بتنسيق مجدول. في نهاية العملية ، يلخص البرنامج التحليل عن طريق حساب فئات SNP المختلفة لكل جين / كونتيج من مجموعة البيانات المرجعية ومن خلال الإبلاغ عن النتائج في جدول ديناميكي قابل للفرز (الشكل 3 (أ)) بحيث يمكن للمستخدمين التصنيف بسهولة واسترداد فئات SNP ذات الأهمية. بالنسبة للجينات التي تقدم ما لا يقل عن فئة 5 من SNP ، يتم إعطاء نسبة متوسطة للحصول على تقدير عالمي لمساهمة الجينوم الفرعي للجين في النسخ.


مخرجات SNiPloid. (أ) ينتج SNiPloid مخرجات HTML توضح عدد فئات SNP المحددة مسبقًا ونسبة تقريبية لمساهمة الجينوم الفرعي في النسخ لكل تسلسل مرجعي. (ب) SNiPloid قادر أيضًا على إنشاء صورة بيانية توضح التوزيع العام لفئات SNP ومساهمات الجينوم الفرعي على طول الكروموسومات.

بالإضافة إلى ذلك ، عندما يكون الهدف هو حساب الإحصائيات العامة أو ترددات SNP على طول النص ، يمكن الإبلاغ عن عد فئات SNP إلى عدد المواقف التي تم أخذها في الاعتبار للتحليل ، أي المواقف التي حققت الحد الأدنى لعمق التغطية التي حددها المستخدم.

3.3 مقارنة بين عينتين

في الأساس ، الخيار الثاني "متعدد الصيغ الصبغية مقابل متعدد الصيغ الصبغية"من التطبيق يجعل من الممكن بسرعة التمييز وحساب تعدد الأشكال المحددة والمشتركة بين عينتين. يمكن إجراء المقارنة على ثلاثة مستويات مختلفة: إما بين عينتين نشأتا من إدخال متعدد الصيغ الصبغية واحد ، أو بين اثنين من المدخلات متعددة الصيغ الصبغية ، أو بشكل أكثر عمومية بين نوعين. باستخدام هذه الوظيفة ، يمكن أن تظهر مناهج أصلية جديدة تعتمد على تفاضل SNP لدراسة بنية الجينوم من polyploids أو مساهمة الجينوم الفرعي في التعبير الجيني.

3.4. عارض خريطة SNiPloid

أخيرًا ، يتضمن SNiPloid عارضًا يسمح بإلقاء نظرة عامة رسومية على توزيع فئات SNP ومساهمات الجينوم الفرعي على طول الكروموسومات (الشكل 3 (ب)).

لا يمكن تطبيق هذه الوظيفة إلا على الأنواع التي يتوفر لها تسلسل جينوم مرجعي كامل ومشروح بالكامل ويتطلب تعليقًا توضيحيًا للجينوم الهيكلي بتنسيق تنسيق الميزة العامة (GFF) كمدخل إضافي ، مما يزود برنامج العارض بإحداثيات نماذج الجينات المستخدمة كـ إشارة على الجينوم. والهدف من ذلك هو توطين المناطق المحتملة عالية التحيز أو الجينات المتقدمة أو المناطق المتجانسة داخل الجينوم بسرعة.

3.5 أمثلة على واقعة الاستخدام

تم إجراء تحليل كامل للنسخة على التباين الصبغى قهوة ارابيكا باستخدام برنامج SNiPloid لتحليل مساهمة الجينومات الفرعية في الترنسكريبتوم [10]. مكنت هذه الدراسة من توصيف التعبير الجيني للتعبير المتماثل على مستوى الجينوم في C. arabica, a recent allopolyploid combining two subgenomes that derive from two closely related diploid species: C. canephora و C. eugenioides. Different samples of C. arabica obtained at contrasted temperatures and one C. eugenioides sample were mapped against the C. canephora reference transcriptome, analyzed for SNP discovery, before being compared with SNiPloid in order to estimate homoeologous gene expression and to highlight potential variation between growing conditions. Additionally, by mapping reads against the C. eugenioides transcriptome instead of C. canephora, this study showed that the relative homoeologous gene expression is slightly biased in favour of the genome used as reference, as anticipated above.

Sampled from this study, an example of datasets is provided by the SNiPloid Web server to familiarize users with the correct input and expected results.

3.6 Performance and Limitations

The main functionality of SNiPloid is dedicated to RNA-Seq data and to polyploid species for which a diploid transcriptome reference is available for at least one of the parents.

One limitation of the use of RNA-Seq for SNP detection and subsequent interpretation is that the transcript sequences represent only the expressed part of the genome and that the sequencing depth varies considerably across the genome due to the different gene expression levels. Thus, only SNPs in well-expressed genes can be detected and allele or homoeolog expression bias could make the detection of certain SNP difficult due to their low frequency in the transcriptome. However, NGS technologies and the use of appropriate read cutoffs allow to detect and interpret SNPs for a large number of genes distributed across the genome.

Theoretically, even though the allele expression quantification would not be performed, a genome wide analysis would be also possible on genomic data. However from a technical point of view, whole genome analysis would be difficult to perform through our Web server, since it requires uploading VCF and depths file inputs that would be sizeable and should be computed by command line after having downloaded the SNiPloid package or through Galaxy.

In terms of performance, in our practical experience two RNA-Seq samples derived from a polyploid and a diploid species first mapped against a complete reference transcriptome and then generating 600 000 putative SNPs each can be successfully compared by SNiPloid Web server in less than five minutes.

3.7 Comparison with Other SNP Bioinformatics Tools

Even though numerous SNP bioinformatics tools or pipelines exist for SNP calling (GATK [6], VarScan [11], WEP [12], and MiST [13]) or SNP annotation (SNPEff [14]) at a whole genome scale, only a few software packages allow to automatically categorize and interpret putative SNPs from polyploid species.

An example of pipeline reported by Hand et al. [15] predicts the subgenome-specific origin of SNPs using a phylogenetic approach based on comparison with orthologous sequences from predicted progenitor species. More recently a new pipeline called PolyCat [16] has been developed for mapping and categorizing NGS reads produced from allopolyploid organisms. Having the same aim as SNiPloid, the approach is a little bit different. PolyCat uses reads from diploids to generate preindexed homoeoSNPs that will be then used to assign reads from tetraploids to a subgenome. The subgenome attribution is made at the read level whereas SNiPloid manages the subgenome attribution by considering SNPs position by position, counting homoeoSNPs for each transcript of a whole transcriptome analysis.

This approach is relevant and more advanced but can appear slightly more fastidious to operate. The main advantage of SNiPloid is its ease to be applied since it does not require preliminary work to establish homoeoSNPs database that can be time-consuming, and offers to non-bioinformaticians a ready-to-use Web server allowing to rapidly obtain subgenome attribution thanks to a “one click” analysis.

In addition, our approach seems to be more appropriate for allopolyploid species for which the polyploidization event is relatively recent in the evolution such as Coffea or Spartina.

4. Conclusions

To our knowledge, SNiPloid is the first Web tool dedicated and optimized for the SNP analysis of RNA-Seq data obtained from an allopolyploid species. By exploiting the well-organized information stored in the standard VCF format, SNiPloid helps to interpret putative SNPs detected in a whole transcriptome by a comprehensive SNP categorization. SNiPloid is appropriate for allotetraploids and opens new prospects for investigating allopolyploid genome structure or expression.

مراجع

  1. J. Higgins, A. Magusin, M. Trick, F. Fraser, and I. Bancroft, “Use of mRNA-Seq to discriminate contributions to the transcriptome from the constituent genomes of the polyploidy crop species Brassica napus,” علم الجينوم BMC، المجلد. 13, article 247, 2012. View at: Google Scholar
  2. H. Li and R. Durbin, “Fast and accurate short read alignment with Burrows-Wheeler transform,” المعلوماتية الحيوية، المجلد. 25 ، لا. 14, pp. 1754–1760, 2009. View at: Publisher Site | منحة جوجل
  3. R. Li, C. Yu, Y. Li et al., “SOAP2: an improved ultrafast tool for short read alignment,” المعلوماتية الحيوية، المجلد. 25 ، لا. 15, pp. 1966–1967, 2009. View at: Publisher Site | منحة جوجل
  4. B. Langmead, “Aligning short sequencing read with Bowtie,” in Current Protocols in Bioinformatics, chapter 11, unit 11. 7, John Wiley & Sons, New York, NY, USA, 2010. View at: Publisher Site | منحة جوجل
  5. “VCF format,” http://www.1000genomes.org/wiki/Analysis/Variant�ll𥈏ormat/vcf-variant-call-format-version-41. عرض على: الباحث العلمي من Google
  6. A. McKenna, M. Hanna, E. Banks et al., “The genome analysis toolkit: a MapReduce framework for analyzing next-generation DNA sequencing data,” أبحاث الجينوم، المجلد. 20 ، لا. 9, pp. 1297–1303, 2010. View at: Publisher Site | منحة جوجل
  7. S. Kaur, M. G. Francki, and J. W. Forster, “Identification, characterization and interpretation of single-nucleotide sequence variation in allopolyploid crop species,” Plant Biotechnology Journal، المجلد. 10 ، لا. 2, pp. 125–138, 2012. View at: Publisher Site | منحة جوجل
  8. A. Dereeper, S. Nicolas, L. Le Cunff et al., “SNiPlay: a web-based tool for detection, management and analysis of SNPs. Application to grapevine diversity projects,” المعلوماتية الحيوية BMC، المجلد. 12, article 134, 2011. View at: Publisher Site | منحة جوجل
  9. J. Goecks, A. Nekrutenko, J. Taylor, and T. Galaxy Team, “Galaxy: a comprehensive approach for supporting accessible, reproducible, and transparent computational research in the life sciences,” بيولوجيا الجينوم، المجلد. 8 ، لا. 8, article R86, 2010. View at: Publisher Site | منحة جوجل
  10. M. C. . Combes, A. Dereeper, D. Severac, B. Bertrand, and P. Lashermes, “Contribution of subgenomes to the transcriptome and their intertwined regulation in the allopolyploid Coffea arabica grown at contrasted temperatures,” علم النبات الجديد، المجلد. 200 ، لا. 1, pp. 251–260, 2013. View at: Publisher Site | منحة جوجل
  11. D. C. Koboldt, K. Chen, T. Wylie et al., “VarScan: variant detection in massively parallel sequencing of individual and pooled samples,” المعلوماتية الحيوية، المجلد. 25 ، لا. 17, pp. 2283–2285, 2009. View at: Publisher Site | منحة جوجل
  12. M. D'Antonio, P. D. De Meo, D. Paoletti et al., “WEP: a high-performance analysis pipeline for whole-exome data,” المعلوماتية الحيوية BMC، المجلد. 14, supplement 7, article S11, 2013. View at: Google Scholar
  13. S. Subramanian, V. Di Pierro, H. Shah et al., “MiST: a new approach to variant detection in deep sequencing datasets,” بيولوجيا الجينوم، المجلد. 11 ، لا. 8, article R86, 2010. View at: Google Scholar
  14. P. Cingolani, A. Platts, L. Wang le et al., “A program for annotating and predicting the effects of single nucleotide polymorphisms, SnpEff: SNPs in the genome of ذبابة الفاكهة سوداء البطن أضنى ث 1118 , iso-2, iso-3,” يطير، المجلد. 6 ، لا. 2, pp. 80–92, 2012. View at: Publisher Site | منحة جوجل
  15. M. L. Hand, N. O. Cogan, and J. W. Forster, “Genome-wide SNP identification in multiple morphotypes of allohexaploid tall fescue (Festuca arundinacea Schreb),” علم الجينوم BMC، المجلد. 13, article 219, 2012. View at: Publisher Site | منحة جوجل
  16. J. T. Page, A. R. Gingle, and J. A. Udall, “PolyCat: a resource for genome categorization of sequencing reads from allopolyploid organisms,” G3، المجلد. 3 ، لا. 3, pp. 517–525, 2013. View at: Google Scholar

حقوق النشر

Copyright © 2013 Marine Peralta et al. هذا مقال مفتوح الوصول يتم توزيعه بموجب ترخيص Creative Commons Attribution License ، والذي يسمح بالاستخدام غير المقيد والتوزيع والاستنساخ في أي وسيط ، بشرط الاستشهاد بالعمل الأصلي بشكل صحيح.


The basic principles of SNP array are the same as the DNA microarray. These are the convergence of DNA hybridization, fluorescence microscopy, and solid surface DNA capture. The three mandatory components of the SNP arrays are: [3]

  1. An array containing immobilized allele-specific oligonucleotide (ASO) probes.
  2. Fragmented nucleic acid sequences of target, labelled with fluorescent dyes.
  3. A detection system that records and interprets the hybridization signal.

The ASO probes are often chosen based on sequencing of a representative panel of individuals: positions found to vary in the panel at a specified frequency are used as the basis for probes. SNP chips are generally described by the number of SNP positions they assay. Two probes must be used for each SNP position to detect both alleles if only one probe were used, experimental failure would be indistinguishable from homozygosity of the non-probed allele. [4]

A SNP array is a useful tool for studying slight variations between whole genomes. The most important clinical applications of SNP arrays are for determining disease susceptibility [5] and for measuring the efficacy of drug therapies designed specifically for individuals. [6] In research, SNP arrays are most frequently used for genome-wide association studies. [7] Each individual has many SNPs. SNP-based genetic linkage analysis can be used to map disease loci, and determine disease susceptibility genes in individuals. The combination of SNP maps and high density SNP arrays allows SNPs to be used as markers for genetic diseases that have complex traits. For example, genome-wide association studies have identified SNPs associated with diseases such as rheumatoid arthritis, [8] prostate cancer, [9] A SNP array can also be used to generate a virtual karyotype using software to determine the copy number of each SNP on the array and then align the SNPs in chromosomal order. [10]

SNPs can also be used to study genetic abnormalities in cancer. For example, SNP arrays can be used to study loss of heterozygosity (LOH). LOH occurs when one allele of a gene is mutated in a deleterious way and the normally-functioning allele is lost. LOH occurs commonly in oncogenesis. For example, tumor suppressor genes help keep cancer from developing. If a person has one mutated and dysfunctional copy of a tumor suppressor gene and his second, functional copy of the gene gets damaged, they may become more likely to develop cancer. [11]

Other chip-based methods such as comparative genomic hybridization can detect genomic gains or deletions leading to LOH. SNP arrays, however, have an additional advantage of being able to detect copy-neutral LOH (also called uniparental disomy or gene conversion). Copy-neutral LOH is a form of allelic imbalance. In copy-neutral LOH, one allele or whole chromosome from a parent is missing. This problem leads to duplication of the other parental allele. Copy-neutral LOH may be pathological. For example, say that the mother's allele is wild-type and fully functional, and the father's allele is mutated. If the mother's allele is missing and the child has two copies of the father's mutant allele, disease can occur.

High density SNP arrays help scientists identify patterns of allelic imbalance. These studies have potential prognostic and diagnostic uses. Because LOH is so common in many human cancers, SNP arrays have great potential in cancer diagnostics. For example, recent SNP array studies have shown that solid tumors such as gastric cancer and liver cancer show LOH, as do non-solid malignancies such as hematologic malignancies, ALL, MDS, CML and others. These studies may provide insights into how these diseases develop, as well as information about how to create therapies for them. [12]

Breeding in a number of animal and plant species has been revolutionized by the emergence of SNP arrays. The method is based on the prediction of genetic merit by incorporating relationships among individuals based on SNP array data. [13] This process is known as genomic selection.


Genome-wide genetic changes during modern breeding of maize

The success of modern maize breeding has been demonstrated by remarkable increases in productivity over the last four decades. However, the underlying genetic changes correlated with these gains remain largely unknown. We report here the sequencing of 278 temperate maize inbred lines from different stages of breeding history, including deep resequencing of 4 lines with known pedigree information. The results show that modern breeding has introduced highly dynamic genetic changes into the maize genome. Artificial selection has affected thousands of targets, including genes and non-genic regions, leading to a reduction in nucleotide diversity and an increase in the proportion of rare alleles. Genetic changes during breeding happen rapidly, with extensive variation (SNPs, indels and copy-number variants (CNVs)) occurring, even within identity-by-descent regions. Our genome-wide assessment of genetic changes during modern maize breeding provides new strategies as well as practical targets for future crop breeding and biotechnology.


معلومات الكاتب

الانتماءات

L.K. Ernst Federal Science Center for Animal Husbandry, Dubrovitzy 60, Podolsk, Moscow, Russia, 142132

Alexander A. Sermyagin, Arsen V. Dotsev, Elena A. Gladyr, Alexey A. Traspov, Tatiana E. Deniskova, Olga V. Kostyunina, Gottfried Brem & Natalia A. Zinovieva

Institute of Genome Biology, Leibniz Institute for Farm Animal Biology (FBN), 18196, Dummerstorf, Mecklenburg-Vorpommern, Germany

Henry Reyer & Klaus Wimmers

Department of Animal Sciences, Food and Nutrition, Università Cattolica del Sacro Cuore, via Emilia Parmense 84, Piacenza, Italy

Russian Research Institute of Farm Animal Genetics and Breeding, Moskovskoe shosse 55a, St. Petersburg–Pushkin, Russia, 196601

Ivan A. Paronyan & Kirill V. Plemyashov

Division of Livestock Sciences, University of Natural Resources and Life Sciences, Gregor-Mendel-Straße 33, 1180, Vienna, Austria

Yakut Scientific Research Institute of Agriculture, 23/1, ul. Bestuzheva-Marlynskogo, Yakutsk, Sakha Republic, Russia, 677001

Institute of Animal Breeding and Genetics, University of Veterinary Medicine, Veterinärplatz 1, 1210, Vienna, Austria


شاهد الفيديو: مركز جينوم - كيف يموت السعوديون (يوليو 2022).


تعليقات:

  1. Thomas

    كما أننا سنفعل بدون فكرتك الممتازة

  2. Faemuro

    لا احب هذا

  3. Mim

    عذرا من فضلك ، أن أقاطعك.



اكتب رسالة