معلومة

9: تحديد الجينات - التركيب الجيني ، شبه ماركوف ، CRFS - علم الأحياء

9: تحديد الجينات - التركيب الجيني ، شبه ماركوف ، CRFS - علم الأحياء


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

9: تحديد الجينات - البنية الجينية ، شبه ماركوف ، CRFS

تقييم أنظمة التنقيب عن النصوص في علم الأحياء: نظرة عامة على التحدي المجتمعي الثاني لـ BioCreative

شهدت علوم الجينوم طلبًا متزايدًا على أدوات معالجة النصوص الفعالة التي يمكنها استخراج المعلومات ذات الصلة بيولوجيًا من الكمية المتزايدة من المؤلفات المنشورة. استجابة لذلك ، تم تطوير مجموعة من أدوات التنقيب عن النصوص واستخراج المعلومات مؤخرًا خصيصًا للمجال البيولوجي. هذه الأدوات مفيدة فقط إذا كانت مصممة لتلبية مهام الحياة الواقعية وإذا كان من الممكن تقدير أدائها ومقارنته. يتكون التحدي BioCreative (التقييم النقدي لاستخراج المعلومات في علم الأحياء) من مبادرة تعاونية لتوفير إطار تقييم مشترك لرصد وتقييم أحدث أنظمة التنقيب عن النصوص المطبقة على المشكلات ذات الصلة بيولوجيًا.

نتائج:

اجتذب تقييم BioCreative الثاني (2006 إلى 2007) 44 فريقًا من 13 دولة حول العالم ، بهدف تقييم التقنيات الحالية لاستخراج المعلومات / استخراج النصوص التي تم تطويرها لواحدة أو أكثر من المهام الثلاث المحددة لتقييم هذا التحدي. تضمنت هذه المهام التعرف على الجينات المذكورة في الملخصات (مهمة ذكر الجينات) واستخراج قائمة المعرفات الفريدة للجينات البشرية المذكورة في الملخصات (مهمة تطبيع الجينات) وأخيرًا استخراج المعلومات ذات الصلة بتفاعل البروتين والبروتين الفيزيائي (البروتين). -مهمة تفاعل البروتين). تم توفير بيانات "المعيار الذهبي" المستخدمة لتقييم عمليات التقديم للمهمة الثالثة بواسطة قواعد بيانات التفاعل MINT (قاعدة بيانات التفاعل الجزيئي) و IntAct.

استنتاج:

ضاعف تقييم BioCreative الثاني تقريبًا عدد المشاركين لكل مهمة فردية مقارنةً بالتقييم الأول لـ BioCreative. لوحظ تحسن شامل من حيث الدقة المتوازنة والاسترجاع لأفضل عمليات الإرسال لذكر الجين (درجة F 0.87) لمهمة تطبيع الجينات ، كانت أفضل النتائج قابلة للمقارنة (درجة F 0.81) مقارنة بالنتائج التي تم الحصول عليها لمهام مماثلة تم طرحها في أول تحدي BioCreative. في حالة مهمة التفاعل بين البروتين والبروتين ، تم استكشاف أهمية وصعوبات استخراج التعليقات التوضيحية المؤكدة تجريبياً من المقالات ذات النص الكامل ، مما أدى إلى نتائج مختلفة اعتمادًا على خطوة سير عمل استخراج التعليقات التوضيحية. كانت السمة المشتركة التي لوحظت في جميع المهام الثلاث هي أن الجمع بين مخرجات النظام يمكن أن يؤدي إلى نتائج أفضل من أي نظام واحد. أخيرًا ، تم تعزيز تطوير أول خادم تعريف لتعدين النصوص في سياق تحدي المجتمع هذا.


مقدمة

يعتبر سرطان الجهاز الهضمي (GI) أكثر الأورام البشرية شيوعًا في جميع أنحاء العالم [1]. وتشمل سرطان القولون والمستقيم وسرطان المعدة وسرطان البنكرياس وسرطان الكبد والقنوات الصفراوية. على الرغم من أن سرطانات الجهاز الهضمي في المراحل المبكرة قابلة للاستئصال الجراحي بقصد علاجي ، إلا أن معدل الانتكاس الإجمالي لمدة 5 سنوات يظل مرتفعًا. إن إضافة العلاج الكيميائي المساعد الجديد أو المساعد والعلاج الإشعاعي يحسن بشكل متواضع البقاء على المدى الطويل بشكل عام [2]. يتم تشخيص ما يقرب من 25٪ من سرطانات الجهاز الهضمي في مرحلة متقدمة ، بينما يصاب 25 إلى 50٪ من المرضى بالانبثاث أثناء مسار المرض [3]. لا تزال سرطانات الجهاز الهضمي سببًا رئيسيًا للوفاة بالسرطان [4]. لذلك ، من الضروري استكشاف الجينات المؤثرة المحتملة لزيادة عدد المرضى المؤهلين للعلاجات العلاجية.

تمكننا الزيادة في المقالات الطبية الحيوية وتشكيل قواعد بيانات تفاعل الجزيئات الحيوية المختلفة من الحصول على شبكات بيولوجية متنوعة. توفر هذه الشبكات البيولوجية ثروة من المواد الخام لفهم الأنظمة البيولوجية بشكل أكبر ، واكتشاف الأمراض المعقدة ، والبحث عن الأدوية العلاجية [5]. تم تطبيق كل من التنقيب عن النصوص وتحليل الشبكة للعثور على المعرفة البيولوجية المخفية وقواعد تنظيم الجينات وراء الكم الهائل من المعلومات [6]. لقد تحسن تعدين النص الطبي الحيوي لاستخراج الحقائق الطبية الحيوية من الأدبيات الطبية الحيوية بشكل كبير [7]. لها أربع مراحل رئيسية:

حدد الأدبيات ذات الصلة المعروفة مثل PubMed (https://pubmed.ncbi.nlm.nih.gov/)

التعرف على الكيانات البيولوجية المذكورة في الأدبيات (على سبيل المثال ، الجينات والأمراض)

تمكين الحقائق المحددة التي تتعلق بالكيانات ليتم سحبها من الأدبيات و

اكتشف المعرفة ، حيث يتم استخدام العلاقات المستخرجة لتحديد الأنماط المفيدة من الأدبيات.

من ناحية أخرى ، تم استخدام تحليل الشبكة على نطاق واسع في علم الاجتماع لدراسة العلاقات والهياكل المجتمعية في البيانات الاجتماعية. وبالمثل ، يمكننا استخدام تحليل الشبكة لتحديد الجينات الرئيسية داخل شبكة تنظيم الجينات [8].

في هذه الدراسة ، ندمج التعلم العميق وتحليل الشبكة ، بما في ذلك Bi-LSTM-CNN-CRF ، وتعظيم التأثير ، والنهج القائمة على الأنماط في خط أنابيب لاستخراج معلومات الجينات المحتملة تلقائيًا من مجموعة من الأدبيات الطبية الحيوية وإنشاء جين مؤثر مصنف. قائمة تتكون من الجينات. يقترح تشو ولي [9] هنا نظام NER للكيانات الطبية الحيوية من خلال دمج n-grams مع Bi-LSTM-CNN-CRF. يحقق نموذج Bi-LSTM-CNN-CRF أفضل النتائج ، متفوقًا على شجرة القرار السابقة والشبكة العصبية. لذلك ، اخترنا نموذج Bi-LSTM-CNN-CRF في دراستنا. نستخدم Bi-LSTM-CNN-CRF لتحديد الكيانات في النص ووسمها كأعضاء في مجموعة من الفئات المحددة مسبقًا (مثل الأمراض ، والمواد الكيميائية ، والجينات ، وما إلى ذلك) وتطبيق تعظيم التأثير لاشتقاق مجموعات الجينات المتزامنة مع التأثير الأكبر على مجموعة من السرطان. نستخدم قاعدة بيانات التواقيع الجزيئية (MSigDB، https://www.gsea-msigdb.org/gsea/index.jsp) [10] لتصدير مجموعات الجينات ذات الأهمية إلى ملفات مجموعة الجينات التي يمكن استخدامها مع علم الوجود الجيني و تحليل المسار. إنها مجموعة من مجموعات الجينات التي تم إنشاؤها في الأصل للاستخدام مع برنامج تحليل إثراء مجموعة الجينات (GSEA) و DAVID (قاعدة بيانات للتعليقات التوضيحية والتصور والاكتشاف المتكامل ، https://david.ncifcrf.gov/tools.jsp) [11 ] لإثراء الارتباطات البيولوجية المهمة التي تم الكشف عنها وظيفيًا عبر المسارات ، والتحكم في النسخ ، والأنطولوجيا الجينية ، والمصطلحات البيولوجية الأخرى.

في الماضي ، زو وآخرون. [12] تطبيق التنقيب عن النص لاستخراج المعلومات من الأدبيات الطبية الحيوية للبحث والتعرف على التفاعلات بين الوحدات البيولوجية المرتبطة بالأمراض ، وتصور الفرضيات من البيانات المتاحة ، وتخطيط القنوات البيولوجية. جوركا وآخرون [8] التنقيب عن النص المتكامل وتحليل الشبكة الاجتماعية من أجل تحديد المؤشرات الحيوية الجديدة المحتملة لسرطان الثدي. تشانغ وآخرون. [13] ذكرت خط أنابيب معالجة نصي بمساعدة التعدين لتحديد المؤشرات الحيوية المحتملة للسرطان. غالبًا ما يستخدم تحليل الشبكة طرق تعظيم التأثير. في تطبيقنا لتعظيم التأثير على الشبكات التنظيمية الجينية ، تمثل عملية الانتشار تدفقًا للمعلومات على الشبكة ، مما يفتح العديد من التطبيقات في الطب الحيوي [14]. ومع ذلك ، فإن معظم الأساليب الحالية ، على حد علمنا ، لا تتناول مجموعات الجينات المتزامنة كما نفعل في هذه الدراسة.


نتائج ومناقشة

كان لمهمة ذكر الجينات BioCreative I 15 مشاركًا وسُمح لكل منهم بتقديم ما يصل إلى أربعة أشواط ، مصنفة على أنها إما مغلقة (بدون موارد معجمية إضافية) أو مفتوحة (بدون قيود). كان لمهمة ذكر الجينات BioCreative II 19 مشاركًا في ورشة العمل وتم السماح لكل فريق بتقديم ما يصل إلى ثلاثة أشواط. لم تكن هناك قيود على الطلبات. أعلى درجة F تم تحقيقها لمهمة الإشارة الجينية BioCreative I كانت 0.836 ، بينما في التحدي الحالي كانت أعلى درجة F تم تحقيقها هي 0.872. لغرض تقديم النتائج ، وجميع التحليلات الإضافية في هذه الورقة ، تم النظر فقط في تقديم أعلى الدرجات (درجة F) من كل فريق من الفرق التسعة عشر.

يتم عرض الدقة والتذكر والنتيجة F لكل فريق ، بترتيب الترتيب بناءً على درجة F ، في الجدول 1. لحساب الأهمية ، تم استخدام إعادة تشكيل التمهيد في مجموعة الاختبار. بالنسبة لـ 10000 تجربة ، تم اختيار عينة عشوائية من 5000 جملة مع استبدالها من مجموعة الاختبار ، وتم حساب الدقة والتذكر والنتيجة F باستخدام هذه الجمل لكل من التقديمات الـ 19. لكل زوج من الطلبات ، قل أ و ب، وهي نسبة المرات في هذه التجارب العشرة آلاف التي حصلت عليها درجة F أ تجاوزت درجة F من ب لوحظ ، وقمنا بتسمية هذا الزوج ذي دلالة إحصائية إذا كانت هذه النسبة أكبر من 95٪. توجد فروق ذات دلالة إحصائية في الجدول 1. يمكن للمرء أن يرى أن كل من أعلى ثلاث درجات F لم يكن لها فروق ذات دلالة إحصائية. أيضًا ، كل من أعلى ست درجات F جميعها ذات دلالة إحصائية مقارنة بالدرجات المتبقية ، وهكذا. كل زوج من درجات F التي اختلفت بنحو 0.0123 أو أكثر كانت مهمة ، وكل زوج من درجات F التي اختلفت بنحو 0.0035 أو أقل كانت غير ذات أهمية.

يوضح الجدول 1 أيضًا البدائل (ALTGENEs) المطابقة في كل شوط كنسبة مئوية من الإيجابيات الحقيقية المقابلة ، والتي تتراوح من حوالي 15٪ إلى 30٪. من المثير للاهتمام أن نلاحظ أن عدد المتناوبين في السباق لا ينبئ بالنتيجة ، لأن الأشواط الثلاثة الأولى تمثل كلا الطرفين. ومع ذلك ، كان هناك ارتباط سلبي إجمالي قدره -0.40 ، ويمكن افتراض أن الطرق التي كانت أقل فعالية في تعلم حدود الجينات الأولية كانت لا تزال قادرة على الاقتراب بما يكفي لمطابقة البدائل ، مما أدى إلى تمثيل أعلى للبدائل. من بين ايجابياتهم الحقيقية.

مفاهيم أساسية

قبل الانتقال إلى أوصاف النظام الفردي ، نقدم للقراء الذين ليسوا على دراية بمعالجة اللغة الطبيعية (NLP) ، بضع فقرات تلخص المصطلحات الأساسية. للحصول على مقدمة إلى البرمجة اللغوية العصبية ، انظر [9] أو [10]. عادةً ما تتم معالجة النص عن طريق تجزئة النص إلى جمل أو مقتطفات ، ويتم ترميزه عن طريق تقسيمه إلى كلمات وأرقام وعلامات ترقيم تسمى عمومًا الرموز المميزة ، والتي يتكون كل منها من سلسلة من الأحرف بدون مسافة بيضاء. في هذه العملية ، غالبًا ما تتلقى الواصلات وعلامات الترقيم معاملة خاصة. يمكن تحليل الكلمة بشكل أكبر من خلال عملية تسمى lemmatization في lemma الخاص بها ، وهو الشكل الأساسي غير المنعكس للكلمة التي قد تجدها كمدخل في القاموس. ويقال إن الاشتقاقات والتصريفات المختلفة لها هذا الشكل الأساسي مثل اللمة. يوجد في بعض الأحيان غموض في هذا المفهوم. بدلاً من ذلك ، يمكن اشتقاق الكلمات من خلال خوارزمية تجرد اللواحق لإنتاج شكل مختزل ، وهذا غالبًا ما يعطي تقريبًا جيدًا للليم. قد يتم تعيين العلامات المميزة للنص والتي هي فئات من بعض المجالات المحددة ، على سبيل المثال أجزاء من الكلام (على سبيل المثال ، POS ، الاسم ، الفعل ، المساعد). تسمى عملية تحديد العبارات الاسمية وعبارات الفعل التقسيم ، والتي تعتمد عادةً على علامات نقاط البيع كخطوتها الأولى. كتحسين إضافي ، يمكن تحليل الجملة في هيكلها النحوي الكامل ، وهو ما يسمى الإعراب.

يسعى NER إلى تحديد الكلمات والعبارات في النص الذي يشير إلى كيانات في فئة معينة ، مثل الأشخاص أو الأماكن أو الشركات ، أو في هذا التطبيق الجينات والبروتينات. يتم إنجاز NER بشكل متكرر باستخدام علامات B-I-O ، والتي تصنف كل رمز مميز على أنه في بداية الكيان المحدد (B) ، أو استمرار الكيان (I) ، أو خارج أي كيان يتم وضع علامة عليه (O). هناك العديد من الموارد المعجمية (مصادر المعلومات حول الكلمات) المستخدمة بشكل شائع في حل مشكلة NER. المعجم هو قائمة بأسماء تنتمي إلى فئة معينة ، مثل الأماكن ، والأشخاص ، والشركات ، والجينات ، وما إلى ذلك. المعجم هو مصدر للمعلومات حول الأشكال المختلفة أو الخصائص النحوية للكلمات. قاموس المرادفات هو مصدر للمعلومات التي تشير إلى الكلمات ذات المعاني المتشابهة و / أو ذات الصلة. تم تصنيف الأنظمة في تحدي BioCreative I على أنها مفتوحة إذا استخدمت موارد معجمية ، خاصة المعاجم ، وأغلقت بخلاف ذلك. من الموارد المعجمية الشائعة الاستخدام نظام اللغة الطبية الموحد (UMLS) ، وهي مفردات مسيطر عليها للمصطلحات الطبية الحيوية تحتفظ بها المكتبة الوطنية الأمريكية للطب.

يشير التعلم الآلي إلى خوارزميات الكمبيوتر التي "تتعلم" للتعرف على المفاهيم في ضوء مجموعة التدريب ، وهي مجموعة من الكيانات المصنفة مسبقًا والتي تعمل كأمثلة وأمثلة مضادة لمفهوم الاهتمام. عندما يتم تصنيف أمثلة مجموعة التدريب من قبل خبير بشري ، يسمى التدريب تحت الإشراف ، وإلا فهو غير خاضع للإشراف. تستخدم المناهج شبه الخاضعة للإشراف مزيجًا من الاثنين. يصف نهج مهم في التعلم الآلي كل كيان من خلال مجموعة من الميزات أو السمات الموجودة أو الغائبة لهذا الكيان. على سبيل المثال ، كثيرًا ما تُستخدم الكلمات التي تظهر في النص كميزات ، مثلها مثل تسلسلات ن كلمات تظهر على التوالي ، ودعا ن-جرامات. يمكن تحليل كيان جديد غير مرئي في وصفه من خلال الميزات وتصنيفه بواسطة خوارزمية تعلم آلي مدربة مسبقًا. نظرًا لأن معظم خوارزميات التعلم الآلي ناجحة جدًا في تصنيف أمثلة مجموعة التدريب ، فمن المهم تقييم أداء الخوارزمية على مجموعة اختبار من الكيانات التي لا تظهر في مجموعة التدريب. في هذا التحدي ، تم توفير مجموعة اختبار للمشاركين لتقييم أنظمتهم بعد منحهم فترة من الوقت مع مجموعة التدريب. في كثير من الأحيان ، من الضروري تقسيم مجموعة (أو مجموعة) بشكل عشوائي واستخدام جزء واحد كتدريب والباقي للاختبار. عندما يتم ذلك بشكل متكرر يسمى التحقق المتقاطع. تعد أشجار القرار وأشجار القرار المعززة وآلات ناقلات الدعم (SVM) والاستدلال القائم على الحالة طرقًا عامة للتعلم الآلي. يمكن تطبيق بعض خوارزميات التعلم الآلي بشكل ملائم على المشكلات التي تتضمن وضع العلامات ، بما في ذلك نماذج ماركوف المخفية (HMM) و SVMs والحقول العشوائية المشروطة (CRFs). هناك مكتبات عامة تُستخدم كثيرًا للتعلم الآلي ، من بينها WEKA [11] للتعلم الآلي العام و MALLET http://mallet.cs.umass.edu/index.php/Main_Page لـ CRFs.

أوصاف النظام الفردي

طُلب من كل فريق مشارك تقديم ملخص موجز لنظامهم لإدراجه هنا. النص المُساهم مُعطى هنا بترتيب ترتيب أفضل عملية إرسال للفريق.

التقديم في المرتبة الأولى (Rie Johnson)

كان تركيز نظام IBM على أسلوب التعلم شبه الخاضع للإشراف ، تحسين البنية البديلة (ASO) [12] ، والذي تم من خلاله استغلال كمية كبيرة من البيانات غير المعنونة (أي نصوص Medline غير المشروحة) بالإضافة إلى بيانات التدريب المسمى المقدمة. كان الإطار التجريبي عبارة عن غرض عام يسمى نظام تقسيم الكيانات الموصوف في [12] ، والذي يستخدم مصنفًا خطيًا منظمًا تم تدريبه باستخدام خسارة Huber المعدلة ويشير إلى ميزات قياسية مثل سلاسل الكلمات وأنواع الأحرف للكلمات الحالية والمجاورة. من هذه الميزات القياسية ، تقوم ASO بإنشاء ميزات إضافية جديدة (وأفضل) من خلال التعلم الذي تم إنشاؤه تلقائيًا لمشاكل التنبؤ الإضافية على البيانات غير المسماة. يتم تدريب المصنفات النهائية باستخدام البيانات المسمى باستخدام الميزات القياسية والميزات الجديدة المستفادة من البيانات غير المسماة. بشكل أساسي ، فإن استغلال البيانات غير المسماة بهذه الطريقة له تأثير في مواجهة مشكلة الكلمات غير المعروفة الناتجة عن ندرة بيانات التدريب المصنفة.

بالإضافة إلى التعلم شبه الخاضع للإشراف ، تم تجهيز النظام بمكونات اختيارية تؤدي مجموعة مصنفات (تجمع بين نتائج chunker من اليسار إلى اليمين و chunker من اليمين إلى اليسار على غرار الدراسات السابقة) ، والبحث في معجم المجال ، والحث التلقائي للميزات عالية الترتيب والمعالجة اللاحقة البسيطة (مطابقة الأقواس). التفاصيل موصوفة في [13]. من بين جميع الموارد / المكونات الاختيارية ، تبين أن البيانات غير المسماة التي تم استغلالها عبر ASO هي الأكثر فاعلية ، مما أدى إلى تحسين كل من الدقة والاستدعاء وكذلك درجة F بمقدار 0.0209 على نظام IBM الأساسي (النظام باستخدام الميزات القياسية فقط). أفضل أداء 0.8721 (درجة F) ، تم الحصول عليه باستخدام جميع المكونات الاختيارية ، هو 0.0323 أعلى من نظام قاعدة IBM و 0.0589 أعلى من متوسط ​​المشاركين.

التقديم من المرتبة 2 (Cheng-Ju Kuo و I-Fang Chung)

نظام Kuo وزملاء العمل [14] ، AIIAGMT ، هو أفضل نظام أداء يعتمد على CRFs في تقييم التحدي هذا. في الواقع ، لا يعتبر أداؤه أسوأ من الناحية الإحصائية بشكل ملحوظ من أي أنظمة أخرى ، كما أن أداؤه هو الأفضل بين جميع الأنظمة لعينة تم إعادة ترجيحها لتعكس توزيع جملة عشوائية مستخرجة من Medline [5]. تتضمن ميزاته الرئيسية مجموعة ميزات غنية ، وتوحيد نماذج التحليل ثنائي الاتجاه ، وعملية التصفية المستندة إلى القاموس ، والأداء العالي الجذاب (خاصة في الدقة التي تصل إلى 0.8930 في تقييم المهمة النهائية). لقد اخترنا بعناية العديد من أنواع الميزات ، بما في ذلك الشخصية ن-Grams (حجم النافذة 2 إلى 4) ، والميزات المورفولوجية والإملائية ، ولكنها استبعدت بعض الميزات المستخدمة على نطاق واسع ، مثل كلمات الإيقاف والبادئة واللاحقة. باستثناء تلك الميزات المستخدمة على نطاق واسع ، اخترنا أيضًا مجموعة من الميزات الخاصة بالمجال ، بما في ذلك اختصارات المركبات الكيميائية البيولوجية (على سبيل المثال ، DNA و RNA والأحماض الأمينية) والمركبات التي تحدثت مع معلومات الموقع ذات الصلة وما إلى ذلك ، من أجل تقليل الإيجابيات الكاذبة بين مصطلحات التشكل الجيني الشبيه بالإشارة. علاوة على ذلك ، لتضمين المعلومات السياقية ، استخدمنا -2 إلى 2 كتعويضات لإنشاء ميزات سياقية قبل أي عمليات نموذجية.

للتعلم الآلي ، استخدمنا MALLET لتنفيذ نماذج CRF وأداء التدريب والاختبار. بعد ذلك ، باستخدام هذه الميزات ، تفوق النظام قيد التطوير بالفعل على العمل السابق. ومع ذلك ، بعد العديد من الاختبارات الداخلية ، أدركنا أن أداء نموذج CRF واحد قد وصل إلى هضبة الأداء. لذلك ، طبقنا تحليلًا عكسيًا للبيانات (أصبحت هذه الفكرة معروفة جيدًا جزئيًا بسبب وجود شرح توضيحي آخر متعدد الأغراض [YamCha] [15]) يسمى "التحليل العكسي" لتحليل الجمل من اليمين إلى اليسار ، بدلاً من الاتجاه المعتاد ، لإنشاء نموذج CRF آخر. بهذه الطريقة كان لدينا نموذجان متباينان ، والذي من المتوقع أن يتعرف على مجموعة مختلفة من الكيانات من النص. من خلال دمج هذه النتائج ، يمكننا الحصول على مجموعة من إجابات الاسترجاع أعلى من المجموعة المشتقة من نموذج واحد. لقد جربنا طرقًا مختلفة ، مثل التدريب المشترك ، وتعيين العمليات ، وترشيح القاموس ، لدمج نتائج النماذج ثنائية الاتجاه. وجدنا ذلك عند توحيد مخرجات النماذج ثنائية الاتجاه باستخدام MALLET ن- الخيار الأفضل ثم استخدام عملية ما بعد التصفية في القاموس لتصفية الضوضاء ، حصل النظام على أعلى درجة F. أخيرًا ، استخدمنا هذا النظام للمشاركة في التقييم النهائي للمهمة الرسمية وحصلنا على المرتبة الثانية بين 19 مشاركًا في الورشة (درجة F هي 0.8683).

التقديم من المرتبة الثالثة (Chun-Nan Hsu و Yu-Shi Lin)

يجمع نظام Hanshen وزملاء العمل [16] بين نموذجي SVM ونموذج CRF واحد لتحقيق واحدة من أفضل درجات F (المرتبة الثالثة) في BioCreative II. في الواقع ، حتى النظام الأفضل أداءً ليس أفضل من الناحية الإحصائية بشكل ملحوظ من هذا النظام. يعزز الأداء العالي لنظام الدمج هذا استراتيجية معروفة جيدًا ، وهي أن الجمع بين عدة نماذج تكميلية يؤدي دائمًا إلى تحسين الأداء. ومع ذلك ، فإن المصنفات المكونة تعمل بالفعل بشكل جيد للغاية ، ويرجع ذلك في الغالب إلى استخدام "التحليل العكسي" واستخدام مجموعة ميزات كبيرة. قمنا بمقارنة اتجاهين للتحليل ، للأمام وللخلف ، ووجدنا أن التحليل العكسي يؤدي دائمًا بشكل أفضل من التحليل الأمامي لكل من طرازي SVM و CRF ، ولكن لا يوجد فرق واضح بين نماذج SVM بامتدادات متعددة الطبقات مختلفة (واحد مقابل واحد وواحد مقابل الكل ).

لتطبيق SVM على هذه المشكلة ، استخدمنا نافذة منزلقة لتحويل المشكلة إلى مشكلة تعلم مصنف تحت الإشراف. أثناء التحليل ، يتم استخدام المعلومات من الرمزين المميزين السابقين والرمزين التاليين لإنشاء متجه ميزة للمصنف لتعيين تسمية فئة للرمز المميز الحالي. لقد اخترنا YamCha لبناء نماذج SVM لأنه مضبوط لمهام تقسيم الكيانات المسماة.

تتكون مجموعة الميزات الخاصة بنا من عشرة أنواع من الميزات بإجمالي 123503 مسندات لتمييز كل كلمة. ثم قمنا بتطبيق نافذة منزلقة بعرض 5 لاستخراج ما مجموعه 617515 ميزة ثنائية لكل كلمة. كخطوة معالجة مسبقة ، استخدمنا أداة تمييز GENIA http://www-tsujii.is.s.u-tokyo.ac.jp/GENIA/tagger/ لترميز الجمل ووضع علامة POS للتدريب وبيانات الاختبار. قمنا أيضًا بتدريب نموذج CRF لزيادة تباين مجموعتنا. تم تدريب نموذج CRF باستخدام MALLET مع مجموعة مماثلة من الميزات.

خطوتنا الأخيرة هي تحديد كيفية دمج نتائج النماذج الثلاثة المذكورة أعلاه لتعزيز الاسترجاع. طبقنا الاتحاد والتقاطع لدمج هذه النماذج. عادة ، يمكن أن يعزز الاتحاد الاسترجاع لأنه يتضمن المزيد من نتائج وضع العلامات من طرز مختلفة ، ولكنه يقلل أيضًا من الدقة. في المقابل ، يمكن للتقاطع تصفية الإيجابيات الخاطئة وبالتالي زيادة الدقة ، ولكن على حساب الاسترجاع. للاستفادة من كلتا العمليتين ولكن تجنب المزالق ، قمنا بتطبيق التقاطع على نتائج وضع العلامات لنموذجي SVM ثم اتحدنا مع نتائج وضع العلامات لنموذج CRF كنموذج مجموعتنا. أظهرت النتائج أن نموذج المجموعة البسيط هذا عزز الاسترجاع بشكل ملحوظ ، مع انخفاض النتائج الدقيقة بشكل طفيف. تم تصنيف جميع نتائج F في الربع الأعلى.

التقديم في المرتبة 4 (رومان كلينجر وكريستوف إم فريدريش)

نهجنا الموصوف في [17] يستخدم نهج متعدد النماذج مع اثنين من نماذج CRF. بشكل عام ، تتعامل حلول التعلم الآلي مع حقيقة واحدة. في BioCreative II ، تحتوي بيانات التدريب على بدائل مقبولة لأسماء الجينات والبروتينات بجانب المعيار الذهبي. يركز النظام الموصوف في [17] على استخدام هذه المعلومات الإضافية الغامضة كما هو الحال في تطبيقات العالم الحقيقي حيث يقوم المعلقون ببناء مجموعة. مثال من بيانات التدريب هو الجملة "من ناحية أخرى ، انخفض نشاط العامل التاسع في علاج الكومارين مع بقاء مستضد العامل التاسع طبيعيًا". المعيار الذهبي هو "العامل التاسع" المشروح مرتين. التعليق التوضيحي البديل هو "مستضد العامل التاسع". ومع ذلك ، في الجملة "روابط ارجينيل الببتيدية المشقوقة في تحويل العامل البشري التاسع إلى العامل IXa بواسطة العامل XIa تم تحديدها على أنها Arg145-Ala146 و Arg180-Val181" ، المعيار الذهبي هو إيجاد "العامل البشري IX" و " العامل IXa و العامل XIa ، لكن البديل يعطينا إمكانية "العامل IX" بدلاً من "العامل البشري IX".

يتم تقسيم مجموعة جميع التعليقات التوضيحية (الذهبية والبدائل) إلى مجموعة من التعليقات التوضيحية القصيرة ومجموعة من التعليقات التوضيحية الطويلة. ينتج عن تدريب نماذج CRF نظام واحد يميل إلى إنشاء تعليقات توضيحية قصيرة ونظام آخر يحتوي على تعليقات توضيحية أطول. يتم وضع العلامات الأخيرة في كثير من الأحيان وفقًا لنية المؤلف ولكن لديها استدعاء أقل ، حيث يفوت الجزء الأول أحيانًا أجزاء من الكيان بسبب خصائص التعليقات التوضيحية المختلفة.

لتحسين الأداء يتم الجمع بين نتائج النظامين. تم اختبار ثلاثة احتمالات: استخدام نتيجة النظام بنتائج قصيرة وإضافة نتائج النظام المدربة على الكيانات الأطول دون تداخل ، والعكس الاتجاه (الأول الطويل مع إضافة القصيرة بدون تداخلات) والجمع بين كلا النتيجتين مع تتداخل.

يؤدي تدريب نموذج CRF واحد فقط على المعلومات الموجودة في الملف GENE.eval إلى الحصول على درجة F أقل من دمج نتائج نموذجي CRF عن طريق إضافة التعليقات التوضيحية القصيرة إلى التعليقات التوضيحية الطويلة دون تداخل. يمكن تحقيق استدعاء مرتفع بشكل ملحوظ من خلال دمج النتائج مع التداخلات.

تم ضبط تكوين CRFs باستخدام التمهيد 50 ضعفًا. لقد تم تحديد أن البحث الجشع عن مجموعة الميزات المثلى يفشل في تأثير مجموعة من البادئات واللاحقات ذات الطول 2 و 3 و 4 وهو أعلى بكثير مما هو متوقع من تأثيرات البادئات واللاحقات ذات الطول 2 ، 3 ، أو 4 بمفرده. ميزة أخرى مهمة هي استخدام إخراج علامة التطبيع ، ProMiner [18] ، والذي يظهر تأثيرًا كبيرًا خاصة على مجموعة الاختبار.

يتم تطبيق المعالجة اللاحقة الإضافية ، وتصحيح الأخطاء المتكررة بين الأقواس وعلامات الاقتباس ، بالإضافة إلى توضيح الاختصار باستخدام التحليل الدلالي الكامن.

التقديم في المرتبة الخامسة (كوزمان غانتشيف)

تتشابه طريقتنا [19] في بعض النواحي مع طرق أخرى تستخدم نموذج تسلسل خطي (على سبيل المثال ، نموذج CRF) ، ويتم ترميز جمل الاختبار أولاً باستخدام رمز مميز قائم على القواعد ، والهدف هو تعيين رمز واحد لكل رمز مميز العلامات الثلاثة B و I و O. لقد بدأنا بنظام قائم على CRF مشابه للنظام الذي قدمه فريق جامعة بنسلفانيا إلى مسابقة Biocreative الأولى. قمنا بإجراء ثلاثة تغييرات رئيسية على النظام السابق.

• قمنا بتدريب النموذج باستخدام ك- أفضل خوارزمية MIRA [20] باستخدام دالة الخسارة التي تراعي التسميات البديلة وتوازن الدقة والاسترجاع. يتيح لنا ذلك مقايضة الدقة مقابل الاسترجاع والاستفادة من الجينات البديلة المذكورة بالإضافة إلى وضع العلامات الذهبية. نحن بصدد إصدار الكود المصدري لتدريب MIRA لاستخدامه مع مجموعة أدوات التعلم الآلي من MALLET. سيكون الرمز متاحًا للجمهور على http://www.seas.upenn.edu/

• أضفنا ميزات الكلمات بناءً على التجميع التوزيعي للكلمات. تم استخدام مجموعة فرعية من 85 مليون كلمة من Medline لتجميع الكلمات من خلال نموذج لغة bigram الحيرة في شجرة ثنائية. تم بعد ذلك تطبيق قطع شجرية مختلفة العمق لإنتاج خمس ميزات تجميعية بمستويات مختلفة من التفصيل لكل نوع كلمة في الشجرة. وبالتالي ، لكل نوع من الكلمات التي تم تجميعها عنقودًا ، هناك خمس ميزات مختلفة للمجموعة غير مستقلة تم إنشاؤها بواسطة التجميع. في بيانات التطوير الخاصة بنا ، أدت إضافة هذه الميزات إلى تحسين 0.007 في أفضل نظام وبقدر 0.013 تحسنًا في الأنظمة الرديئة.

• قمنا باختيار الميزة عن طريق البحث الجشع على قوالب الميزات. في تحديد الميزة ، تم تجميع الميزات حسب قوالب الميزات. على سبيل المثال ، هناك العديد من الميزات لهوية الرمز المميز الحالي (واحد لكل نوع رمز مميز) ، لكننا نقوم بتجميع كل هذه في قالب ميزة "هوية" واحد. بدءًا من قائمتنا الأولية لقوالب الميزات ، قمنا بشكل متكرر بإزالة تلك التي تؤدي إزالتها إلى أكبر زيادة في النتيجة على بيانات التطوير ، حتى لا يكون هناك مزيد من التحسين ممكنًا. تتطلب إزالة نموذج ميزة واحد فقط بهذه الطريقة تدريب نموذج واحد لكل مرشح إزالة. بمجرد أن لا نتمكن من تحسين أداء بيانات التطوير ، نبدأ في إضافة قوالب ميزات من قائمة المرشحين. نتج عن ذلك بعض الإضافات غير المتوقعة وعدم الإضافات. على سبيل المثال ، وجدنا أن إضافة اقتران من أربع علامات POS تساعد في الأداء ، بينما تؤدي إضافة قائمة مختصرات الجينات الخاصة بنا إلى الإضرار بالأداء.

على الرغم من وجود مئات الآلاف من الميزات ، إلا أنه لا يوجد سوى العشرات من قوالب الميزات ، لذا فإن القيام بهذا التحسين على بيانات التطوير لا يؤدي إلى تجاوز شديد للغاية لدرجة F للنظام النهائي على بيانات التطوير التي كانت في حدود 0.010 من ذلك في بيانات غير مرئية. أدى هذا إلى تحسين أداء جميع الأنظمة بشكل ملحوظ. في بيانات التطوير الخاصة بنا ، أدى اختيار الميزة إلى تحسن بمقدار 0.013 في درجة F عند استخدام CRF وعند استخدام تدريب MIRA.

أسفرت هذه التغييرات معًا عن تحسن إجمالي قدره 0.043 في الأداء المطلق (24 ٪ تقليل الخطأ النسبي) على نظام خط الأساس باستخدام بيانات التطوير الخاصة بنا.

التقديم في المرتبة السادسة (مانابو توري وهونغفانغ ليو)

يتكون نظام التعرف [21] من ثلاث خطوات: يتم البحث عن عبارات الاسم في النص في BioThesaurus [22] و UMLS Metathesurus [23] يتم تطبيق نموذج CRF مدرب لتصنيف الرموز المميزة في النص إلى ثلاث فئات (B ، I ، و س) باستخدام الميزات المعجمية ونتائج البحث في القاموس وإجراءات المعالجة اللاحقة يتم تطبيقها لتصحيح أخطاء معينة ولجعل نتائج العلامات متسقة. فيما يلي تفاصيل الخطوات الثلاث.

البحث في القاموس

لتعزيز تغطية عبارات الأسماء في القواميس (BioThesaurus و Metathesaurus) ، مع تجنب الاكتشافات الإيجابية الكاذبة أثناء البحث ، قمنا بتصفية أنواع معينة من العبارات. أولاً ، تمت إزالة العبارات في BioThesaurus التي تم العثور على حدوثها (في الغالب) على أنها إيجابية كاذبة في مجموعة التدريب (على سبيل المثال ، IL). ثانيًا ، قمنا بتصفية العبارات التي تم تمييزها على أنها غير منطقية في BioThesaurus (على سبيل المثال ، البروتين الافتراضي). أخيرًا ، تم استبعاد العبارات في Metathesaurus مع الفئات الدلالية غير ذات الصلة لأغراض الكشف عن اسم الجينات / البروتين. استخدمنا طريقة بحث مرنة تتجاهل اختلافات الحالة ، والاختلافات المعجمية ، وبعض رموز علامات الترقيم.

التعلم الالي

تم تحويل سلسلة من الرموز المميزة إلى سلسلة من متجهات الميزات لتطبيق طريقة التعلم الآلي ، تنفيذ CRF لـ MALLET. تم وضع علامة على حدوث أسماء الجينات / البروتين باستخدام تدوين B / I / O. الميزات التي يتم النظر فيها في كل موضع رمزي هي كما يلي:

• الرموز - الرمز المميز في الموضع بالإضافة إلى الرمز السابق والرمزين التاليين.

• شرح القاموس - شرح B / I / O للرمز المميز فيما يتعلق بنتائج البحث في القاموس (على سبيل المثال ، B-Metathesaurus: aapp يشير إلى أن الرمز المميز هو الكلمة [B] الموجودة في أقصى اليسار لعبارة موجودة في Metathesaurus ، وأن العبارة تنتمي إلى فئة UMLS aapp [حمض أميني ، ببتيد أو بروتين]).

• POS - جزء من علامة الكلام المعين للرمز المميز بواسطة أداة تمييز GENIA.

• شكل الرمز - شكل الرمز الذي تم الحصول عليه بتحويل كل حرف صغير إلى أ، كل حرف كبير إلى أ، ورقم 9 (على سبيل المثال ، من Asp5 → Aaa9).

• اللاحقة - أقصى أربعة أحرف من الكلمة.

المعالجة البعدية

تم تنفيذ إجراء المعالجة اللاحقة لتصحيح الأخطاء الظاهرة (على سبيل المثال ، عدم تطابق الأقواس). أيضًا ، إذا تم وضع علامة على عبارة ما على أنها جينات / بروتينات ، فيجب وضع علامة على جميع تكراراتها في نفس الجملة على أنها جينات / بروتينات بشكل متسق. وبالمثل ، تم تمييز الاختصارات / الاختصارات والتعبيرات الطويلة المقابلة لها ، إذا تم اكتشافها ، بشكل متسق.

بينما تفوق النظام الذي يحتوي على التعليقات التوضيحية للقاموس على أحدها دون استخدامه في التجارب ، لاحظنا أن عبارات الجينات / البروتين الحقيقية تم تمييزها بشكل صحيح أثناء البحث في القاموس - (BioThesaurus) في بعض الأحيان تم إلغاء تمييزها بشكل خاطئ بواسطة نموذج التعلم الآلي في المخرجات النهائية. لاستعادة مثل هذه العبارات غير الموسومة ، تم اختبار حلين. كان الحل الأول هو تمييز التكرارات المختلفة لعبارة ما بشكل متسق داخل مستند واحد (هنا ، الملخص المقابل) ، ليس فقط ضمن جملة واحدة كما تم بالفعل بواسطة إجراء المعالجة اللاحقة. الحل الثاني هو تقديم أداة تمييز أخرى لتأكيد شرح القاموس بشكل مستقل عن أداة تمييز CRF. قمنا بتطبيق LingPipe tagger http://www.alias-i.com/ الذي يستغل الميزات الهجائية ، وأضيفت العبارات التي تم تمييزها بواسطة كل من LingPipe tagger و BioThesaurus إلى الإخراج من علامة CRF.

التقديم في المرتبة السابعة (باري هادو)

لمعالجة مهمة GM ، استخدمنا طريقتين مختلفتين للتعلم الآلي باستخدام نفس مجموعات الميزات [24]. استخدم التشغيلان 1 و 3 نماذج CRF مع إعدادات مختلفة للسابق Gaussian ، بينما استخدم التشغيل 2 نموذج إنتروبيا أقصى ثنائي الاتجاه ماركوف (BMEMM) [25]. في جميع الدورات ، تم استخدام التعليقات التوضيحية القياسية الذهبية فقط في التدريب ، ولم يتم استخدام التعليقات التوضيحية البديلة. لقد وجد أن CRF تفوق في الأداء على BMEMM ، سواء باستخدام التحقق المتبادل في مجموعة التدريب ، أو في مجموعة الاختبار الرسمية.

قبل التدريب على الجمل أو وضع علامات عليها ، مروا بسلسلة من مراحل المعالجة اللغوية المسبقة ، بما في ذلك الترميز ، واللمماتة ، وجزء من علامات الكلام ، والتقطيع ، واكتشاف الاختصار (باستخدام كاشف الاختصارات شوارتز وهيرست [26]). تتكون مجموعة الميزات التي تم تمريرها إلى المتعلمين الآليين من مجموعة أساسية من الميزات المستخدمة في التعرف على الكيانات المسمى في الأخبار (كما في تحدي CoNLL-2003 [27] ، على سبيل المثال) مدعومًا بميزات إضافية مصممة خصيصًا لمجال الطب الحيوي. تتكون الميزات الأساسية من علامات الكلمات وجزء من علامات الكلام المأخوذة من السياق المحلي ، والميزات الإملائية والاسم الرئيسي الذي يحدده chunker.

تتألف الميزات الإضافية من ميزات إملائية وميزات مشتقة من أداة مطابقة الاختصارات ومن معجم البروتين الداخلي المشتق من RefSeq. بالنسبة للخصائص الهجائية ، تم استخدام مجموعة من التعبيرات العادية من أدبيات NER الطبية الحيوية ، مع التعرف على ميزة مقابلة في كل مرة تطابق كلمة واحدة من التعبيرات العادية. تمثل مجموعة التعبير العادي الأنماط الشائعة في أسماء الجينات أو البروتينات.

لإضافة ميزات المعجم إلى كل كلمة في جملة معينة ، يتم استخدام المعجم أولاً لإنشاء مجموعة من المصطلحات المتطابقة للجملة ، حيث يُسمح فقط لكل كلمة أن تكون في مصطلح واحد مطابق والبدء في وقت سابق ، تكون الأسبقية للمصطلحات الأطول. ميزة المعجم اللغوي الأحادي لكل كلمة لها قيمة إما B أو I أو O ، اعتمادًا على ما إذا كانت الكلمة في بداية المصطلح المطابق للمعجم أو داخله أو خارجه. تمت إضافة ميزة المعجم الجغرافي الكبير أيضًا ، وهذا هو تسلسل ميزة المعجم الجغرافي للكلمة السابقة والحالية. بالإضافة إلى ذلك ، تمت إضافة ميزة الاختصار إلى جميع الاختصارات المحددة التي تم العثور على سابقة لها في المعجم.

التقديم في المرتبة 8 (Craig A Struble و Richard J Povinelli)

فيما يلي وصف موجز لنظام تحديد الجينات. ويرد وصف أكثر اكتمالا في [28]. يقوم نظامنا بتمييز تسلسل من الرموز النصية المميزة بملصقات تشير إلى موقع ذكر الجين / البروتين. هذا مشابه لخوارزميات إيجاد الجينات التي تميز أجزاء من التسلسلات الجينية بتسميات لبنية الجينات ، مثل الإنترونات والإكسونات.

يتم ترميز الجمل إلى أرقام مع فواصل عشرية اختيارية وعلامات بادئة ، وسلاسل أبجدية رقمية بعلامات اقتباس مفردة (للرموز المميزة مثل 5 ') وعلامات الترقيم. للتدريب ووضع العلامات ، يتم تمييز الرموز المميزة بواحدة من ثلاثة تسميات B-GENE و I-GENE و O تمثل بداية ذكر الجينات وداخله وخارجه.

يستخدم وضع علامات الجينات CRFs ، وهو نموذج احتمالي شرطي لتمييز التسلسلات. في معظم الأعمال السابقة مع CRFs ، تم استخدام نموذج سلسلة خطية واحد لوضع العلامات. في نظامنا ، تم استخدام نموذجين: نموذج من الدرجة الأولى تعتمد فيه الميزات على تسلسل المراقبة وتسمية الرمز المميز الحالية كما هي ممثلة بـ F ي(س أنا, ا, أنا) ونموذج من الدرجة الثانية أكثر شيوعًا في نماذج CRF ذات السلسلة الخطية حيث تعتمد الميزات على تسلسل المراقبة ، وتسمية الرمز السابق ، وتسمية الرمز المميز الحالية ، كما هو موضح بواسطة F ي(سأنا-1, س أنا, ا, أنا).

عند استخدام نماذج متعددة ، من الضروري وجود طريقة لدمج النتائج. تم وضع علامة على ذكر ما إذا كان أي من النموذجين قد حدد رمزًا باعتباره جزءًا من الجين. بالنسبة للعلامات المتداخلة ، تم تحديد حدود البداية والنهاية بواسطة نموذج الترتيب الثاني.

تم استخدام الميزات المنطقية للنص. تتضمن الميزات الهجائية: الرمز المميز ، وجميع الأحرف الكبيرة ، وجميع الأحرف الصغيرة ، وعلامات الترقيم ، والاقتباس ، والأبجدية الرقمية ، والأحرف الصغيرة متبوعة بأحرف كبيرة ، وحرف كبير في البداية ، وحرف واحد كبير ، وحرف واحد ، وكلها أبجدية ، ورقم واحد ، وأرقام مزدوجة ، عدد صحيح ، رقم حقيقي ، يحتوي على رقم ، رمز حمض أميني مكون من ثلاثة أحرف ، يحتوي على غلوبين أو جلوبيولين ، يحتوي على رقم روماني ، أو يحتوي على حرف يوناني. تضمنت الميزات الإضافية البادئات واللواحق ذات الأطوال من 2 إلى 4 وإدراجها في شكل قصير أو طويل لتعريف الاختصار. تضمنت الميزات السياقية ميزات الرمزين السابقين والتاليين.

يمكن لـ CRFs تسمية الرموز المميزة عن غير قصد كما يذكر الجينات بسبب التشابه الإملائي. من الممكن أن نستنتج من بقية الجملة أنه لا يوجد ذكر. شخصية نتم استخدام نموذج -gram لتصنيف الجمل إلى تلك التي تم ذكر الجينات وتلك التي لا تذكر. اختلاف الشخصيات ننماذج الجرام تحسب احتمالية عضوية الفئة على أساس الطول ن الاحتمالات اللاحقة.

تجاهلت خطوة المعالجة اللاحقة إشارات الجينات التي تحتوي على أقواس غير متطابقة ، مما يشير إلى خطأ في وضع العلامات.

أدى الجمع بين النماذج إلى تقليل الدقة (0.0181) ولكن تحسين الاسترجاع (0.0175) وأداء درجة F بشكل طفيف (0.0008) مقارنة بالطرازات من الدرجة الثانية وحدها. ال نكان أداء نموذج الجرام جيدًا بشكل مدهش ، وبدقة تبلغ 0.8724 في مجموعة الاختبار. باستخدام نحسّن مصنف الجرام الدقة بمعدل 0.0303 في المتوسط ​​، لكنه قلل الاسترجاع بمقدار 0.0420 في المتوسط ​​، مما أدى إلى تقليل درجة F بمقدار 0.0078. يمكن أن يؤدي الاستبدال بمصنف ذي أداء أفضل مثل آلات ناقلات الدعم إلى تحسين الأداء بشكل أكبر.

التقديم في المرتبة 9 (أندرياس فلاشوس)

المكونات الرئيسية لنظامنا [29] هي مجموعة أدوات نموذج الإبلاغ الموحد MALLET ومجموعة أدوات التحليل النحوي RASP http://www.informatics.susx.ac.uk/research/nlp/rasp/ ، وكلاهما متاح للجمهور. تجدر الإشارة إلى أن النظام الذي تم إنشاؤه مستقل تمامًا عن المجال ويمكن استخدامه كما هو في أي مهمة NER. كانت نماذج CRF التي تم إنشاؤها من الدرجة الثانية وتم تدريبها حتى التقارب. تتضمن الميزات المستخدمة الرمز المميز نفسه ، سواء كان يحتوي على أرقام أو أحرف أو علامات ترقيم ، ومعلومات حول الكتابة بالأحرف الكبيرة والبادئات واللواحق. بالإضافة إلى هذه الميزات القياسية ، قمنا باستخراج المزيد من الميزات من ناتج المحلل النحوي لكل جملة. تم تحديد معلمات جزء محدد الكلام من مجموعة أدوات RASP لإنشاء علامات POS متعددة لكل رمز مميز من أجل التخفيف من أخطاء الرمز غير المرئي. استخدم المحلل اللغوي هذه التسلسلات من علامات POS لإنشاء تحليلات لكل جملة. يكون ناتجها في شكل علاقات نحوية (GRs) ، والتي تحدد الروابط بين الرموز المميزة في الجملة وفقًا للمحلل النحوي ويتم ترميزها في XML. من هذا الإخراج ، يتم استخراج الميزات التالية (إن أمكن) لكل رمز مميز:

• lemma وعلامة (علامات) POS المرتبطة بالرمز المميز.

• lemmas للرمزين السابقين والرمزين التاليين.

• ليمات الأفعال التي يخضع لها هذا الرمز المميز.

• lemmas من الأفعال التي هذا الرمز هو مفعول به lemmas للأسماء التي يعمل هذا الرمز كمعدّل لها.

• lemmas لمعدلات هذا الرمز المميز.

تسمح إضافة الميزات من ناتج المحلل النحوي بدمج ميزات من سياق أوسع من الرمزين المميزين قبل وبعد التقاطهما بواسطة lemmas ، حيث يمكن لـ GRs ربط الرموز المميزة داخل جملة بشكل مستقل عن قربها. كما أنها تؤدي إلى ميزات أكثر تحديدًا ، حيث يتم تحديد العلاقة بين رمزين مميزين.

يجب الإشارة إلى أن التحليل النحوي مهمة معقدة ، وبالتالي من المحتمل أن يؤدي استخراج الميزة في مخرجاتها إلى حدوث بعض الضوضاء. المحلل النحوي RASP مستقل عن المجال ولكن تم تطويره باستخدام بيانات من مجموعات اللغة الإنجليزية العامة بشكل أساسي ، لذلك من المحتمل ألا يعمل بشكل جيد في المجال الطبي الحيوي. ومع ذلك ، تشير نتائج النظام في مهمة BioCreative II GM إلى أن استخدام ميزات التحليل النحوي يحسن الأداء من 0.7968 إلى 0.8284.

التقديم في المرتبة 10 (William A Baumgartner Jr و Lawrence Hunter)

ركز نظام مركز علم الأدوية الحاسوبية للمهمة المعدلة وراثيًا لعام 2006 [30] على الأساليب البسيطة للجمع بين مخرجات أنظمة تحديد ذكر الجينات المتعددة (محددات الجينات). استخدمنا اثنين من علامات الجينات المتاحة للجمهور ، ووسم الجينات الذي تم تطويره داخليًا لمهمة BioCreative GM الافتتاحية.

تم استخدام استراتيجيتين عامتين للجمع بين ناتج علامة الجينات لاختبار فرضيتين مختلفتين. افترضت فرضيتنا الأولى ، `` فرضية الإجماع '' ، أن تصفية مخرجات أنظمة تحديد الجينات المتعددة من خلال طلب موافقة نظامين أو أكثر من الأنظمة الفردية سيؤدي إلى مقياس دقة إجمالي أكبر من أو يساوي أعلى مقياس دقة لـ أنظمة فردية. فرضيتنا الثانية ، "فرضية الجمع" ، افترضت أن الجمع بين مخرجات أنظمة تحديد ذكر الجينات المتعددة سيؤدي إلى قياس استدعاء إجمالي أكبر من أو يساوي أعلى مقياس استدعاء للأنظمة الفردية.

قمنا بتطبيق طريقتين للجمع بين مخرجات علامات الجينات المتعددة لاختبار هذه الفرضيات. لاختبار فرضية الإجماع ، قمنا ببناء مرشح قائم على الإجماع مع عتبات متغيرة لتحديد الإجماع. ينفذ هذا المرشح نظام تصويت بسيط حيث يتم منح كل علامة تصويت تصويتًا متساويًا. ثم قمنا بتغيير عتبة الإجماع من ثلاثة (يوافق جميع العلامات) إلى اثنين (يتفق اثنان من العلامات الثلاثة). إذا جمع ذكر جيني معين الحد الأدنى المطلوب من الأصوات ، فسيتم الاحتفاظ به. إذا لم يتم استيفاء العتبة ، فلن يتم إرجاع ذكر الجين. من خلال الجمع بين أصوات ثلاثة علامات تم إظهار كل منها على حدة للحصول على أداء تنافسي ، توقعنا أن يؤدي نهج الإجماع إلى ارتفاع في الدقة الكلية للنظام التجميعي ، دون تقليل الاستدعاء بشكل كبير.

لاختبار فرضية الدمج ، قمنا بتطبيق مرشح يحافظ على جميع الإشارات الجينية التي تم تصنيفها بواسطة علامات التمييز الفردية. على عكس مرشح الإجماع ، يحاول هذا المرشح التعامل مع قضايا الحدود المختلفة في مخرجات أدوات التمييز الفردية. عندما يتم العثور على جينين متداخلين ، يحافظ المرشح على ذكر الجين الأطول ويتجاهل الآخر. قد يكون البديل هو الاحتفاظ بالإشارة الأقصر بعد أن لاحظت أن أنظمة BioCreative I مهمة 1A [3] (للتعرف على الجينات) التي اتخذت خطوات لتوسيع حدود الأسماء متعددة الكلمات يمينًا ويسارًا استفادت من القيام بذلك ، اخترنا الحفاظ على فترة أطول فترة. من خلال الاحتفاظ بجميع الإشارات الجينية ، توقعنا زيادة استدعاء النظام ، ومع ذلك ، توقعنا أيضًا أن تتأثر دقة النظام ، حيث من المحتمل أن يتم إرجاع المزيد من الإيجابيات الخاطئة.

عند تقييمها مقابل بيانات اختبار مهمة GM لعام 2006 ، كانت النتائج متوافقة مع كلا الفرضيتين. لوحظت طرق التصفية الإجماعية لرفع الدقة على أي من علامات الجينات الفردية. يتصرف المرشح المتداخل أيضًا كما هو متوقع ، من خلال زيادة مقياس الاسترجاع الكلي للنظام التجميعي ، مع نتيجة خسارة ملحوظة في الدقة. تظل مسألة العدد الأمثل لأنظمة NER لاستخدامها في هذا النهج دون تحقيق. ومع ذلك ، تشير النتائج التي توصلنا إليها إلى أن ما لا يقل عن ثلاثة أنظمة كافية لتجهيز نظام تحديد الجينات إما من أجل زيادة الدقة أو زيادة الاسترجاع إلى الحد الأقصى ، وبالتالي ستمكن المستخدم من ضبط النظام للمهمة المطروحة.

تقديم المرتبة 11 (بوب كاربنتر)

قدم Alias-i نظامين يعتمدان على برنامج معالجة اللغة الطبيعية LingPipe [31] ، وهو أول أفضل نظام وآخر قائم على الثقة. استخدم كلا التقديمين LingPipe خارج الصندوق دون أي ضبط للمعلمات الخاصة بالمجال أو الموارد الخارجية.

يستند كلا التقديمين إلى HMM أساسي من الدرجة الأولى مع الانبعاثات على غرار نماذج لغة الأحرف المبطنة. يتم ترميز مشكلة التقسيم باستخدام علامات البداية / الوسط / النهاية / الكاملة للرموز المميزة في الإشارات الجينية وتلك التي لم يرد ذكرها في الجينات ، مما ينتج عنه ترميز سياق ضمني من الدرجة الثانية. على سبيل المثال:

[BOS] p53 / W-Gn ينظم / WO human / B-Gn insulin / M-Gn- / M-Gn like / M-Gn Growth / M-Gn factor / M-gn II / E-Gn gene / BO / MO من خلال / MO نشط / مروج EO P4 / B-Gn / E-Gn in / BO rhabdomyosarcoma / خلايا MO / MO. / EO [EOS].

على سبيل المثال ، وضع علامة على "الجين" على أنه B-O يعني أنه تم إنشاؤه من توزيع الكلمات الأولى بعد اسم الجين. يعتمد الاستدلال في النظام المعتمد على الثقة على تعميم خوارزمية الأمام والخلف لـ HMMs المستخدمة بشكل شائع في اكتشاف عبارة التعرف على الكلام ، فهي تستخدم التقديرات الأمامية والخلفية لحدود القطعة جنبًا إلى جنب مع احتمالات الانبعاث والانتقال للجزء داخليًا.

يعمل استخراج الجينات القائم على الثقة ، بما في ذلك اكتشاف الجملة والمدخلات / المخرجات بمعدل 330،000 حرف / ثانية على سطح مكتب متواضع ، مما يسمح بتحليل جميع عناوين وملخصات MEDLINE في غضون 8 ساعات. كانت نقاط تشغيل الاستدعاء / الدقة للاسترجاع العالي هي 0.95 استدعاء بدقة 0.18 ، واسترجاع 0.99 بدقة 0.11 ، واسترجاع 0.9999 بدقة 0.07.

تضمنت عمليات التقديم الأولى لدينا عملية إنقاذ ن- إخراج تسلسل أفضل من وحدة فك ترميز HMM (Viterbi للأمام ، بالضبط A * للخلف). كان نموذج الإنقاذ أيضًا إنتاجيًا ، حيث أنتج مسافات كاملة مع انتقالات حدية مشفرة كنماذج لغة شخصية. يتم توفير التفاصيل الكاملة لنموذج الإنقاذ HMM الخاص بـ LingPipe في [32]. الإنقاذ ن- أفضل ناتج أبطأ بكثير من الاستخراج الجيني المعتمد على الثقة ، ويتطلب 1 / 10،000 إضافية من الثانية لكل حرف لإعادة تحديد 100 ناتج أفضل.

التقديم في المرتبة 12 (ريتشارد تزونغ هان تساي وهونغ جي داي)

يصوغ نظام IASL الخاص بنا ، NERBio ، مهمة GM كمشكلة وضع علامات على أساس الشخصية ويستخدم CRFs لحلها. لهذه الصيغة ، تم تحويل كل جملة مشروحة إلى تنسيق IOB2. يتم استخدام سبعة أنواع من الميزات: كلمة ، قوس ، إملاء ، جزء من الكلام ، ملصق ، حرف-ن-الجرام والمعجم. يعالج NERBio ثلاثة تحديات في مهمة GM: الاستخدام المفرط للذاكرة عند استخدام اقتران الميزات ، والكلمات غير المعروفة المفرطة ، والاعتماد على المسافات الطويلة بين العلامات.

أولاً ، يمكن لـ NERBio العثور على المجموعة الأكثر فاعلية من اقترانات الميزات ، وبالتالي الاستفادة بشكل أفضل من ذاكرة النظام. تبدأ عملية التحديد بمجموعتين من الميزات: التجمع الأساسي ، الذي يحتوي على جميع الميزات الفردية ومجمع اقترانات الميزات ، الذي يحتوي على جميع اقترانات الميزات الممكنة. تقوم خوارزمية التحديد الأمامي التسلسلي بعد ذلك بمقارنة جميع اقترانات الميزات الممكنة ، وتختار الأفضل ، وتنقلها من مجموعة اقترانات الميزات إلى التجمع الأساسي. في كل تكرار لاحق ، يكرر هذه العملية ، ويختار ويحرك ميزة أعلى الدرجات بالتزامن مع التجمع الأساسي حتى تتوقف درجة F عن الزيادة.

ثانيًا ، لتقليل عدد الكلمات غير المعروفة ، يقوم NERBio بتطبيع جميع الأرقام في بيانات الاختبار والتدريب إلى واحد. هذا يبسط أسماء الجينات التي تختلف فقط في أجزائها العددية. على سبيل المثال ، سيتم تطبيع كل من إنترلوكين 2 وإنترلوكين 3 إلى إنترلوكين 1. أخيرًا ، يتبع نموذج CRF افتراض ماركوف بأن العلامة الحالية تعتمد فقط على العلامة السابقة. ومع ذلك ، هناك العديد من الاستثناءات في مهمة GM. قد يعتمد GM على GM السابق أو التالي ، أو الكلمات بين هؤلاء GMs. لا يمكن لـ CRFs تحديد هذه التبعية لأن لديهم فقط حق الوصول إلى المعلومات في إطار سياق محدود. قد تفشل CRFs إذا كانت هناك تبعيات خارج هذه النافذة. للتغلب على هذه المشكلة ، نقوم بمعالجة النص لاحقًا باستخدام الأنماط العامة المكونة من علامات GM والكلمات المحيطة.

يستمر إنشاء الأنماط على النحو التالي لكل زوج من الجمل المتشابهة في مجموعة التدريب ، ونطبق خوارزمية المحاذاة المحلية لـ Smith-Waterman للعثور على أطول سلسلة مشتركة. أثناء عملية المحاذاة ، لكل موضع ، يمكن حساب أي من المدخلات التي تشترك في نفس الكلمة أو GM كمطابقة. وظيفة التشابه المستخدمة في خوارزمية Smith-Waterman هي كما يلي:

أين x و ذ قم بالإشارة إلى أي رمزين مميزين مقارنين من جمل الإدخال الأولى والثانية ، على التوالي. عند مقارنة الجملتين الموسومتين التاليتين

تفاعلات كيميائية / O / O التي / O مثبط / O butyrylcholinesterase / B و / O تركيبات / O من / O المواد الكيميائية / O التي / O مثبط / O butyrylcholinesterase / B و / O

سيقوم نظامنا باستخراج النمط ، "منع & lt GM & GT و". يمكن العثور على مزيد من التفاصيل حول خوارزمية إنشاء النموذج في [33] و [34].

بعد استخدام الطرق الثلاثة المذكورة أعلاه ، زادت درجة F من 0.7864 إلى 0.8576 (نتائج ما بعد ورشة العمل) وانخفض عدد الميزات من 9316599 إلى 8775384. توضح هذه النتائج أن استراتيجياتنا يمكنها تحسين الأداء وزيادة قيمة ذاكرة النظام.

التقديم في المرتبة 13 (Feng Liu و Yifei Chen)

في مهمة وضع العلامات المعدلة وراثيًا في BioCreative II ، تم اقتراح وحدتي SVM ومجموعة من وحدات المعالجة اللاحقة لتكوين نظام التعرف على ذكر الجينات المكون من طبقتين [35]. اخترنا صندوق الأدوات LIBSVM http://www.csie.ntu.edu.tw/

cjlin / libsvm ، مكتبة java / C ++ للتدريب واستخدام أجهزة SVM. تم استخدام جهاز SVM واحد لكل طبقة تمييز.

طبقة التعرف الأولى هي عبارة عن نص يتم ذكره في طبقة الجينات ، والتي تأخذ النصوص الأصلية كمدخلات وتتنبأ بعلامات الإشارة الجينية. يتم تقسيم الجمل في النصوص الأصلية إلى رموز بناءً على المسافات وعلامات الترقيم. بعد الترميز ، نستخدم تمثيل BIO لتقسيم الجينات المذكورة في بيانات التدريب والاختبار. ثم يتم استخراج الرمز المميز ، والتهجئة ، ونقاط البيع ، والبادئة ، واللاحقة ، والمطابقة المغلقة لتكوين مجموعة المعالم في هذه الطبقة. يتم استخدام علامة MedPost [36] للحصول على علامات نقاط البيع الخاصة بالمجال من الرموز المميزة. في الطبقة الأولى ، قمنا ببناء معجم ذكر جيني مغلق من خلال جمع كل المصطلحات الموضحة كما هو مذكور في الجينات في بيانات التدريب. يتم توفير رموز أحادية وثنائية وثلاثية جرام تبدأ من الرمز المميز الحالي لمطابقة إدخالات المعجم باستخدام استراتيجيات مطابقة صارمة وجزئية على التوالي. أيضًا ، يتم استخدام نتائج المطابقة كميزات للرمز المميز الحالي. بعد التدريب والتنبؤ ، تقدم الطبقة الأولى علامات الإشارة الجينية الأولية لنصوص الإدخال.

طبقة التعرف الثانية هي إشارة جينية لطبقة ذكر الجينات ، والتي تأخذ علامات ذكر الجينات المتوقعة من الطبقة الأولى كمدخلات ومخرجات العلامات النهائية. في هذه الطبقة ، الميزة الوحيدة المستخرجة للرمز المميز الحالي هي تسمية الفئة المتوقعة من الطبقة السابقة. تتمثل المساهمة الرئيسية للطبقة الثانية في تحديد وتصحيح بعض أخطاء الحدود والاستمرارية التي ارتكبتها الطبقة الأولى تلقائيًا.

تستخدم كلتا الطبقتين إستراتيجية نافذة منزلقة لتقديم المعرفة المجاورة للرمز المميز الحالي. وفقًا للتأثيرات المختلفة التي تعطيها الرموز المميزة المحيطة للرمز المميز الحالي ، يمكن تحديد أحجام النوافذ على التوالي للطبقات المختلفة.

من أجل تحسين الأداء بشكل أكبر ، قمنا بتطوير مجموعة من وحدات المعالجة اللاحقة. يمكن لوحدة دقة الاختصارات استرداد الأخطاء الناتجة عن تعيين الاختصارات بشكل غير صحيح إلى أشكالها الكاملة. يمكن لوحدة فحص الحدود استرداد أخطاء الحدود الناتجة عن إستراتيجية الترميز لدينا وتمثيل BIO. تستخدم وحدة صقل الاسم بعض القواعد لتحسين الإشارات الجينية المعترف بها عن طريق إزالة التكرار وعدم الاتساق.

يحقق نظامنا الناتج دقة عالية إلى حد ما تبلغ 0.8883 ، والتي استفادت من طبقة التعرف الثانية ووحدات المعالجة اللاحقة. ومع ذلك ، فإن مطابقة المعجم المغلقة لدينا تؤدي إلى استدعاء منخفض قدره 0.6970. والسبب هو أن معجمنا المغلق مبني فقط على أساس بيانات التدريب ، مما يجعل نظامنا يفتقر إلى القدرة التعميمية الجيدة. بعد المنافسة ، قمنا بتحسين نظامنا من خلال إصلاح المعجم المغلق للتخفيف من هذا القيد. باستخدام استراتيجية المطابقة الجزئية ، يمكن أن يزيد المعجم المعدل درجة F للنظام فوق 0.85 [37]. في الختام ، من المهم لنظام التعرف لدينا بناء معجم مناسب.

التقديم في المرتبة 14 (Chengjie Sun)

يمكن اعتبار مهمة GM كمشكلة تسمية تسلسل [38]. من الناحية العملية ، نعتبر كل كلمة في الجملة بمثابة رمز وكل رمز مرتبط بعلامة. تشير كل تسمية ذات شكل B-C أو I-C أو O ليس فقط إلى فئة اسم الجين ولكن أيضًا إلى موقع الرمز المميز داخل الاسم. في دلالة التسمية هذه ، C هي تسمية الفئة ، و B و I هي تسميات موقع ، تمثل بداية الاسم وداخل الاسم. يشير O إلى أن الرمز المميز ليس جزءًا من الاسم. بالنسبة للمهمة المعدلة وراثيًا ، توجد فئة واحدة فقط ، لذلك لدينا ثلاث تسميات إجمالاً: جين B ، وجين I ، و O.

في نظامنا ، نستخدم نموذج CRF ، وهو نموذج تمييزي ومناسب جدًا لمشكلة وضع العلامات على التسلسل ، لحل مهمة GM. الميزات حيوية لأداء النظام. تشمل أنواع الميزات لدينا ميزات إملائية وميزات السياق وميزات شكل الكلمة وميزات البادئة واللاحقة وجزء من ميزات الكلام والميزات النحوية الضحلة. يتم الحصول على علامات نقاط البيع والعلامات النحوية الضحلة (القطع) باستخدام أداة تمييز GENIA. وجدنا أن ميزات المجموعة يمكنها تحسين أداء النظام بشكل كبير في التجارب في مجموعة بيانات JNLPBA2004 http://www-tsujii.is.s.u-tokyo.ac.jp/GENIA/ERtask/report.html.

نستخدم أداة CRF في مجموعة أدوات MALLET لتدريب النموذج على بيانات التدريب المقدمة. لا توجد موارد أو بيانات أخرى متضمنة. قدمنا ​​عمليتي تشغيل لمهمة GM في BioCreative II. الفرق بينهما هو أن run2 يستخدم الرموز المميزة المشتقة بينما يستخدم run1 الرموز المميزة الأولية. ولدهشتنا ، وجدنا أن الاشتقاق غير مفيد في مهمة جنرال موتورز. يمكن مقارنة أداء نظامنا بما حصلنا عليه من بيانات اختبار JNLPBA2004 ، ولكن الأداء منخفض نسبيًا في BioCreative II. ربما يكون هذا بسبب الاختلاف بين المجموعتين. أيضًا ، لا يتضمن نظامنا موارد طبية حيوية مثل القاموس أو علم الوجود ، مما قد يؤدي أيضًا إلى تقليل أداء النظام.

التقديم في المرتبة 15 (صوفيا كاترينكو وبيتر أدريان)

ركز فريقنا على تطبيق تقنيات شبه خاضعة للإشراف لاستخراج الإشارات الجينية من ملخصات Medline [39]. حظيت الأساليب شبه الخاضعة للإشراف باهتمام كبير مؤخرًا واستخدمت في مهام تصنيف مختلفة. في بعض الحالات تم تطبيق هذه الأساليب بنجاح في حالات أخرى لم تحسن الأداء مقارنة بالطرق الخاضعة للإشراف. نظرًا لأنه من السهل نسبيًا أخذ عينات من البيانات النصية من مجموعة Medline ، فقد قررنا دراسة تأثير الأساليب شبه الخاضعة للإشراف على مهمة GM. من خلال القيام بذلك ، اقتصرنا على طريقتين ، التدريب الذاتي ، والتدريب المشترك.

لإجراء التجارب ، اخترنا CRF كطريقة تعليمية أثبتت أنها توفر أحدث النتائج لمهام التعرف على الكيانات المسماة. تتألف مجموعة الميزات التي استخدمناها من السمات الإملائية (الأرقام والأحرف الكبيرة وما إلى ذلك) والميزات السياقية (حجم السياق مضبوط على ± 2). أجرينا تجارب باستخدام عينات بيانات مختلفة من مجموعة Medline وقررنا استخدام مجموعة بيانات BioNLP http://www-tsujii.is.s.u-tokyo.ac.jp/GENIA كبيانات غير مسماة في تجاربنا النهائية. قمنا بتقسيم مجموعة التدريب الأولي إلى قسمين ، حيث تم استخدام 9000 جملة للتدريب و 6000 جملة للتحقق. تم ترميز جميع الجمل ولكن لم يتم وضع علامة POS عليها. لم نستخدم أي موارد خارجية أخرى ، مثل المعاجم أو قواعد البيانات التي تحتوي على الجينات والبروتينات.

للتحقيق في التدريب الذاتي بمزيد من التفصيل ، أجرينا تجارب أولية على المجموعة الفرعية من مجموعة Genia المستخدمة في مهمة BioNLP المشتركة (2000 ملخص MEDLINE مشروح). تشير نتائجنا إلى أن إضافة البيانات غير المسماة إما لا يغير الأداء بشكل كبير أو يساهم بشكل أساسي في الاسترجاع. كان أفضل تحسين تلقيناه هو فئة البروتين التي كانت بمثابة دافع لتطبيق التدريب الذاتي على مجموعة بيانات BioCreative II. يحتوي التشغيل الذي قدمناه على الإعدادات التالية: عدد التكرارات يساوي 5 ، وعدد المثيلات المضافة في كل تكرار هو 100 ، ويتم استخدام 1000 جملة MEDLINE من مجموعة GENIA كمصدر للبيانات غير المسماة. تم دائمًا أخذ عينات من الأمثلة المصنفة من مجموعة بيانات التدريب المقدمة من قبل منظمي BioCreative II. في كل تكرار ، تتم إضافة التوقعات الأكثر ثقة فقط. في هذا الإعداد ، تكون الدقة أعلى بكثير من الاسترجاع (0.8228 مقابل 0.7108) ودرجة F تساوي 0.7627. ومن المثير للاهتمام ، أن تقليل البيانات المصنفة لا يؤثر بشكل كبير على الدقة (في جميع التجارب كان حوالي 0.80). في المقابل ، يمكن تعزيز الاستدعاء إما عن طريق إضافة المزيد من الأمثلة المصنفة أو باستخدام مجموعة أكبر بكثير من الحالات غير المسماة.

طريقة أخرى اكتشفناها هي التدريب المشترك. الافتراض الرئيسي وراء هذه الطريقة هو أنه يتم تدريب اثنين من المصنفات باستخدام عرضين مختلفين (لكن متوافقين) ، وهما مستقلان عن تسميات الفصل. في إعداد التدريب المشترك ، تم تعيين عدد التكرارات إلى 6. والمثير للدهشة أن التدريب الذاتي تفوق على التدريب المشترك (انخفضت درجة F إلى 0.7174). لقد أثبت كروجل وشيفر [40] أن التدريب المشترك مفيد إذا كان مقياس التبعية Φ 2 للمصنفين أقل من 10٪. في حالتنا ، Φ 2 = 21٪ ، وهو ما قد يفسر لماذا يؤدي استخدام التدريب المشترك إلى أداء أعلى قليلاً فقط.

تقديم المرتبة 16 (رافائيل توريس وكريستيان بلاشك)

يُميِّز TextDetective [41] بين التعليقات التوضيحية الوظيفية (الاسم الكامل الذي يصف وظيفة الجين / البروتين ، على سبيل المثال "مستقبل إفراز هرمون الثيروتروبين") والرموز (عادةً ما يكون اختصارًا يستخدم كاسم ، مثل TRHR). في حالة التعليقات التوضيحية ، تعتبر الصيغ اللغوية للكلمات ودلالاتها دالة للغاية. بالنسبة للرموز ، نظرًا لأن الجوانب المعجمية غالبًا ما تكون غير ذات صلة ، يستخدم النظام المعلومات السياقية (الكلمات المجاورة المرتبطة بالجينات والبروتينات) لاكتشاف أسماء الجينات.

يستخدم النظام القواعد التي يتم إنشاؤها يدويًا في الغالب ، بالإضافة إلى المعاجم المستخرجة من مصادر متنوعة (قواعد البيانات الكيميائية أو الجينومية) ، أو التي تم الحصول عليها إحصائيًا من خلال مقارنة مجموعة الوثائق البيولوجية وغير البيولوجية (على سبيل المثال ، استخراج قوائم الكلمات التي كثيرا ما تظهر في نفس سياق أسماء الجينات).

أولاً ، يتم الكشف عن حدود الجملة ، ثم يتم تعيين الرموز المميزة لفئات معينة باستخدام القواعد والمعاجم.

• الكلمة الرئيسية: الكلمات ذات الصلة بيولوجيًا والتي تشير إلى السمات الأساسية للجينات والبروتينات ، على سبيل المثال "القناة" أو "المستقبل".

• كلمة التوقف: كلمات متكررة جدًا في المدونة.

• الموقع: على سبيل المثال ، "غشاء" و "كبد".

• النوع: الكلمات التي غالبا ما تميز بين الأسماء المتشابهة. وتشمل هذه الأرقام ومجموعات الأحرف والأرقام والأحرف اليونانية والأرقام الرومانية وما إلى ذلك. تتضمن هذه الفئة أيضًا رموز الجينات ، على سبيل المثال "TNFalpha".

• الملحق: كلمات غير مفيدة نسبيًا توجد بالقرب من أسماء الجينات ، على سبيل المثال "العائلة" و "الوحدة الفرعية".

• Bioword: كلمات أخرى ذات معنى بيولوجي.

• الفعل: قائمة الأفعال المحددة مسبقًا.

على أساس هذا الترميز ، يتم اختيار المرشحين لأسماء الجينات. على سبيل المثال ، في حالة التعليقات التوضيحية الوظيفية ، يجب أن يحتوي تسلسل الكلمات على "كلمة رئيسية" واحدة على الأقل. تتشكل الرموز المحتملة فقط من خلال "الأنواع".

بالنسبة لرموز الجينات ، يتم تقييم كل من السياق المحلي (الكلمات حول رمز محتمل) والسياق العالمي (مع الأخذ في الاعتبار جميع تكرارات الرمز في MEDLINE). يستخدم السياق المحلي نموذجًا عامًا يميز الجينات عن غير الجينات. في السياق العام ، يتم إنشاء نموذج محدد لكل رمز محتمل يعكس مدى تكرار استخدام رمز للإشارة إلى الجينات أو إلى أنواع أخرى من الكيانات. هذا يسمح لنا بتقدير مخاطر وضع علامة على رمز كجين. ينطوي تخصيص الرموز ، مثل SCT ، لجين (سيكريتين) على مخاطر عالية لكونه غير صحيح بسبب غموض المصطلح (يمكن أيضًا أن يعني ، من بين أمور أخرى ، "زرع الخلايا الجذعية") ، في حين أن البعض الآخر ، مثل CYP11B2 ، لديها مخاطر أقل بكثير.

فيما يلي أهم المعلمات التي تتحكم في المفاضلة بين الدقة والاسترجاع:

• الأهمية المعطاة لعامل الخطر. ستؤدي زيادة هذه القيمة إلى تحسين الدقة لأنه يتم رفض المزيد من الرموز الغامضة. إذا انخفضت القيمة ، فستكون الأولوية للاسترجاع.

• عدد الكلمات التي يتم تحليلها في سياق رمز الجين. عندما تكون هذه "النافذة" كبيرة ، يزداد التذكر لأن الكلمات البعيدة عن الاسم ستؤخذ في الاعتبار ومن المرجح العثور على الكلمات الجيدة. ستكون الدقة أعلى عندما تكون هذه النافذة صغيرة.

تقديم المرتبة 17 (ماريانا نيفيس)

يستخدم النظام الذي تم تطويره [42] أسس الاستدلال على أساس الحالة حيث يتم في الخطوة الأولى تخزين الحالات في قاعدة بيانات لاستخدامها بشكل أكبر في تصنيف حالة جديدة. يجب أن يبحث النظام في الأساس عن الحالة الأكثر تشابهًا مع المشكلة ويتم تقديم القرار من خلال فئة الحالة المختارة على أنها الأكثر تشابهًا.

تتكون قاعدة الحالة المعروفة من كلمات (الجينات مذكورة أم لا) موجودة في وثائق التدريب وتتمثل وظيفتها في تصنيف هذه الكلمات المعروفة عند ظهورها في المستندات الجديدة. ومن سمات الحالات المعروفة ما يلي: الكلمة نفسها سواء كانت ذكرًا جينيًا أم لا ، سواء كانت الكلمة السابقة ذكرًا جينيًا أم لا ، وتكرار الحالة ، وعدد المرات التي ظهرت فيها الصفات الثلاث الأخرى مع نفس القيم في مجموعة التدريب بأكملها (الحالات فريدة).

تتكون قاعدة الحالة غير المعروفة من تنسيق الكلمات (الجينات مذكورة أم لا) ، وليس من الكلمات نفسها لأن وظيفتها هي تصنيف الكلمات غير المعروفة للنظام والتي قد تظهر في مستند جديد. وخصائص الحالات المجهولة هي كالتالي: شكل الكلمة سواء كانت ذكرًا جينيًا أم لا ، سواء كانت الكلمة السابقة ذكرًا جينيًا أم لا ، وتكرار الحالة ، عدد المرات التي ظهرت بها الصفات الثلاث الأخرى نفس القيم في مجموعة التدريب بأكملها.

أما بالنسبة للسمة الأولى للتنسيق ، فقد تم تحويل كل كلمة إلى سلسلة من الرموز (الحروف) حسب خصائصها. الكلمات أو أجزاء الكلمات الكاملة الموجودة في المعجم البيولوجي ("بروتين" ، "جين" ، "محفز") يتم استبدالها بالرمز W ، الأحرف اليونانية ("alpha" ، "gamma") بواسطة G ، اللواحق الخاصة ( "ase" ، "ine") بواسطة S ، والأحرف الكبيرة بـ M ، والأرقام بواسطة N ، والأحرف الصغيرة من L ، والرموز المتبقية يتم الاحتفاظ بها بالتنسيق الأصلي.

بالنسبة لخطوة التصنيف ، لكل كلمة في مجموعة الاختبار ، يتحقق النظام أولاً من وجودها في قاعدة الحالة المعروفة. يبحث النظام مبدئيًا عن حالة تكون فيها الكلمة موجودة ولكن أيضًا فئة الكلمة السابقة هي نفسها ، وذلك لتحديد الحالة الأكثر تشابهًا مع الموقف. إذا تم العثور على أكثر من حالة واحدة ، فسيتم تحديد الحالة ذات التردد الأعلى وفئتها هي الإجابة النهائية للنظام على الكلمة. إذا لم يتم العثور على حالة بالضبط ، يبحث النظام عن حالة بالفئة المقابلة للكلمة السابقة. إذا تعذر العثور على كلمة في قاعدة الحالة المعروفة ، فسيتم إجراء بحث في قاعدة الحالة غير المعروفة. ثم يتم تحويل الكلمة إلى تسلسل الرموز التي تمثل تنسيقها ويكون إجراء البحث مشابهًا لتلك الموصوفة للحالات المعروفة.

التقديم في المرتبة 18 (بريسلاف ناكوف وآنا ديفولي)

بالنسبة إلى BioCreative II [43] ، استخدمنا نسخة موسعة من أداة التعرف على الجينات الداخلية الخاصة بنا وتطبيعها ، والتي تم تطويرها في الأصل من أجل TREC 2003 Genomics Track [44]. لمشاركتنا في مهمة GM ، قمنا بتنزيل أحدث إصدار من EntrezGene واستخرجنا المعرفات والحقول المقابلة التي من المحتمل أن تحتوي على أشكال مختلفة من أسماء الجينات ، على سبيل المثال الاسم والاسم الرسمي والرمز الرسمي والاسم المستعار والوصف. اقتصر معجم الأدوات على هذه الأسماء ، والتي تمت تصفيتها بشكل أكبر باستخدام WordNet لإزالة الكلمات الشائعة مثل "أو" و "وما إلى ذلك ، والتي يمكن أن تكون أيضًا أسماء جينية.

تم تطبيق مجموعة من قواعد التسوية والتوسيع للسماح ببعض الاختلافات في الشكل ، بما في ذلك إعادة ترتيب الرمز المميز وكذلك إزالة المسافات البيضاء والفواصل والأقواس والأرقام. تم إنشاء جميع عمليات التطبيع والتوسعات الممكنة لجميع أسماء الجينات / البروتينات EntrezGene المعروفة ومرادفاتها خارج الخط ثم تمت مطابقتها مع نسخة طبيعية من نص الإدخال ، مع إعطاء الأولوية للمطابقات الأطول. ثم تمت إعادة تعيين المطابقات إلى النص الأصلي ، وتم تعيين المعرفات المقابلة.

لقد قمنا بفصل واضح بين قواعد التطبيع والتوسع ، وقسمنا الأخيرة إلى مجموعتين فرعيتين - قواعد قوية وقواعد ضعيفة - وفقًا لثقتنا في أن التحول الناتج يعكس الأسماء / المرادفات الأصلية. تسمح القواعد القوية بإجراء تغييرات طفيفة فقط ، على سبيل المثال:

• إزالة المساحة البيضاء (على سبيل المثال ، "BCL 2" → "BCL2").

• إزالة الأحرف غير الأبجدية الرقمية (على سبيل المثال ، "BCL-2" → "BCL2").

• تسلسل الأرقام بالرمز المميز السابق (على سبيل المثال ، "BCL 2" → "BCL2").

القواعد الضعيفة تزيل رمزًا أبجديًا رقميًا واحدًا على الأقل من السلسلة. من الأمثلة على القواعد الضعيفة إزالة الأرقام اللاحقة ، مثل "BCL 2" → "BCL". كمثال آخر ، فإن معالجة "/" على أنها انفصال ينتج سلسلتين جديدتين على سبيل المثال ، "أسبارتيل / أسباراجينيل بيتا هيدروكسيلاز" ← "أسبارتيل بيتا هيدروكسيلاز" أو "أسباراجينيل بيتا هيدروكسيلاز". هناك قاعدة ضعيفة أخرى تتعامل مع التعبيرات بين الأقواس ، وتزيل النص قبل الأقواس وداخلها و / أو بعدها. على سبيل المثال ، "بروتين منشط بالميتوجين (MAP) كيناز" → "بروتين منشط بالميتوجين (MAP)" أو "بروتين كيناز منشط بالميتوجين" أو "MAP kinase" أو "بروتين منشط ميتوجين" أو "MAP" أو " كيناز.

لم تُعط هذه القواعد أي أولويات وتم تطبيقها بشكل متوازٍ ومتكرر ، في محاولة لجميع التسلسلات الممكنة. لكل متغير موسع ناتج ، سجلنا معرف جين المصدر / البروتين / المرادف وما إذا تم استخدام قاعدة ضعيفة مرة واحدة على الأقل أثناء اشتقاقها. بالنسبة لمتغير معين ، هناك عدة معرفات محتملة ، بعضها يستخدم قواعد قوية فقط والبعض الآخر يستخدم قاعدة ضعيفة واحدة على الأقل. من المفترض أن تكون المتغيرات القوية دقيقة للغاية ، في حين أن المتغيرات الضعيفة جيدة لتحسين الاسترجاع.

• تشغيل 1: لا توجد قواعد ضعيفة لا توجد مرادفات من حقل الوصف (F = 0.6015).

• تشغيل 2: لا توجد قواعد ضعيفة تستخدم مرادفات من حقل الوصف (F = 0.6229).

• تشغيل 3: يستخدم قواعد ضعيفة يستخدم مرادفات من حقل الوصف (F = 0.6036).

غالبًا ما يحتوي حقل الوصف في EntrezGene على مرادفات جينية / بروتينية إضافية ، ولكن يمكن أن يحتوي على أشياء أخرى أيضًا ، مثل المواد الكيميائية وأسماء الكائنات الحية وما إلى ذلك. لذلك ، فهو مصدر جيد لتحسين الاستدعاء على حساب الدقة.

التقديم في المرتبة 19 (مانويل مانيا وجاسينتو ماتا)

يمكننا التمييز بين ثلاث مراحل مختلفة في دورة حياة نظام تصنيف النص: فهرسة المستندات ، وتعلم المصنف ، وتقييم المصنف [45]. يوجد عدد من مكتبات البرامج التي تقدم الدعم لأحدث المراحل. ومع ذلك ، غالبًا ما يتم التعامل مع فهرسة المستندات بتنسيق مخصصة موضه. علاوة على ذلك ، نعتقد أن الإطار مطلوب لفهم قيمة عناصر التمثيل المحتملة (السمات) بشكل أفضل ، ليس فقط في تصنيف النص ولكن ، بشكل عام ، في جميع مهام تصنيف النص [46].

عند حساب سمة معينة بمثيل تدريب ، يجب مراعاة بعض المعايير المتعلقة بمجموعة الأمثلة التي يجب معالجتها للحصول على قيمة سمة لمثال واحد. نقترح الأنواع التالية:

• جوهري. عند حساب سمة لمثال معين ، يتم استخدام المعلومات من هذا المثال فقط. على سبيل المثال ، طول النص في تصنيف النص.

• سياقية خارجية. يتم الحصول على المعلومات المستخدمة من المثال المعالج ، ولكن أيضًا من الأمثلة الأخرى التي لها علاقة قوية به. على سبيل المثال ، ورود كلمة في نص مقتبس من النص الحالي.

• خارجي عالمي. تأتي المعلومات من جميع الأمثلة الموجودة في المجموعة. على سبيل المثال ، حدوث كلمة في بقية النصوص المدرجة في المجموعة.

هدفنا هو بناء إطار عمل نظري ومكتبة برمجيات ، JTLib ، والتي يجب أن تشغل جزءًا من عملية فهرسة المستندات ، وتحديداً تعيين مستند إلى تمثيل مضغوط.

في مهمة GM ، طبقنا عملية بسيطة لبناء المصنف ، بهدف الحصول على إصدار عمل أول بجهد منخفض ، ثم التركيز على تحليل السمات. خلال الجزء الأول من هذه العملية (الحصول على نسخة العمل) ، استخدمنا مكتبة JTLib وحزمة WEKA [11] للمراحل التالية:

• فهرسة الوثيقة. استخدمنا JTLib لتطوير تطبيق يقوم بمعالجة بيانات التدريب للحصول على تمثيل بناءً على السمات المحددة وتم تكوينه في تنسيق إدخال WEKA (ARFF).

• تخفيض الأبعاد. بمجرد إنشاء ملف ARFF السابق ، استخدمنا WEKA لمعالجته بهدف العثور على السمات مع الحصول على أفضل المعلومات. استخدمنا 28 سمة لتمييز كل حالة. تقوم القائمة التالية بجمع ترتيب السمات الأكثر صلة التي تم الحصول عليها من تطبيق كسب المعلومات: متكرركلمات متكررة كما نرى في هذه القائمة ، فإن معظم السمات خارجية أو خارجية عامة وسياقية ، واثنتان منها فقط (الأحرف والأرقام والواصلة) جوهرية.

• التعلم المصنف. باستخدام WEKA ، أنشأنا مجموعة من النماذج باستخدام خوارزميات مختلفة للتعلم الآلي. من خلال هذه المصنفات ، حققت شجرة القرار C4.5 أفضل النتائج. تتيح خوارزمية C4.5 للفرد أن يصنع شجرة مشذبة في وقت مخفض مع زيادة معدل الخطأ. قمنا ببناء مصنفين ، كلاهما مشذب وغير مشذب.

• تقييم مصنفات النص. يحقق C4.5 غير المحدود تحسنًا طفيفًا في درجة F مقارنةً بـ C4.5 المشذبة. ومع ذلك ، فإن الوقت اللازم لبناء نموذج النسخة المشذبة هو 22٪ من الوقت الذي تتطلبه النسخة غير المشذبة. وقت تصنيف الخوارزمية المشذبة هو أيضًا أقل بكثير ، حيث يمثل 6 ٪ من الوقت الذي تستخدمه C4.5 بدون ضبط.

الأداء المشترك

نرغب في معرفة ما إذا كان من الممكن تحسين النتائج التي تم الحصول عليها في هذه الورشة. للقيام بذلك ، استخدمنا التعلم الآلي للتنبؤ بإشارات الجينات باستخدام جميع عمليات التشغيل المقدمة كبيانات ميزة.

لمحاكاة ما قد ينتج إذا تم دمج جميع الطرق في نظام واحد ، قمنا باستخراج الميزات من عمليات التشغيل المقدمة. من خلال الاحتفاظ بـ 25 جملة في كل مرة ، والتدريب على الجمل المتبقية البالغ عددها 4975 ، يمكننا تطبيق النموذج الناتج على المجموعة الثابتة ثم دمج جميع النتائج للحصول على تشغيل "دمج" واحد لجميع الجمل البالغ عددها 5000 جملة.

لكل مرشح ، والذي تم تحديده من خلال إزاحة بداية ونهاية معينة داخل جملة ، تم إنشاء الميزات الموضحة في الجدول 2. استخدمنا تقنيتين مختلفتين للتعلم الآلي مع بيانات الميزة هذه ، وأشجار القرار المعززة ، و CRFs.

بالنسبة لأشجار القرار المعززة ، تألفت مجموعة التدريب من جميع المرشحين الذين تزامنت تعويضات البداية والنهاية مع سلسلة محددة من فريق واحد على الأقل (ولكن لا يلزم أن يتم ترشيح تعويضي البداية والنهاية من قبل نفس الفريق). كان مطلوبًا أيضًا أن تتداخل كل شخصية من سمات المرشح مع سلسلة معينة من فريق واحد على الأقل. هذا يعني أن كل مرشح لديه سمة واحدة على الأقل من "الاسم" من الجدول 2. تم تمييز كل مرشح على أنه "إيجابي" اعتمادًا على ما إذا كان يظهر بالضبط كجيني أو ذكر جيني بديل ، وتم تمييز جميع المرشحين الآخرين على أنهم " نفي'. تم تطبيق خوارزمية شجرة قرار معززة [47 ، 48] على مجموعة البيانات هذه (تتضمن 25 جملة في كل مرة ، كما هو مذكور أعلاه) لتعلم تصنيف المرشحين على أنهم إيجابيون أو سلبيون. تم السماح لكل شجرة بعمق 5 وتكرار التعزيز 1000 مرة. تم تطبيق مجموعة أشجار القرار المستحثة على مجموعة مؤلفة من 25 جملة للحصول على إشارات جينية لها. عندما تتداخل ذكر الجينات ، يتم الاحتفاظ فقط بذكر الجين الحاصل على أعلى درجة ، بحيث لا تحتوي النتيجة النهائية على أي إشارات جينية متداخلة. كررنا هذا التدريب باستخدام ميزات "الاسم" فقط ، وميزات "الكلمة" و "السياق" فقط ، بالإضافة إلى استخدام جميع الميزات. النتائج موضحة في الجدول 3 ، وخصائص الترشيح مجتمعة مع الكلمات كان أداءها أفضل بدرجة F تبلغ 0.9050. نظرًا لأن هذا أكبر بـ 0.0329 من أعلى درجة F حصل عليها فريق فردي ، فإن الفرق ذو دلالة إحصائية.

استخدمنا أيضًا CRF (مع gaussian pre) لمعرفة الجينات المذكورة [49]. تم ترميز كل جملة وتم تمييز كل رمز على أنه إيجابي أو سلبي اعتمادًا على ما إذا كان جزءًا من جين مشروح (لم يتم استخدام البدائل في هذا النهج). تم إنشاء الميزات الموضحة في الجدول 2 لكل رمز مميز ، حيث يتم التعامل مع كل رمز كمرشح لأغراض إنشاء الميزات. من خلال الاحتفاظ بـ 25 جملة في كل مرة ، تم تدريب نموذج الإبلاغ الموحد على الجمل المتبقية البالغ عددها 4975 (تم اعتبار الغاوسي المحدد مسبقًا في [49] ليكون 1/2 × 2 = 300). تم بعد ذلك تطبيق نموذج CRF المدرب لوضع علامة على 25 جملة ، وتم دمج أي تسلسل من الملصقات الإيجابية المتتالية في ذكر جيني واحد. تم دمج النتائج من كل مجموعة من 25 جملة لتشكيل مجموعة واحدة. كانت النتيجة الموضحة في الجدول 3 درجة F تبلغ 0.9066. هذا أعلى قليلاً من النتيجة التي تم الحصول عليها باستخدام أشجار القرار المعززة (مع ميزات الترشيح والكلمات) ، لكن الفرق ليس ذا دلالة إحصائية.

السؤال الذي يهمنا هو ما إذا كان من الممكن استخدام التعليقات التوضيحية البديلة في التعلم الآلي لتحسين الأداء في مهمة ذكر الجينات. كانت هناك بعض الفرق التي تدربت مع بدائل ، لكن البيانات من عمليات التشغيل الفردية ليست كافية لتسوية المشكلة. بالنظر إلى أن نتيجة شجرة القرار المعززة ، التي تستخدم البدائل ، هي تقريبًا نفس نتيجة نموذج CRF ، فقد نستنتج أن التدريب مع البدائل لا يجعل المهمة أسهل كثيرًا. لذلك قمنا بالتدريب باستخدام أشجار القرار المعززة ، مع وضع علامة على المرشحين على أنهم إيجابيون فقط إذا ظهروا كتعليقات توضيحية GENE (تجاهل التعليقات التوضيحية ALTGENE). كانت النتيجة F مقدارها 0.8670 ، وهو فرق ذو دلالة إحصائية عن النتيجة 0.9050 التي تم الحصول عليها عن طريق التدريب بنفس الطريقة مع البدائل الإيجابية. ولَّد التدريب مع المناوبين إيجابيات حقيقية احتوت على 25.67٪ بدائل ، بينما أدى التدريب بدون بدلاء إلى توليد إيجابيات حقيقية تحتوي على 9.58٪ بدائل فقط.

لقد اعتقدنا أن النتائج من الفرق ذات الدرجات الأقل ، إذا تم استخدامها بشكل مناسب ، يمكن أن تسهم في معلومات مفيدة لتحديد الإشارات الجينية. لاختبار الفرضية ، تدربنا على أشجار القرار المعززة باستخدام ميزات الكلمات بالإضافة إلى جميع ميزات الترشيح من الفرق المصنفة من 1 إلى 10 فقط. أعطت النتيجة درجة F تبلغ 0.8940 ، وهي أقل بكثير من 0.9050 التي تم الحصول عليها عندما تم تضمين ميزات من الفرق ذات الرتب من 11 إلى 21 (تضمنت هذه الدراسة تقديمين من الفرق التي لم تشارك في ورشة العمل). هذا يؤكد أهمية النتائج من الفرق ذات الأداء الفردي المنخفض. نلاحظ ، على سبيل المثال ، أن الفريق الأقل تصنيفًا حصل على ثماني إيجابيات حقيقية لم يتم الحصول عليها من خلال أي جولة أخرى.


مناقشة

تعمل منصة BCMS على توحيد وتوحيد الوصول إلى المعلومات النصية المستخرجة من أنظمة IE المختلفة ، وتقديم التعليقات التوضيحية والتصنيفات في بنية متسقة. يهدف إلى توفير بروتوكول عام لتعليق النص الطبي الحيوي على المستوى الأساسي. في هذه المرحلة ، توفر المنصة واجهة لاستكشاف واستخراج بعض بيانات التعليقات التوضيحية التي تم إنشاؤها أثناء تحدي BioCreative II [7] ، أي أنواع التعليقات التوضيحية الأربعة الموضحة في قسم أنظمة التعليقات التوضيحية (أعلاه) ، لجميع التدريبات الرسمية و ملخصات مجموعة الاختبار (ما مجموعه 22804 استشهاداً من Medline ، ناقص 44 سجلاً منتهي الصلاحية في وقت كتابة هذا التقرير). تم إنشاء واجهة ويب أساسية وواجهة API لخدمة الويب. تم تطوير طبقة الاتصالات (معاملات XML-RPC) بالكامل. يمكن مزامنة النظام مع قاعدة بيانات PubMed / Medline الكاملة. يمكن الإشارة إلى أن الإعداد الأولي قد تم ، مما يسمح لنا بالتقدم إلى إصدار كامل الميزات من النظام الأساسي بمجرد قبول الحالة الحالية من قبل المجتمع.

على الرغم من أن نظام IE الموزع يبدو بسيطًا إلى حد ما ، إلا أنه يلزم حل العديد من العقبات ، مثل ما يلي.

واحدة من أكثر المشاكل وضوحا هو اتساق البيانات. تعد قاعدة بيانات PubMed مصدرًا ديناميكيًا لا تتم فيه إضافة الاستشهادات فحسب ، بل يتم تغييرها وحذفها أيضًا (راجع "مخططات التحديث Medline / PubMed" السنوية [52] ، ويؤثر هذا على عشرات الآلاف من السجلات سنويًا ويحدث بشكل يومي .

الصعوبة الأقل وضوحًا هي تشفير السلسلة.كما هو الحال مع التسلسلات البيولوجية ، عند الحديث عن المواضع والتعويضات في التسلسلات ، فإن استخدام مخططات تشفير مختلفة من شأنه أن ينتج بيانات مختلفة وخاطئة في نهاية المطاف. لذلك ، يتم فرض الاستخدام المستمر لـ Unicode.

كان لابد من إيلاء اهتمام خاص لطبقة الاتصالات ، وتحديداً بين خادم التعريف وخوادم التعليقات التوضيحية. يتم فصل هذا المكون فعليًا عن خادم التعريف ومتعدد الخيوط لضمان الاستخدام المتسق وبدون عوائق.

في هذه المرحلة ، يوفر النظام تجميعًا محدودًا للبيانات التي تم إنشاؤها خلال BioCreative II ، مما يوفر وصولاً متكاملاً إلى الأنظمة التي تنتجها بعض المجموعات المشاركة في التحدي BioCreative الثاني. تقتصر المنصة في وضعها الحالي على ما يقرب من 22800 ملخص تم استخدامها خلال BioCreative II. القصد من ذلك هو فتح النظام (على الأرجح بشكل تدريجي ، لتجنب الحمل الزائد الهائل لقوائم انتظار التعليقات التوضيحية) إلى المجموعة الكاملة من سجلات Medline ، ونحن نفكر في السماح بالتعليق التوضيحي للنص الكامل المقدم من المستخدم بعد اكتمال مرحلة النموذج الأولي. سيكون تطوير منصة يمكنها العمل بحرية على مجموعة كاملة من ملخصات Medline ذات فائدة كبيرة لمجتمع الطب الحيوي. لذلك ، فإن الخطوة التالية هي الانتقال من حالة النموذج الأولي مع مجموعة محدودة من الملخصات إلى النظام المفتوح ، حيث يمكن للمستخدمين الحصول على تصنيفات لأي استشهاد PubMed.


المواد والطرق

العينات السريرية

تم تحليل فئتين من التسلسلات: 1) HIV-NFLG: أجريت محاولات على البلازما المؤرشفة لـ 148 مشاركًا مدرجين في مجموعة InfCare السويدية لفيروس نقص المناعة البشرية ، والتي تم رسمها على مدار 22 عامًا (1993 إلى 2016) (الجدول 1). تم الإبلاغ عن ما إذا كان انتقال العدوى قد حدث داخل السويد أو خارجها من قبل الطبيب المعالج ، بناءً على مقابلة مع المريض. تم اختيار المرضى بشكل عشوائي ، بناءً على توفر البلازما المخزنة ، ويهدف إلى نسب مماثلة من عمليات النقل المبلغ عنها داخل السويد أو خارجها موزعة على الفترة الزمنية المختارة ii) pol الجينات: قاعدة البيانات السويدية الكاملة InfCare HIV ، بما في ذلك 5246 بول تم تنزيل التسلسلات من المرضى الفريدين ، في 06 يونيو 2016. تم الحصول على التسلسلات من خلال GRT الروتيني الذي تم إجراؤه خلال نفس الفترة الزمنية (1993 إلى 2016). تتضمن قاعدة البيانات & gt 99.9 ٪ من مرضى فيروس نقص المناعة البشرية الذين تم تشخيصهم على قيد الحياة في السويد ، ومعظم المرضى الذين تم تشخيصهم في السويد (العدد = 10738) ، وتقريبًا جميعهم روتيني بول التسلسل الذي تم إجراؤه 1. أوصت الدلائل الإرشادية السويدية لعلاج فيروس العوز المناعي البشري GRT في جميع المرضى الذين تم تشخيصهم حديثًا منذ عام 2003 29. كان معدل التغطية حوالي 60٪ منذ عام 2000 وزاد في السنوات الأخيرة من 64٪ في عام 2010 إلى 84٪ في عام 2016 (متوسط ​​71٪). تم إجراء GRT أيضًا على المرضى الذين فشلوا في العلاج المضاد للفيروسات القهقرية منذ منتصف التسعينيات ، في أكبر عيادات فيروس نقص المناعة البشرية 30.

نموذج مسار انخفاض خلايا CD4 + T لتقدير وقت الإصابة

بالإضافة إلى وقت الإصابة المبلغ عنه ذاتيًا ، استخدمنا أيضًا خوارزمية مسار تراجع الخلايا التائية CD4 + T لتقدير وقت انتقال فيروس العوز المناعي البشري -1 ، بعد تحديد العوامل المرتبطة بانحدار الانحدار بين المجموعات المحددة لفيروس العوز المناعي البشري وتعديله. 1 محولات مصلية (العمر ومنطقة الولادة) ، كما وصفنا مؤخرًا 27. تم تقديم وقت الانقلاب المصلي المقدر لفيروس العوز المناعي البشري في ثلاثة تقديرات هي أقرب وقت محتمل للانقلاب المصلي ، ومتوسط ​​الوقت المحتمل ، وآخر وقت محتمل. لم نطبق نموذج مسار CD4 على الصحة الصحية المحمية التي تم التحقق منها مصليًا. يتم تقديم التاريخ الفعلي للأمصال كوقت (سنة) الإصابة.

تسلسل الجينوم شبه الكامل لفيروس HIV-1 (HIV-NFLG)

تم استخراج الحمض النووي الريبي الفيروسي باستخدام QIAamp Viral RNA Extraction Kit ، Qiagen ، ألمانيا ، وفقًا لتعليمات المصنع. قام NFLG بتضخيم جينوم HIV-1 البالغ 9 كيلو بايت في جزأين متبوعين بالتسلسل من خلال نهجين: تسلسل Sanger باستخدام 17 بادئة متسلسلة 13 أو تسلسل الجيل التالي (NGS) في Illumina HiSeq. 2500 ، متبوعًا باستخدام إنشاء تسلسل إجماعي في بيت خط أنابيب المعلوماتية الحيوية ، كما وصفناه مؤخرًا 31. تم التحقق من صحة NGS مقابل لوحة مراقبة الجودة الخارجية (EQC). تم تحديد تجميع تسلسل الإجماع الناتج عن تسلسل NGS و Sanger من عينة معينة من خلال تحليل النشوء والتطور بأقصى احتمالية مع دعم التمهيد بنسبة 100 ٪ وبالتالي يمكن استخدام كلا النوعين من التسلسلات في وقت واحد في دراسات علم الأوبئة الجزيئية.

التصنيف الفرعي لفيروس نقص المناعة البشرية -1 وتحديد إعادة التركيب

تم تنزيل تسلسل HIV-NFLG المرجعي من قاعدة بيانات Los Alamos (LANL). تم إرسال جميع تسلسلات HIV-NFLG التي تم إنشاؤها إلى أداة BLAST المتوفرة في قاعدة بيانات LANL. تم استخدام مجموعة فريدة من 175 تسلسل مرجعي لتحليل النشوء والتطور بالإضافة إلى تحليل الكتلة. تم إجراء التصنيف الفرعي HIV-1 باستخدام REGA v3 32 و Recombination Identification Program (RIP) v3 33 و COMET-HIV 34 متبوعًا بأقصى احتمالية لشجرة النشوء والتطور باستخدام RAxML 35. تم إجراء تحليل دقيق لإعادة التركيب بين الأنواع الفرعية من خلال تحليل مسح الأحذية وتحليل مخطط التشابه الذي تم تنفيذه في SimPlot الإصدار 3 · 5 · 1 مع حجم نافذة 500 نقطة أساس و 20 نقطة أساس بحجم الخطوة 36 وبرنامج اكتشاف إعادة التركيب (RDP) الإصدار 4 37 وملف القفز المخفي نموذج ماركوف ( jpHMM) 38. بعد الحصول على نقطة توقف الإجماع ، تم إجراء تحليل نسبي محدد للجزء باستخدام شجرة ML-phylogenetic في RAxML.

يُستدل على العلاقات التطورية باستخدام الانضمام إلى الأسرة

استخدمنا RAxML لتقدير مسافات الاحتمالية القصوى وفقًا لنموذج GTR + Gamma وقمنا ببناء شجرة النشوء والتطور باستخدام الانضمام إلى الأسرة ، كما هو موضح مؤخرًا. تم تجميع التسلسلات في مجموعات إرسال بناءً على مسافات قائمة على الأشجار. تم اعتبار تسلسلين في نفس المجموعة إذا كانت المسافة المستندة إلى الشجرة المقابلة أقل من عتبة محددة مسبقًا. تم إنشاء مجموعات النقل لـ بول شجرة (C_pol) ولشجرة NFLG (C_NFLG) ، عند عتبات مسافة 0 · 02 / موقع ، و 0 · 08 فرعية / موقع ، على التوالي. تم حساب التشابه بين هاتين المجموعتين من المجموعات بواسطة مؤشر Jaccard: عدد المجموعات المشتركة / عدد المجموعات المميزة الموجودة إما في C_NFLG أو في C_pol.

الاعتبارات الأخلاقية وتوافر البيانات

تمت الموافقة على الدراسة من قبل لجنة الأخلاقيات الإقليمية في ستوكهولم (2002/367 2005/1167 2007/1533 2014 / 928–31 / 2) وتم تنفيذ جميع الطرق وفقًا للإرشادات المؤسسية المعتمدة. تم إخفاء هوية المريض وفصل ارتباطها قبل التحليل. يؤكد المؤلفون أن هناك بعض القيود على البيانات الكامنة وراء الاستنتاجات الواردة في المخطوطة. التسلسلات التي تم تحليلها تمثل البلد بأكمله ، ومن ثم ، من حيث المبدأ ، تسمح بإعادة بناء شبكة النقل 1. ومع ذلك ، تتوفر البيانات من المؤلفين بناءً على طلب معقول وبإذن من اللجنة التوجيهية لـ InfCare HIV. تتوفر جميع تسلسلات HIV-NFLG التي تم إنشاؤها في هذه الدراسة من GeneBank من خلال أرقام الانضمام KP411823-KP411826 و KP411828 و KP411830-KP411845 و MF373124-MF373206.


مناقشة

على حد علمنا ، هذا هو التقرير الأول الذي يصف بنية الفسيفساء الدقيقة لـ CRF22_01A1. في هذه الدراسة ، قمنا بتمييز خمسة متواليات شبه كاملة الطول لعزلات HIV-1 02CMLT72 و 02CM1867LE و 02CM3097MN و 01CM001BBY و 02CM1917LE والتي تم تحديدها في خمسة أفراد غير مرتبطين على ما يبدو من مناطق مختلفة في الكاميرون (الشكل 1). أظهروا عمودًا فقريًا للفسيفساء الجينومي مشابهًا وتم تعيينهم كمراجع CRF22_01A1. تم بناء هيكل الفسيفساء النموذجي CRF22_01A1 على أساس عزلتين ، 02CMLT72 و 02CM1867LE (الشكل 10). تم تعيين فيروس 01CM53122 في الأصل على أنه CRF22_01A1 وأظهر التحليل الوراثي أن الجينوم متجمع بشكل وثيق داخل فرع CRF22_01A1 (الشكل 2) ، ومع ذلك ، أظهرت المقارنة الإضافية بين سلالات CRF22_01A1 الخمس مع فيروس 01CM53122 فرقًا معتدلًا في بنية الفسيفساء. تم إعادة تصنيف الفيروس 01CM53122 على أنه URF بنسبة 95٪ من CRF22_01A1 و 5٪ من CRF01_AE بدلاً من النوع الفرعي A1 في تسلسل الحسد المنطقة (الشكل 9 أ). خلصنا إلى أن سلالة 01CM53122 هي مؤتلف من CRF22_01A1 و CRF01_AE ، مما يشير إلى وجود مؤتلف جديد لـ CRF22_01A1 مع الأنواع الفرعية الأخرى / CRFs في الكاميرون.

هيكل الفسيفساء CRF22_01A1. تم تحديد نقاط التوقف من تسلسلين ، 02CMLT72 و 02CM1867LE ، باستخدام برنامج jpHMM. تم إنشاء الهيكل التخطيطي باستخدام أداة رسم HIV-1 المؤتلف. كلا البرنامجين متاحان على موقع قاعدة بيانات تسلسل فيروس نقص المناعة البشرية في لوس ألاموس ، http://www.hiv.lanl.gov/content/sequence/HIV/HIVTools.html. (يمكن العثور على صورة ملونة على www.liebertonline.com).

يتكون CRF22_01A1 من خمسة مقاطع جينومية يمكن تخصيصها للنوع الفرعي A1 و CRF01_AE ، على التوالي. ضمن سلالات النوع الفرعي A ، يتم وضع ثلاثة مقاطع CRF22_01A1 (الأول والثالث والخامس) بالقرب من العقدة الداخلية لفيروسات CRF01_AE مما يشير إلى وجود علاقة وثيقة بين CRF22_01A1 و CRF01_AE. قد يعرض CRF22_01A1 بعض الميزات الهيكلية المشابهة لتسلسل CRF01_AE. يقع الجزء الرابع ضمن إشعاع من النوع الفرعي A ، والذي لا يشمل CRF01_AE. الجزء الثاني (nt 2666 & # x020135452) هو الوحيد الذي تتباعد فيه المجموعات الثلاث من النوع الفرعي A1 و CRF01_AE و CRF22_01A1 عن نفس النقطة على الجذع الرئيسي ، تم العثور على أقرب عقدة لها بين بعض سلالات النوع الفرعي المبكر. أشار تحليل علم الوراثة الإضافي وتحليل مسافة SUDI إلى أن الجزء الثاني مؤتلف من A1 و CRF01_AE ، مما يشير إلى أن أحداث إعادة التركيب المختلفة كانت متورطة في تطور HIV-1. تم الإبلاغ سابقًا عن أن CRF01_AE مؤتلف من النوع الفرعي A1 و E ويتكون من 10 أجزاء على الأقل من العمود الفقري A1 و E. تم تعيين 7،37،38 CRF01_AE كنوع فرعي A1 في منطقة nt 790 & # x020135096 والنوع الفرعي E في منطقة nt 5097 & # x020135320 ، على التوالي. 7

يشير وجود CRF01_AE في الجزء الثاني إلى أن CRF22_01A1 قد يحتوي على تسلسل من النوع الفرعي E في هذه المنطقة. ومع ذلك ، سيكون من الصعب تحديد الطبيعة المؤتلفة للجزء الثاني في CRF22_01A1 بسبب عدم وجود متواليات من النوع الفرعي النقي. 39 ومن المثير للاهتمام أن CRF22_01A1 أظهر نقطتين من نفس نقاط التوقف المؤتلفة مثل CRF01_AE في الجين الملحق (nt 5452) و الحسد مناطق الجين (nt 8470). التفسير المحتمل لهذا هو أن CRF22_01A1 قد يشترك في النسب مع CRF01_AE. إذا كان الأمر كذلك ، على غرار CRF01_AE ، فقد تكون سلالة CRF22_01A1 موجودة وانتشرت في الكاميرون أو مناطق أخرى لفترة طويلة. يمكن أن يمثل 37،38 CRF22_01A1 إعادة التركيب بين السلالات المعاصرة المشتقة من الأنساب CRF01_AE أو النوع الفرعي A1. انتشر النوع الفرعي A من HIV-1 في البشر لفترة طويلة وهو أحد السلالات الأم المشاركة في العديد من المؤتلفات الفيروسية مثل CRF01_AE و CRF02_AG. 26،37 & # x0201340 في هذه الدراسة ، نقدم دليلًا على أن CRF22_01A1 تشكل أيضًا من خلال إعادة تركيب النوع الفرعي A و CRF01_AE. أظهرت خمسة فيروسات CRF22_01A1 بنية فسيفساء مماثلة وشكلت CRF جديدًا ، على الرغم من ملاحظة بعض الاختلافات الطفيفة في التسلسل داخل الفيروسات المختلفة. قد يرجع التنوع الجيني لفيروسات CRF22_01A1 إلى مدة العدوى في المرضى ، 41 & # x0201343 ولكن هناك حاجة إلى مزيد من الدراسات لفحص هذه المشكلة.

يشير تحديد CRF22_01A1 من مرضى مختلفين ليس لديهم روابط وبائية إلى أن CRF22_01A1 هو على ما يبدو CRF آخر لـ HIV-1 الذي ينتشر في البشر ، وقد يتصرف مثل CRF01_AE و CRF02_AG من خلال تشكيل متغير مؤتلف جديد من HIV-1 مع أنواع فرعية أخرى / CRFs قادرة على الانتشار الجغرافي في الكاميرون وربما أجزاء أخرى من العالم. لقد أبلغنا سابقًا عن رواية CRF36_cpx في الكاميرون والتي تم تعيينها كعامل مؤتلف لإشعاعات CRF01_AE و CRF02_AG والنوع الفرعي A و G ، ومع ذلك ، بول و الحسد تم العثور على جينات CRF36_cpx لتتجمع مع CRF22_01A1. 21 كما هو موضح أعلاه ، فإن سلالة 01CM53122 هي مثال آخر على إعادة تركيب CRF22_01A1 مع CRF01_AE. برينان وآخرون. ذكرت أن 22.4 ٪ من HIV-1 URFs تحتوي على جينوم CRF22_01A1 في عينات المتبرعين بالدم التي تم جمعها بين عامي 1996 و 2004 في الكاميرون. CRF22_01A1 هو ثاني أكثر نموذج CRF شيوعًا تم العثور عليه بين URFs HIV-1 التي تم تحديدها خلال فترة 9 سنوات من مراقبة فيروس نقص المناعة البشرية في الكاميرون. 24 تشتمل المواد المؤتلفة CRF22_01A1 المبلغ عنها على CRF22 أسكت / CRF02 بول / CRF02 الحسد ، 24 CRF22 أسكت / - / CRF11 الحسد ، CRF22 أسكت / - / CRF02 الحسد و CRF22 أسكت /-/أ الحسد . 18 تشير هذه النتائج إلى أن CRF22_01A1 قد يكون متغيرًا جديدًا من نوع HIV-1 والذي من المحتمل أن يكون قد ظهر بسبب تأثير المؤسس الذي أدى إلى تكوين متغيرات مؤتلفة جديدة لـ HIV-1 في الكاميرون.

تشير التقارير الأخيرة إلى أن التنوع الجيني HIV-1 كان مستقرًا نسبيًا في الكاميرون خلال العقد الماضي وأن بعض نماذج CRF السائدة الموجودة في الكاميرون ليست منتشرة حاليًا في وباء HIV-1 العالمي. 24 ومع ذلك ، قد تساهم زيادة السفر العالمي في انتشار عدوى HIV-1 في جميع أنحاء العالم 44 كما يتضح من اكتشاف CRF22_01A1 من مرضى مصابين بفيروس HIV-1 في الولايات المتحدة 45 والمملكة العربية السعودية. 46 وفقًا لتقرير حديث صادر عن مراكز السيطرة على الأمراض والوقاية منها (CDC) ، بين عامي 2003 و 2006 ، تم تشخيص 5.1٪ من 3130 فردًا مصابًا بفيروس نقص المناعة البشرية في 11 ولاية في الولايات المتحدة على أنهم مصابون بعدوى HIV-1 غير B. . 47

زاد انتشار الأنواع الفرعية غير B في الولايات المتحدة ، 45 وجاءت غالبية الأنواع الفرعية غير B (80.8 ٪) من المهاجرين الجدد من إفريقيا. 48 وقد لوحظ سابقًا أن السلالات التي ظهرت كمتغيرات سائدة في الكاميرون وغرب أفريقيا الوسطى انتشرت لاحقًا إلى مناطق أخرى من العالم وظهرت كإصابات جديدة في بلدان أخرى متميزة جغرافيًا. وبالتالي ، من الضروري مراقبة تطور السلالات في هذه المنطقة باستمرار لأنها يمكن أن تنبئ بالطبيعة التطورية للسلالات المسيطرة في المستقبل في جائحة فيروس نقص المناعة البشرية. يمكن أن تؤثر سلالات فيروس نقص المناعة البشرية شديدة التباين على التسبب في الإصابة بفيروس نقص المناعة البشرية ، أو سهولة الانتشار بين السكان ، أو القابلية للعلاج بمضادات الفيروسات القهقرية ، أو استراتيجيات تطوير اللقاح. يمكن أن يكون لدراسات التنوع الجيني HIV-1 تأثير محتمل على تشخيص عدوى HIV ويمكن أن توفر كواشف مرجعية مفيدة لتوحيد المقايسات. لهذه الأسباب ، من المهم دراسة تطور CRF22_01A1 في هذه المناطق وتوصيف خصائصها البيولوجية حيث من المحتمل أن تصبح سلالة فيروس نقص المناعة البشرية الرئيسية ، على غرار CRF02_AG ، على مستوى العالم في المستقبل.


المواد والأساليب

تم جمع عينات من الأفراد المصابين بفيروس نقص المناعة البشرية -1 في 14 منطقة إسبانية لدراسة وبائية جزيئية. ان

تم تضخيم جزء 1.4 كيلو بايت بول في النسخ العكسي للبروتياز (Pr-RT) بواسطة RT-PCR / PCR المتداخل من الحمض النووي الريبي بالبلازما كما هو موصوف سابقًا 33 وتسلسله باستخدام طريقة Sanger باستخدام جهاز التسلسل الآلي الشعري. تم الحصول على تسلسل جينوم كامل الطول (NFLG) للعينات المختارة عن طريق التضخيم في أربعة أجزاء متداخلة من البلازما RNA وتسلسلها بطريقة Sanger ، كما هو موصوف. يتم إيداع التسلسلات المشتقة حديثًا في GenBank تحت المدخلات KX818199 و KX818200 و MW344906-MW344922 و MW802822-MW802825 (الجدول 1).

تمت محاذاة التسلسلات مع MAFFT v7 35. تم إنشاء أشجار النشوء والتطور الأولية مع جميع متواليات Pr-RT التي حصلنا عليها من خلال الاحتمال الأقصى التقريبي في FastTree ، باستخدام النموذج التطوري القابل للانعكاس للوقت العام مع تقريب CAT من أجل عدم تجانس المعدل بين الموقع وتقييم دعم العقدة باستخدام Shimodaira-Hasegawa (SH) -مثل قيم الدعم المحلي 37. تم إنشاء أشجار الاحتمالية القصوى اللاحقة (ML) مع تسلسل الاهتمام في IQ-Tree 38 ، باستخدام نموذج الاستبدال الأفضل الذي حدده البرنامج 39 ، مع تقييم دعم العقدة باستخدام نهج تقريب التمهيد فائق السرعة 40. تم تصور الأشجار باستخدام MEGA v7.0 41. تم أيضًا إنشاء شبكة النشوء والتطور من تسلسل NFLG باستخدام SplitsTree4 42. في هذا التحليل ، تم استخدام النموذج التطوري HKY + G + I (GTR غير متوفر) وتم تقدير شبكة ثقة بنسبة 95٪.

تم تحليل هياكل الفسيفساء عن طريق مسح الأحذية 43 باستخدام SimPlot v1.3.5 44 ، مع بناء شجرة باستخدام طريقة ربط الجوار وعرض نافذة يبلغ 250 نيوكليوتيد. تم تحليل الأجزاء المؤتلفة التي تم تحديدها باستخدام SimPlot بشكل أكبر من الناحية التطورية من خلال ML باستخدام IQ-Tree و PhyML v3.0 45 (مع تقييم دعم العقدة في تحليلات PhyML مع اختبار نسبة الاحتمالية التقريبية ، إجراء شيمودايرا هاسيغاوا (aLRT SH-like) 37 ) ومن خلال الاستدلال بايزي مع MrBayes v3.2 46. تم إجراء التحليل مع MrBayes باستخدام نموذج الاستبدال GTR + G + I. أجرينا تشغيلين مستقلين متزامنين و 8 سلاسل طويلة من 2 إلى 5 ملايين جيل ، مما يضمن أن كلا التشغيلين قد وصل إلى التقارب ، على النحو الذي يحدده متوسط ​​الانحراف المعياري للترددات المنقسمة & lt 0.01. لقد تخلصنا من أول 50٪ من الأشجار في التوزيع اللاحق على أنها احتراق. تم تحليل وجود إشارة نسالة مناسبة في مقاطع قصيرة (& lt 200 nt) من خلال تعيين الاحتمالية 47 باستخدام IQ-Tree.

تم أيضًا تحليل مواقع نقاط التوقف من النوع الفرعي باستخدام GARD 48 و RDP4 49 (باستخدام طرق RDP و Geneconv و Chimaera و MaxChi و Bootscan و Siscan و 3Seq المطبقة فيه) ، و jpHMM 50.

تم تقدير وقت الظهور والموقع الأكثر احتمالية في البلد لأحدث سلف مشترك (MRCA) للمجموعة والمجموعات الفرعية المحددة باستخدام متواليات Pr-RT مع طريقة التحام سلسلة Bayesian Markov Monte Carlo (MCMC) المنفذة في BEAST v1.8.4 51 . بالنسبة لهذا التحليل ، تمت إزالة المواقف في المحاذاة المقابلة للكودونات التي تحتوي على طفرات مقاومة الأدوية المضادة للفيروسات القهقرية في أي من التسلسلات ، على النحو المحدد في قاعدة بيانات جامعة ستانفورد برنامج HIVdb 52. قبل تحليل BEAST ، تم تحليل وجود إشارة زمنية في مجموعة البيانات باستخدام Tempest 53. نظرًا لأنه وفقًا لهذا التحليل ، لم تكن هناك إشارة زمنية كافية ، فقد استخدمنا كمعامل سابق معدل استبدال موزع بشكل طبيعي (1.33 × 10 –3 ± 2.57 × 10 –4 sub. / الموقع / السنة) المقدرة من 65 تسلسل CRF12_BF ، والتي عرضت إشارة زمنية مناسبة (r 2 = 0.389 في تحليل TempEst) (الشكل التكميلي S1). تم إجراء تحليل BEAST باستخدام النموذج التطوري القائم على الكودون SRD06 54 ، ونموذج ساعة استرخاء غير مرتبط بسجل غير مرتبط ونموذج النمو السكاني Bayesian Skyline Plot 55. تم تشغيل MCMC لمدة 20 مليون جيل ، مما يضمن أن قيم حجم العينة الفعالة لجميع المعلمات كانت & gt 200 ، مما يشير إلى الخلط المناسب. تم تلخيص التوزيع الخلفي للأشجار في أقصى مصداقية كليد (MCC) مع TreeAnnotator v1.8.4 ، بعد إزالة احتراق بنسبة 10٪. تم تصور أشجار MCC باستخدام FigTree v1.4.2 (Rambaut ، //tree.bio.ed.ac.uk/software/figtree/). تم تلخيص عدم اليقين في المعلمات في 95٪ أعلى فترات كثافة خلفية (HPD).

إعلان الأخلاق

تمت الموافقة على هذه الدراسة من قبل لجنة أخلاقيات البحث في معهد سالود كارلوس الثالث ، مدريد ، إسبانيا. تم الحصول على الموافقة المسبقة من جميع المشاركين. تم تنفيذ جميع الطرق وفقًا للإرشادات واللوائح ذات الصلة.


الملخص

الكاميرون بلد في غرب وسط إفريقيا حيث تنتشر جميع المجموعات الأربع من HIV-1 (M و N و O و P) ، وبعض أشكال المؤتلف المتداولة (CRFs) وأشكال المؤتلف الفريدة (URFs). تم تحديد CRF22 مبدئيًا من خلال سلالة URF جديدة ، 01CM53122 ، وتم تحديدها لاحقًا من تسلسلين إضافيين ، ومع ذلك ، لم يتم إثبات الخصائص الجينية لـ CRF22 بالتفصيل مطلقًا. في هذه الدراسة ، نصف توصيف خمس سلالات CRF22_01A1 ، 02CMLT72 ، 01CM1867LE ، 01CM001BBY ، 02CM3097MN ، و 02CM1917LE ، التي تم تحديدها في الكاميرون بدون روابط وبائية ظاهرة. تحتوي سلالة CRF22_01A1 النموذجية على خمسة أجزاء يمكن تخصيصها لإشعاعات CRF01_AE والنوع الفرعي A1. تم تصنيف 48 في المائة من الجينوم على أنه CRF01_AE ، ويمتد عبر المنطقة بأكملها من أسكت الجين ، جزء من بول الجينات ، والجينات الملحقة وكذلك بداية ونهاية الحسد الجين و نيف الجين. اثنان وخمسون في المئة من الجينوم هو من النوع الفرعي A1 بما في ذلك المناطق في الغالب في بول ، فيف ، و الحسد الجينات. شكلت فيروسات CRF22_01A1 الخمسة فرعًا عميقًا خارج مجموعات CRF01_AE وعرضت بنية فسيفساء مماثلة ولكنها كانت مختلفة بشكل معتدل عن السلالة الأصلية لـ CRF22_01A1 ، 01CM53122. أظهر التحليل الإضافي للجينوم 01CM53122 أن هذا الفيروس يمثل مجموعة متنوعة من جينومات الفسيفساء من CRF22_01A1 ، بما في ذلك شريحة 446-nt من 01CM53122 في الحسد المنطقة ، ولكن على عكس سلالات CRF22 الأخرى ، المتجمعة باستخدام CRF01_AE بدلاً من تسلسل A1 ، مما يشير إلى أن سلالة 01CM53122 هي مؤتلف من CRF22_01A1 و CRF01_AE.


استنتاج

في هذا العمل ، قمنا بمقارنة مجموعة من أنظمة وضع العلامات على التسلسل. لقد قمنا بتدريب وتحسين كل نظام وسم تسلسل لمهمة GPRO عن طريق العديد من خوارزميات تحسين المعلمات الفائقة وخاصة باستخدام TPE. لقد أظهرنا أن تحسين المعلمة الفائقة يمكن أن يكون أمرًا بالغ الأهمية. حصل نظام تصنيف التسلسل في تجاربنا على تحسن بنسبة تزيد عن 60٪. أظهرنا أن تصويت الأغلبية الساذج لا يجلب أي تحسن. لهذا السبب ، قدمنا ​​وقيّمنا ما يسمى CRFVoter ، وهي أداة CRF ذات مرحلتين للجمع بين أدوات نمذجة التسلسل الأساسية (على النحو الوارد في NER لدراستنا المقارنة). حصل CRFVoter على تحسن بنسبة 2٪ مقارنة بأفضل الأنظمة المرجعية أداءً التي تم فحصها في دراستنا. وبالتالي ، يمكن تطوير CRFVoter بشكل أكبر عن طريق تغذيته بإخراج أنظمة وسم التسلسل الإضافية. تتمثل النظرة النظرية المركزية في هذه المرحلة في التفكير في التنظيم المتكرر للناخبين من نوع CRFVoter إلى ما بعد المستوى الأول من خلال السماح للمصنفات المختلفة بالمساهمة في مختلف هذه المستويات. في الماضي ، تم تنفيذ مثل هذا الإجراء من التعلم العودي من خلال مثال لما يسمى بالمساحات الدلالية [53] - انظر [54] لمثل هذا النهج. تتمثل الخلفية النظرية في السماح للنظام بتجريد نتائج المتعلمين الأساسيين بشكل منهجي: كما هو الحال مع الشبكات العصبية التلافيفية ، يمكن أن يساعد ذلك في العثور على المزيد والمزيد من التمثيلات التجريدية ، ولكن أيضًا المميزة بشكل متزايد لبيانات الإدخال. على أي حال ، تُظهر نتائجنا ونتائج المشاركين الآخرين في مهمة BioCreative V.5 أن مهمة التعرف على الجينات والأشياء المتعلقة بالبروتين لم يتم حلها بعد بشكل كافٍ. للتعرف بشكل أفضل ، يجب إنشاء مجموعة أكبر بحيث يمكن لخوارزميات التعلم العميق الشائعة في الوقت الحاضر العمل على هذه البيانات. سيكون من المفيد أيضًا في هذه المرحلة إنشاء نوع من بنية الإنسان في الحلقة للتعليق التوضيحي التلقائي وإعادة العمل الفكري من أجل زيادة كمية البيانات وتحسينها على التوالي.


شاهد الفيديو: الجينات الوراثية و اساسيات علم الوراثة (يوليو 2022).


تعليقات:

  1. Ferenc

    انت على حق تماما. في هذا الشيء ، أعتقد أنها الفكرة الممتازة.

  2. Avent

    أنا أتفق معك ، شكرًا على التفسير. كما هو الحال دائما كل عبقري بسيط.

  3. Randy

    أعتقد أنك ترتكب خطأ.

  4. Doru

    أجد أنك لست على حق. سوف نناقش. اكتب في PM ، سنتحدث.

  5. Gardazahn

    أنا على دراية بهذا الموقف. أدخل سنناقش.

  6. Samukinos

    اجابة صحيحة

  7. Dorg

    هل تعرف ما هي عطلة اليوم؟



اكتب رسالة