معلومة

كيفية حساب مؤشر Jaccard

كيفية حساب مؤشر Jaccard



We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

أريد حساب مؤشر Jaccard بين مركبين. ما هي الخوارزمية؟ لقد بحثت عنه ، إنه يعطي فقط الصيغة ولكن كيفية تطبيقه على المركبات غير معروفة بالنسبة لي. هل يمكنك المساعدة؟


مؤشر Jaccard هو مقياس للتشابه بين مجموعتين. ألق نظرة على مقالة ويكيبيديا هنا. من السهل جدًا حساب:

يُعرّف معامل تشابه Jaccard للمجموعتين X و Y على النحو التالي:

J (X ، Y) = | تقاطع (X ، Y) | / | union (X، Y) |

أين| |يشير إلى حجم (عدد العناصر) للمجموعة. تخيل أن لديك مجموعتين X و Y محددتين على النحو التالي:

س = {أ ، ب ، ج ، د} ص = {ج ، د ، ه ، واو ، زاي}

ثم:

تقاطع (س ، ص) = {ج ، د} => | تقاطع (س ، ص) | = 2 اتحاد (X، Y) = {A، B، C، D، E، F} => | union (X، Y) | = 5

وبالتالي:J (X ، Y) = 2/5

بدلاً من ذلك ، ستكون مسافة Jaccardد (س ، ص) = 1 - ي (س ، ص) = 1 - 2/5 = 3/5

في علم الأحياء ، تم استخدام مؤشر Jaccard لحساب التشابه بين الشبكات ، من خلال مقارنة عدد الحواف المشتركة (على سبيل المثال ، Bass ، طرق Nature 2013)


فيما يتعلق بتطبيقه على المركبات ، إذا كان لديك مجموعتان بمركبات مختلفة ، يمكنك معرفة مدى تشابه المجموعتين باستخدام هذا الفهرس. العناصر الموجودة في المجموعات ، في هذه الحالة المركبات ، تتوافق مع A ، B ، C ، إلخ في المثال الخاص بي.


مؤشر جاكارد / معامل التشابه

مؤشر تشابه Jaccard (يسمى أحيانًا تشابه Jaccard معامل في الرياضيات او درجة) يقارن الأعضاء لمجموعتين لمعرفة الأعضاء الذين تتم مشاركتهم وأيهم متميزون. إنه مقياس تشابه لمجموعتي البيانات ، بنطاق من 0٪ إلى 100٪. كلما زادت النسبة ، كلما كان هناك تشابه أكبر بين المجموعتين. على الرغم من سهولة تفسيره ، إلا أنه حساس للغاية لأحجام العينات الصغيرة وقد يعطي نتائج خاطئة ، خاصةً مع العينات الصغيرة جدًا أو مجموعات البيانات ذات الملاحظات المفقودة.


صيغة تشابه جاكارد

"مؤشر Jaccard ، المعروف أيضًا باسم Intersection over Union ومعامل تشابه Jaccard (يُعطى في الأصل معامل الاسم الفرنسي de communauté بواسطة Paul Jaccard) ، وهو إحصاء يُستخدم لقياس التشابه والتنوع في مجموعات العينات."

كما توضح الصيغة ، فإن J (A ، B) JS f ormula يعتمد على المجموعة A والمجموعة B ، وتحديداً هو تقسيم تقاطع A و B الذي يُرمز له بالشكل القوسي ، واتحاد A لـ B يُشار إليه بواسطة U. هي أساسًا صيغة لقياس مقدار التداخل بين A و B.

يمكن إعادة كتابة جزء من الصيغة كـ | A | + | ب | - | أ تقاطع ب | لأننا عندما نفعل | A | + | B | يحتمل أن يكون أكبر من | A union B | لأنه قد يكون هناك تداخل ، لذلك نحتاج إلى طرح التداخل | أ يتقاطع ب |.


تساعدنا مقاييس التقييم في إخبار أداء نماذج ML الخاصة بنا. إنها تساعدنا في حساب دقة نموذج ML & # 8217s. صحة يخبرنا عن مدى جودة أو سوء نموذج ML الخاص بنا ، أي كيفية أداء نموذج ML الخاص بنا على عينة بيانات غير معروفة ، بناءً على التدريب الذي تلقته مجموعة التدريب. لتقييم نموذج ML ، نحتاج إلى مجموعة اختبار ، والتي عادة ما تكون مختلفة عن مجموعة التدريب ، والتي نقوم بإدخالها في نموذج ML الخاص بنا ونرى ما هي المخرجات ومقارنة هذه المخرجات مع المخرجات المعروفة بالفعل. والآن بعد أن أصبحنا واضحين فيما يتعلق بمقاييس التقييم ، دعنا ننتقل إلى الموضوع الفعلي لمدونتنا ، مؤشر جاكارد.

يعد مؤشر Jaccard أحد أبسط الطرق لحساب واكتشاف دقة نموذج ML التصنيف. دعونا نفهمها بمثال. لنفترض أن لدينا مجموعة اختبار مصنفة ، مع تسميات مثل & # 8211

وقد رسم نموذجنا مسبقًا التسميات كـ & # 8211

يوضح لنا مخطط Venn أعلاه تسميات مجموعة الاختبار وتسميات التنبؤات وتقاطعها واتحادها.

ال مؤشر جاكارد يتم تعريفه على أنه حجم التقاطع مقسومًا على حجم اتحاد المجموعتين المعينتين ، مع الصيغة & # 8211

لذلك ، على سبيل المثال لدينا ، يمكننا أن نرى أن تقاطع المجموعتين يساوي 8 (حيث يتم التنبؤ بثماني قيم بشكل صحيح) وأن الاتحاد هو 10 + 10 – 8 = 12. لذلك ، يمنحنا مؤشر Jaccard الدقة كـ & # 8211

إذن ، دقة نموذجنا وفقًا لـ مؤشر جاكارد، يصبح 0.66 أو 66٪.

كان هذا كل ما يمكن معرفته عن مؤشر جاكارد. آمل أن تكون هذه المدونة مفيدة لك. شكرا للقراءة.


تحليل التدرج المباشر

التحليلات متعددة المتغيرات مطلوبة لبيانات المجتمع لأننا مهتمون باستجابة العديد من الأنواع في وقت واحد

تُستخدم التحليلات متعددة المتغيرات لتلخيص التكرار وتقليل الضوضاء وتوضيح العلاقات وتحديد القيم المتطرفة

يمكن للتحليلات متعددة المتغيرات أن تربط المجتمعات بأنواع أخرى من البيانات (مثل البيانات البيئية والتاريخية)

النتائج من التحليلات متعددة المتغيرات مصممة لتحسين فهمنا للمجتمعات ، خاصة. هيكل المجتمع

تستخدم لعرض توزيع الكائنات الحية على طول تدرجات العوامل البيئية الهامة

ابتكرها Ramensky (1930) و Gause (1930) ، لكنها استخدمت على نطاق واسع في البحث البيئي بعد حوالي عام 1950 (Whittaker)

أخذ Dix and Smeins (1967) 100 عينة مجتمعية لتمثيل مجموعة النباتات الموجودة في مقاطعة نيلسون ، داكوتا الشمالية

تم أخذ عينات مدرجات متجانسة من 0.1 هكتار عن طريق تسجيل التردد في 30 ، 0.5 & # 215 0.5 م كوادرات

تم تسجيل العديد من المتغيرات البيئية لكل جناح

أنواع المؤشرات المحددة لفئة الصرف كأنواع ذات / تواتر أكبر بنسبة 10 ٪ على الأقل في تلك الفئة مقارنة بأي فئة أخرى

تم تحديد قيمة المؤشر على أنها فئة الصرف لأنواع المؤشر

هدف: تلخيص تكرار جميع الأنواع - & # 62 رقم فردي لكل جناح

رقم فهرس الحامل = (rel. freq. & # 215 قيمة المؤشر) / (rel. freq. of indiv. sp)> & # 215100

سب.الترددات اللاسلكيةرابعاRF x IV
Stco20120
ستيفي10---(ليس مؤشرًا لأي فئة صرف)
أكمي15230
ليكا5315ونبسب
آخر50---ونبسب
40 * ونبسب65ونبسب

* مجموع RF لـ spp. ث / رابعا (20 + 15 + 5)

مؤشر الحامل 17 = (65/40) × 100 = 162

بالنسبة لجميع الأجنحة ، يتراوح مؤشر الحامل من 100 إلى 600

قسّم هذا التدرج المكون من 500 وحدة إلى 10 فئات مكونة من 50 وحدة:

ونبسبونبسبتردد الأنواع
فصلالوقوف مع فئة 50 وحدةأ بج
100-1494
9
12
ونبسبXأXبXج
150-199

=========> الصورة 2 [ديكس وسمينز 1967 ، ص. 33]

كان من الممكن أن يكونوا قد رسموا التردد على التدرج اللوني البالغ 500 وحدة بالكامل ، لكن الرسم البياني كان سيبدو فوضويًا - 10 فئات تصريف "تنعم" الرسم البياني ، مما يجعل التفسير أسهل


الغرض من تحليل التدرج المباشر هو تنظيم البيانات المجتمعية والبيئية للإجابة على أسئلة مثل:

    ما هو بالضبط العامل البيئي في مجموعة العوامل التي تؤثر بشكل أساسي على توزيع الكائنات الحية والمجتمعات؟

بينما يمكن استخدام تحليل التدرج المباشر لتحديد العوامل البيئية المهمة بيئيًا ، إلا أن هناك حاجة إلى معالجة تجريبية لتحديد أهمية العوامل البيئية المختلفة بدقة أكبر

اشتق Dix و Smeins مؤشرًا للتصريف بناءً على النباتات نفسها: قد يكون هذا أسهل وأكثر دقة وأقل تكلفة من مقاييس الصرف الأخرى أو رطوبة التربة

غالبًا ما يصعب تقييمها لأن التدرجات الثانوية طغت عليها التدرجات الأولية

يتم رسم البيانات على طول المحاور البيئية التي يتم قبولها بشكل عام على أنها معطاة. يمكن أن تكون المحاور:

يمكن رسم الأنواع والمجتمعات والخصائص على مستوى المجتمع المحلي

عدة أبعاد ممكنة

عادة ما يتم استخدام بعض أشكال تجانس البيانات قبل العرض

أسلوب التنعيم الشائع هو المتوسط ​​المرجح لكل مرجع على سبيل المثال ،

ناعم = المرجع السابق + 2 & # 215 المرجع الحالي + المرجع التالي / 4>

المنحنى الناتج أقل "صاخبة" من البيانات الأصلية

قدم ويتاكر الاستنتاجات التالية حول DGA:

    الشكل العام لتوزيع مجموعة الأنواع على طول التدرج البيئي المعقد هو منحنى على شكل جرس

    مركز (أو وضع) مجموعة الأنواع على طول التدرج المعقد ليس في المستوى الفسيولوجي الأمثل ولكنه مركز لأقصى نجاح للسكان في المنافسة مع مجموعات الأنواع الأخرى

أحد المؤهلات المهمة: في بعض الحالات ، يبدو أن الأنواع المتنافسة ليست عشوائية ولكن موزعة بانتظام على طول التدرجات البيئية المعقدة

وفقًا لويتاكر ، فإن هذه الاعتبارات تعني ما يلي:

تأثرت استنتاجات ويتاكر بشدة بإيمانه بالمنحنيات على شكل جرس لتوزيع الأنواع

تم تحدي مفهوم المنحنى على شكل جرس من قبل أوستن (1976 ، Vegetatio 33: 33-41) في ملخص للبيانات المنشورة مسبقًا:

ونبسبخطيجرس متماثلمنحرفمنحرف جداثنائي النسقالمجموع
كورتيس40372824
نوي مئير0124007
راهب32311818
المجموع7381231649
النسبة المئوية من الإجمالي1461624633ونبسب

الجرس (٪)منحرفتحملهضبةثنائي النسقالمجموع
ويتاكر
سموكي8 (23%)6102935
سيسكيوس14 (27%)16811251

لذلك خلص أوستن إلى أن الشكل العام لمجموعات الأنواع ليس طبيعيًا ، على شكل جرس. وكان يفكر في البيانات التي تم تسهيلها بالفعل

استخدم Werger (1983 ، Vegetatio 52: 141-150) مقياسًا متحفظًا جدًا للتوزيع "العادي" (50٪ من التباين يُعزى إلى المنحنى)

31٪ من الأنواع الموزعة بشكل طبيعي:

1 من 8 أنواع (12٪) على قمم التلال

12 نوعًا من أصل 22 نوعًا (55٪) منحدر متوسط

5 من 32 نوعا (16٪) في المستنقعات

تشير البيانات التي تم جمعها وتلخيصها بواسطة أوستن وفيرجر إلى أنه لا يوجد سبب مسبق لافتراض منحنيات طبيعية على شكل جرس لتوزيع الأنواع على التدرجات

    DGA ذات قيمة وفائدة لا جدال فيهما في علم البيئة كوسيلة

    تلخيص البيانات وعرضها ، و

تنتج الدائرية من تصميم أخذ العينات ذاتيًا (مسبق التصور) - لاحظ أن هذا كان نقدًا أطلقه ويتاكر (من بين آخرين) ضد نهج كليمنتس المتمثل في "رؤية" المجتمعات وأخذ العينات فيها.

ينتج الاستنتاج المستند إلى DGA لاستمرارية الغطاء النباتي عن أخذ العينات التعسفي والذاتي (تمامًا كما يتم اشتقاق استنتاج المجتمع المنفصل من أخذ العينات مع المجتمعات المحددة جيدًا والتي تبدو مختلفة.

كلا المدرستين تصف ، ولكن لا تجيب "لماذا"؟ كلا الفريقين يبني الاستنتاجات على البيانات الوصفية ، دون اختبار الفرضيات.


قياس تشابه الأنساب باستخدام فهرس جاكارد

بالنسبة لبعض المنشورات على هذه المدونة ، سأستخدم طريقة واحدة لقياس التشابه بين مجموعتين من عينات البيانات. الإحصاء يسمى مؤشر Jaccard ، أو معامل تشابه Jaccard. هذا المنشور هو شرح تقني للحساب نفسه.

مجموعات البيانات هي ألقاب الأجداد الفريدة لمطابقات الحمض النووي الخاصة بي. السؤال الذي أطرحه على أي اثنتين من مبارياتي هو: ما مدى تشابه قوائم ألقاب أسلافهم المباشرة؟

إذا كانت قائمتان من الألقاب الفريدة متطابقة ، فسيكون لهما نفس الألقاب. سيكون لديهم أيضًا نفس عدد الألقاب في قوائمهم ، حيث يتم تمثيل كل لقب مرة واحدة فقط بغض النظر عن عدد مرات ظهوره في الشجرة المباشرة. سيكونون متشابهين 100٪.

ومع ذلك ، فأنا مهتم أيضًا بالأشجار المتشابهة "تقريبًا". لنفترض أن شقيقين قاما بإنشاء أشجار منفصلة ، وكلاهما يصلان إلى مسافة تصل إلى جميع أجداد أجدادهما. قادته أبحاث توم إلى زوج واحد من العظماء الثالث ، ووجد جو زوجًا مختلفًا. لا يعلم أي منهما حتى الآن ببحث الآخر ، ولكن كلاهما لهما اسم عائلي إضافي واحد في كل شجرة. ستكون هذه القوائم متشابهة جدًا ، وأود إبراز تشابهها بطريقة ما.

لذا فأنا بحاجة إلى طريقة لتحديد "التشابه" بين قائمتين من الألقاب. يقارن مؤشر تشابه Jaccard بين مجموعتين (أو قوائم) لمعرفة الأعضاء (الألقاب) المشتركين وأيهم مختلفين. تحسب النسبة المئوية للتشابه من 0 إلى 100٪. الرياضيات بسيطة جدًا ، ويتم وصفها هنا بعبارات مفهومة.

بعبارات أبسط ، نحسب تقاطع القوائم ، أي عدد الألقاب المشتركة لكلتا الشجرتين. نحسب الفروق لكل جانب ، ونحسب العدد الإجمالي للألقاب في الكل. يعبر مؤشر Jaccard عن هذا رياضيا على النحو التالي:

J (X، Y) = | X∩Y | / | X∪Y | أو (| X∩Y | / | X | + | Y | - | X∩Y |

أخذ أخوينا توم وجو:
| X∩Y هو عدد الألقاب المشتركة: 8 للأخوة.
| X | هو طول المجموعة ، أو عدد الألقاب لشجرة توم: 9.
| ص | هو طول المجموعة ، أو عدد الألقاب لشجرة جو: 9 أيضًا.

لذا فإن معادلتنا هي: 8 / (9 + 9-8) * 100 = 80٪ تشابه لإخواننا.

إذا كان لدى الأخ نفس الأشجار تمامًا ، فستكون متشابهة بنسبة 100٪. إذا لم يكن لشجرة ساعي البريد ألقاب متداخلة مع الأخوين ، فسيكون فهرسه مقارنة بكليهما 0٪.

لذا فإن المهمة النهائية هي مقارنة كل قائمة أسماء في مبارياتي مع كل قائمة أسماء أخرى. نظرًا لأن فهرس Jaccard يعمل فقط على مجموعتين في وقت واحد ، فإن حساب التشابه عبر مجموعات N يتطلب حسابات N التربيعية.
/> يصبح هذا غير ممكن بالنسبة لعدد كبير من المجموعات ، وهناك طرق أخرى يمكن تفعيلها لتقليل وقت المعالجة. كان لدي حوالي 4.4 مليون زوج من المجموعات للمقارنة ، والتي استغرقت بضع ساعات لإكمالها.

لاحظ أنه من أجل أغراضي الحالية ، أستخدم ألقابًا فريدة. إذا دخلت إحدى المطابقات إلى الأب والجد والجد الأكبر جون سميث ، فإن قائمته قد مثلت سميث مرة واحدة. هذا هو لتبسيط جمع البيانات والحساب.

لاحظ أيضًا أنه بالنسبة إلى أغراضي الحالية ، فإن اتجاه الألقاب غير مهم. قد تحتوي المباراة رقم 1 على شجرة مكونة من شخصين مع ماري سميث بصفتها والدة بوب جونز ، في حين أن المطابقة رقم 2 لها آن جونز بصفتها والدة بوب سميث. هذا هو "Smith-> Jones" و "Jones-> Smith". إذا قمت بتضمين الاتجاه ، فإن هذه القوائم مختلفة. أتعامل مع القوائم على أنها "حقيبة كلمات" ، حيث لا يكون الاتجاه مهمًا - لذا فإن هاتين القائمتين "جونز ، سميث" ، و "سميث ، جونز" هي نفسها. هذا هو لتبسيط جمع البيانات والحساب.

يجب مراعاة اثنين من التحذيرات مع فهرس Jaccard. إحداها أنه يمكن أن يكون خاطئًا بالنسبة لأحجام العينات الصغيرة ، لذلك أعتزم استبعاد الأشجار الصغيرة.
المشكلة الأخرى للفهرس هي عندما تكون هناك ملاحظات مفقودة في مجموعات البيانات. من الآمن أن أقول إن معظم قوائمي بها ملاحظات مفقودة ، لأنني لا أرسم من عينة من الأقارب ذوي الأشجار المثالية لأربعة أجيال. تميل الأشجار إلى أن تكون ممزقة ، أي أن الناس يعرفون أكثر عن فرع واحد من الآخر.

فكرتان حول "قياس التشابه في علم الأنساب باستخدام مؤشر Jaccard"

هذا مثير للاهتمام - أتطلع إلى رؤية ما ستفعله به. كيف تخطط للتعامل مع اختلافات هجاء اللقب؟

سؤال رائع أتعامل معه ولم أقرر بعد. ماذا تفعل مع O Raghallaigh / O’Reilly / Reilly / Riley: قد يرى خط أسلاف أيرلندي معين جميع المتغيرات عبر الأجيال المتعاقبة.
أسهل مطرقة ثقيلة هو طي المتغيرات في واحدة ، والخطوة الأولى هي تجريد "O" / "Mc" / "Mac" من الألقاب (أنا أركز على الأيرلندية هنا ولكن هذا هو تحدي النطاق الشخصي الخاص بي) . ثم ننتقل إلى أبعد من ذلك ، باستخدام مصادر متنوعة لأشكال الأسماء لطي الأسماء إلى إصدار واحد.
ومع ذلك ، قد يفقد هذا الثراء الذي يسمح بالتتبع التاريخي. على سبيل المثال ، تشترك مجموعة من المطابقات الخاصة بي في ألقاب الجيل الرابع / الخامس من متغير غير عادي ومتميز للغاية من اللقب الأيرلندي الشائع. هذا يسمح بالتتبع السهل من خلال سجلات الولايات المتحدة لخطهم.
بدلاً من ذلك ، أفكر في استخدام مقياس تشابه داخل الألقاب نفسها ، مما يضمن عدم التعامل مع المتغيرات على أنها مختلفة تمامًا ولكن لها تأثير في خفض مؤشر التشابه الكلي. التحدي هناك هو أن أوقات الحساب تصبح أعلى.

اترك تعليقا إلغاء الرد

يستخدم هذا الموقع Akismet لتقليل البريد العشوائي. تعرف على كيفية معالجة بيانات تعليقك.


حجة هذه الوظيفة هي قائمة من ثلاث مصفوفات مفهرسة جميعًا بنفس الطريقة تمامًا - يتم فهرسة صفوف كل من المصفوفة بواسطة المجمعات ، ، من أول رسم بياني ثنائي الجزء ، bg1 ، ويتم فهرسة العمود بواسطة المجمعات ، من الرسم البياني الثنائي الجزء الثاني ، bg2.

المصفوفة الأولى من القائمة هي مصفوفة التقاطع ، I. المدخل (i، j) لـ I هو العلاقة الأساسية للمركب C-i لـ bg1 و K-j لـ bg2.

المصفوفة الثانية من القائمة هي مصفوفة cminusk ، Q. المدخل (i ، j) لـ Q هو أصل الفرق بين C-i و K-j.

المصفوفة الثالثة من القائمة هي مصفوفة kminusc ، ف. إدخال (i، j) لـ P هو أصل الفرق بين K-j و C-i.

يُعطى معامل Jaccard بين مجموعتين (هنا بين مجمعين) C-i و K-j من خلال حاصل قسمة أصل (C-i تقاطع K-j) والعلاقة الأساسية (C-i union K-j). لاحظ أن العلاقة الأساسية (C-i intersect K-j) هي (i ، j) إدخال I ، وأن العلاقة الأساسية (C-i union K-j) هي مجموع (i ، j) إدخال I ، Q ، P.


Sklearn.metrics .jaccard_score¶

يتم استخدام مؤشر Jaccard [1] ، أو معامل تشابه Jaccard ، المحدد على أنه حجم التقاطع مقسومًا على حجم اتحاد مجموعتي ملصقات ، لمقارنة مجموعة التسميات المتوقعة لعينة بمجموعة الملصقات المقابلة في y_true .

العوامل y_true 1d مصفوفة تشبه ، أو مصفوفة مؤشر التسمية / مصفوفة متفرقة

تسميات الحقيقة الأساسية (الصحيحة).

y_pred 1d مصفوفة تشبه ، أو مصفوفة مؤشر التسمية / مصفوفة متفرقة

التسميات المتوقعة ، كما تم إرجاعها بواسطة المصنف.

ملصقات صفيف يشبه الشكل (n_classes ،) ، افتراضي = لا شيء

مجموعة التسميات المراد تضمينها عندما يكون المتوسط! = 'ثنائي' ، وترتيبها إذا كان المتوسط ​​بلا. يمكن استبعاد التسميات الموجودة في البيانات ، على سبيل المثال لحساب متوسط ​​متعدد الفئات مع تجاهل فئة الأغلبية السلبية ، بينما ستؤدي التسميات غير الموجودة في البيانات إلى 0 مكونات في متوسط ​​الماكرو. بالنسبة للأهداف متعددة التسميات ، فإن التسميات هي فهارس أعمدة. بشكل افتراضي ، يتم استخدام جميع الملصقات في y_true و y_pred بترتيب مرتب.

pos_label str أو int ، افتراضي = 1

الفئة المراد الإبلاغ عنها إذا كان المتوسط ​​= "ثنائي" والبيانات ثنائية. إذا كانت البيانات متعددة الفئات أو متعددة التسميات ، فسيتم تجاهل هذا الإعداد.

إذا لم يكن هناك شيء ، يتم إرجاع الدرجات الخاصة بكل فصل دراسي. بخلاف ذلك ، يحدد هذا نوع حساب المتوسط ​​الذي يتم إجراؤه على البيانات:

تقرير النتائج فقط للفئة المحددة بواسطة pos_label. لا ينطبق هذا إلا إذا كانت الأهداف (y_ ) ثنائية.

احسب المقاييس عالميًا عن طريق حساب إجمالي الإيجابيات الحقيقية والسلبيات الكاذبة والإيجابيات الكاذبة.

احسب مقاييس كل تصنيف ، وابحث عن المتوسط ​​غير المرجح. هذا لا يأخذ في الاعتبار عدم التوازن التسمية.

احسب المقاييس لكل تصنيف ، واعثر على متوسطها ، مرجحًا بالدعم (عدد المثيلات الحقيقية لكل تصنيف). هذا يغير "الماكرو" لمراعاة عدم التوازن في التسمية.

احسب المقاييس لكل حالة ، وابحث عن متوسطها (ذو معنى فقط لتصنيف متعدد التسميات).

وزن العينة مصفوفة تشبه الشكل (n_samples،) ، افتراضي = لا شيء

صفر_قسم "warn" ، <0.0 ، 1.0> ، افتراضي = "warn"

يعيّن القيمة التي يجب إرجاعها عندما يكون هناك قسمة صفرية ، أي عندما لا توجد قيم سلبية في التنبؤات والتسميات. إذا تم التعيين على "تحذير" ، فسيكون هذا بمثابة 0 ، ولكن يتم إصدار تحذير أيضًا.

عائدات نتيجة عائم (إذا لم يكن المتوسط ​​بلا) أو مصفوفة من العوامات ، الشكل = [n_unique_labels]

قد يكون jaccard_score مقياسًا ضعيفًا إذا لم تكن هناك إيجابيات لبعض العينات أو الفئات. Jaccard غير معرّف إذا لم تكن هناك تسميات صحيحة أو متوقعة ، وسيعيد تطبيقنا درجة 0 مع تحذير.


امتداد الأعمدة الصفرية لـ PWM

ليما 1. تمديد PWM بأي عدد من الأعمدة الصفرية من اليسار أو من اليمين لا يغير توزيع النقاط أو أي قيمة P مقابلة لأي حد درجة.

دليل: يكفي أن يكون لديك إثبات لعمود واحد مُلحق من اليمين. مصفوفة موسعة جديدة [م ه]4 * (م + 1) يحدد درجات ωأ م + 1. لعمود الصفر ، م[α, م + 1] = 0 للجميع α في أ و س(ω, م ه) = س(ω[1.. م], م). يمكن حساب القيمة P من توزيع النقاط: P M E ، t = ∑ s ≥ t Q M E ، s.

مجموعة الكلمات Ω ه = <ωأ م + 1 : س(ω, م ه) ≥ س> يمكن الحصول عليها من مجموعة الكلمات Ω بإضافة جميع اللواحق 1 <ω[م + 1]> = أ لأي كلمة ω[1.. م] من Ω. إذا تم إنشاء الكلمات بواسطة معرف نموذج عشوائي ، فإن احتمالاتها هي نتاج احتمالات الحرف ص(α). لذا فإن احتمالات (م+1) - العوامل في والاحتمال الناتج لا يتغير:

عكس التحول التكميلي لـ PWM

ليما 2. إذا تم إنشاء الكلمات بواسطة معرف نموذج عشوائي واحتمالات الخلفية تتوافق مع الشروط ص(أ) = ص(T) ، ص(ج) = ص(G) ثم لا يغير التحويل التكميلي العكسي لـ PWM M توزيع النقاط وبالتالي قيم P.

يأتي تأكيد هذه اللمة مباشرة من تعريف توزيع النقاط بعد إجراء جميع الاستبدالات. عن أي كلمة ω الحصول على نتيجة س مع م هناك إصابة مقابلة مع M ˜ ، والتي يتم الحصول عليها كـ ω اقرأ بالعكس مع الاستبدالات A T و G C.

محاذاة PWMs من عروض مختلفة

ليما 3. يجب أن يكون هناك زوج محاذاة من PWMs م1,م2 مع العتبات المقابلة ر1,ر2، وتحديد نماذج التعرف على TFBS Ω1، Ω2. لا يتغير تمديد كل من PWM مع أي عدد من الأعمدة الصفرية د1 (Ω1، Ω2).

الدليل: مرة أخرى ، يكفي أن يكون لديك إثبات لعمود واحد مضاف من اليمين. فكرة البرهان مشابهة جدًا لتلك الخاصة بـ Lemma 1. بالنسبة لتوزيع الاحتمالات المنتظم ، دعونا نفكر في الكسر J 1 1 E ، Ω 2 E = Ω 1 E ∩ Ω 2 E 1 E Ω 2 E. Ω1ه = Ω (م1ه, ر1) عن طريق إضافة جميع اللواحق 1 إلى أي كلمة من Ω1 = Ω (م1, ر1) وينطبق الشيء نفسه على2ه = Ω (م2ه, ر2). وبالتالي ، إذا كانت الكلمة في Ω (م1, ر1) ∩ Ω (م2, ر2) فإن امتداداته الأربعة المحتملة موجودة في Ω (م1ه, ر1) ∩ Ω (م2ه, ر2) و | Ω1ه ∩ Ω2ه| = 4 | Ω1 ∩ Ω2|.

تتم إضافة جميع اللواحق الأربعة عند الانتقال من (Ω1، Ω2) إلى (Ω1ه، Ω2ه). وبالتالي أي (م+1) -مر من Ω1ه أو Ω2ه له مقابل واحد م-مير في Ω1 ∪ Ω2 ولكل م-مير في Ω1 ∪ Ω2 هناك أربعة (م + 1) في1ه ∪ Ω2ه. هكذا | Ω1ه ∪ Ω2ه| = 4 | Ω1 ∪ Ω2|.

إن تقليل الكسر بمقدار 4 يثبت اللمة. في حالة التوزيع غير الموحد للاحتمالات في الخلفية صα، من المهم أن تقع احتمالية كلمة عشوائية ممتدة في Ω1ه ∩ Ω2ه هو نفسه للكلمة العشوائية غير الموسعة التي تقع في1 ∩ Ω2. إن إثبات ما سبق مشابه جدًا لإثبات Lemma 1. المعادلة المماثلة صحيحة بالنسبة للمقام ، مما يثبت lemma.

تعريف مقياس المسافة لنماذج TFBS

النظرية: مسافة د2 (Ω1، Ω2) = 1 − ي2 (Ω1، Ω2) مقياسًا مناسبًا في مساحة نماذج TFBS ممثلة على أنها PWMs مع عتبات تقابل مستويات القيمة P المعطاة.

دليل: لإثبات النظرية ، يحتاج المرء لإثبات ذلك د2 يتوافق مع الخصائص المترية التالية:

الخاصية الثانية واضحة من د2 تعريف والخاصية الأولى يتبعان من الملاحظة أن X ∩ Y = X ∪ Y فقط في حالة زيادة X = Y واحتمال مجموعة كلمات مع زيادة عدد الكلمات. يبقى فقط إثبات عدم مساواة المثلث.

إثبات متباينة المثلث. لاحظ أن المصفوفات تصبح ممتدة بأعمدة صفرية إذا لزم الأمر أثناء تحديد التحول والاتجاه الأمثل. يمكن القيام بذلك بأمان وفقًا لـ Lemma 3. وبالتالي ، فإننا نحذف ه فهرس للمصفوفات والنماذج من أجل البساطة.

دعونا نستخدم Ω1|3 تدوين للنموذج المحدد بواسطة م1 على النحو الأمثل مقابل م 3. نبدأ من محاذاة منفصلة من م1 و م 2 مع م 3 كمرجع. وهكذا نحصل على اثنين من المحاذاة الأمثل م1مقابل م3 و م2مقابل م3 المحاذاة الموروثة من م1مقابل م2 ليس ضروريًا هو الأمثل ولكنه مشروط بالمحاذاة المثلى ذات الصلة مع م 3.

ومع ذلك ، جميع المصفوفات الثلاث م1,م 2,م 3 تصبح محاذاة ، ولهذه المحاذاة ، تكون متباينة المثلث صالحة [16]:

عن طريق البناء ، د1 (Ω1|3، Ω3) = د2 (Ω1، Ω3) ، ومن الممكن إعادة كتابة المعادلة الأخيرة كـ د1 (Ω1|3، Ω2|3) ≤ د2 (Ω1، Ω3) + د2 (Ω2، Ω3). أخيرًا ، حسب التعريف: