معلومة

لماذا يتبع عدد الطفرات لكل فرد توزيع بواسون؟

لماذا يتبع عدد الطفرات لكل فرد توزيع بواسون؟


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

كنت أقرأ هذا الاستعراض. في الصفحة 11 ، العمود الأيسر ، الفقرة الأولى ، يمكن للمرء أن يقرأ:

[...] يوجد توزيع بواسون لعدد التوازن من الطفرات لكل فرد ، إذا كانت تأثيرات اللياقة البدنية مضاعفة.

مع عدم وجود تفسيرات أخرى. بمعنى آخر ، اجعل المتغير $ X $ هو عدد الطفرات (الضارة) الموجودة في فرد واحد (بغض النظر عما إذا كانت الطفرة قد حدثت في الغدد التناسلية الوالدية أو أقدم في النسب). المتغير $ X $ يتم توزيعه بواسون.

لماذا هذا البيان صحيح؟ أفترض أن العبارة تفترض أيضًا أن جميع الطفرات لها نفس التأثير على اللياقة ، هل هذا صحيح؟


تتبع عملية بواسون هذه الافتراضات:

  1. $ lim limits_ {h to0 +} frac {P (N_h = 1)} h = lambda $
    أي أن احتمال حدوث حدث واحد في فترة زمنية صغيرة جدًا يساوي المعدل العياني أو الشدة ($ lambda ، $).
  2. $ P (N_h geqslant2) = o (h) $
    أي أن احتمال حدوث أكثر من حدث واحد في فترة متناهية الصغر هو في الأساس صفر.
  3. الأحداث مستقلة.

إذا كنت تفكر في فرد واحد (من أجل البساطة افترض خلية واحدة) ، فإن الحمض النووي سيخضع لطفرات بمعدل ثابت (والذي نفترض أنه موحد لجميع المواقع). الآن كل حدث طفرة مستقل عن الحدث السابق وفي فترة زمنية صغيرة جدًا تكون فرصة حدوث طفرتين أو أكثر ضئيلة. بالنظر إلى كل هذه الحقائق والافتراضات ، يمكن القول أن الطفرة في خلية واحدة تتصرف مثل عملية بواسون.

من افتراضات بواسون ، يمكنك اشتقاق التعبير الخاص بتوزيع بواسون الذي يصف احتمالية $ k $ لعدد الأحداث في فترة زمنية معينة ، $ t $. ومن ثم ، فإن عدد الطفرات في الفرد لفترة زمنية محددة ($ t ، $) يتبع توزيع Poisson.

$$ P (N = k) = frac {( lambda t) ^ k e ^ {- lambda t}} {k!} $$

يمكنك إيجاد اشتقاق توزيع بواسون من الافتراضات من عدة مصادر. أشرت إلى هذا الكتاب:

هوغ ، روبرت ف ، وألين تي كريج. مقدمة في الإحصاء الرياضي. نيويورك: ماكميلان ، 1978.

تعديل

يتحدث تأثير الطفرات الضارة ، في القسم المذكور من الورقة المرتبطة ، عن سقاطة مولر التي تصف تراكم الطفرات الضارة وتأثيرها على السكان (أي الانقراض). مثل أي حدث طفرة ، فإن تراكم الطفرات الضارة سيتبع أيضًا توزيع بواسون. يقول سقاطة مولر فقط أنه بعد حد التسامح ، ستؤدي الطفرات الضارة إلى انقراض الكائنات الحية التي تتكاثر لاجنسيًا. ربما إذا كان لكل طفرة ضارة تأثير قوي على اللياقة ، فإن أخذ العينات من السكان قد يؤدي إلى تقديرات غير Poissonian.


لأنه نتيجة للشكل الوظيفي لتوزيع بواسون الذي يعني والتباين متساويان. إذا لم يتم استيفاء هذا الشرط ، فإن النموذج غير مناسب ويمكن اعتبار البدائل مثل الانحدار السلبي ذي الحدين (وهذا ما يسمى فرط التشتت). ارى:

لرؤية هذا ، دعنا نفكر في عدد حوادث الاصطدام لخاصية طريق معينة. لنفترض أن هذا الرقم يتبع توزيع بواسون بمتوسط ​​$ mu $. هذا يعني لعدد معين من الكيلومترات المقطوعة ، لذا دعنا نقدم السعر $ lambda $ ، لنقل 1 حادث لكل كيلومتر وإجمالي عدد الكيلومترات المقطوعة $ T $. أحد افتراضات توزيع بواسون هو أن المعدل يظل ثابتًا على إجمالي المسافة المقطوعة ، وبالتالي ، $ mu = T times lambda.

نقسم عدد الكيلومترات المقطوعة إلى فواصل زمنية قصيرة جدًا من $ N $ بحجم $ h $ ، وهي قصيرة جدًا بحيث تحتوي كل فاصل زمني فرعي على تحطم واحد على الأكثر. الآن ، احتمالية رؤيتك لانهيار في هذا الفاصل الضئيل تشبه قلب عملة معدنية. سنشير إلى هذا الاحتمال على أنه $ p $. يُعرف هذا باسم توزيعة برنولي وسنعتبر أن التباين هو $ p times (1 - p) $. من ناحية أخرى ، علمنا سابقًا أن السعر $ lambda $ ثابت لذلك نتوقع أن نرى حدث $ lambda times h $ في هذه الفترة الفرعية ، أي $ p = lambda times h $.

الآن ، إذا افترضنا أن احتمال رؤية انهيار في هذه الفترة الفرعية الصغيرة منخفض للغاية ، فإن $ 1 - p $ يقترب من 1 (على سبيل المثال ، ضع في اعتبارك $ h = text <1 meter> $). علمنا سابقًا أن التباين في توزيع برنولي هو $ p times (1-p) $ وإذا كان $ p $ منخفضًا للغاية ، فإن $ p times (1-p) simeq p = lambda times h. $ هذا مثير للاهتمام للغاية لأننا أظهرنا للتو أن كلاً من المتوسط ​​والتباين يساوي $ lambda times h $ في هذه الفترة الفرعية الصغيرة.

إذا قمت بتوسيع هذا الأسلوب إلى فترات متتالية $ n $ (مثل تقليب العملات $ n $ مرات) ، فستحصل على شيء يسمى التوزيع ذي الحدين وفي هذه الحالة ، المتوسط ​​هو $ np $ والتباين $ np (1-p ) simeq np $ عندما يكون $ p $ صغيرًا. للوصول إلى هذه النقطة ، بالنسبة لفترات متتالية من الحجم $ N $ من الحجم $ h $ مع $ p $ منخفض للغاية ، يكون المتوسط ​​والتباين متساويين.

الآن ، من الناحية العملية ، هذا ليس هو الحال عادة في الدراسات القائمة على الملاحظة. والسبب هو أننا لا نستطيع أن نأخذ في الاعتبار جميع عوامل عدم التجانس في الدراسة. على سبيل المثال ، قد يختلف متوسط ​​عدد الحوادث خلال النهار والليل. ومع ذلك ، إذا قمنا بتجميع كليهما دون احتساب العوامل المختلفة ، فقد يصبح التباين الهامشي أكبر مما نتوقعه. هذا يسمى فرط التشتت.


5 إجابات 5

سأستخدم الترميز التالي ليكون متسقًا قدر الإمكان مع الويكي (في حال كنت تريد الانتقال ذهابًا وإيابًا بين إجابتي وتعريفات الويكي للبويسون والأسي.)

$ N_t $: عدد الوافدين خلال الفترة الزمنية $ t $

$ X_t $: الوقت الذي يستغرقه وصول إضافي واحد بافتراض وصول شخص ما في الوقت المحدد $ t $

بحكم التعريف ، الشروط التالية متكافئة:

يلتقط الحدث الموجود على اليسار الحدث الذي لم يصل أي شخص في الفاصل الزمني $ [t، t + x] $ مما يعني أن عدد مرات الوصول في الوقت $ t + x $ مطابق للعدد في الوقت $ t $ وهو الحدث الموجود على اليمين.

من خلال القاعدة التكميلية ، لدينا أيضًا:

باستخدام معادلة الحدثين الموضحين أعلاه ، يمكننا إعادة كتابة ما سبق على النحو التالي:

$ P (X_t le x) = 1 - P (N_ - N_t = 0) دولار

باستخدام poisson pmf أعلاه حيث $ lambda $ هو متوسط ​​عدد مرات الوصول لكل وحدة زمنية و $ x $ كمية من الوحدات الزمنية ، يتم تبسيطها إلى:

الاستبدال في eqn الأصلي لدينا:

ما ورد أعلاه هو cdf لقوات الدفاع الشعبي الأسية.

بالنسبة لعملية Poisson ، تحدث النتائج عشوائيًا بشكل مستقل عن الماضي ، ولكن بمتوسط ​​معدل معروف على المدى الطويل $ lambda $ من الزيارات لكل وحدة زمنية. سيسمح لنا توزيع Poisson بإيجاد احتمال الحصول على عدد معين من النتائج.

الآن ، بدلاً من النظر إلى عدد النتائج ، ننظر إلى المتغير العشوائي $ L $ (لـ Lifetime) ، وهو الوقت الذي يجب أن تنتظر فيه النتيجة الأولى.

احتمال أن يكون وقت الانتظار أكثر من قيمة زمنية معينة هو $ P (L gt t) = P ( text) = frac < Lambda ^ 0e ^ <- Lambda >> <0!> = e ^ <- lambda t> $ (من خلال توزيع Poisson ، حيث $ Lambda = lambda t $).

$ P (L le t) = 1 - e ^ <- lambda t> $ (دالة التوزيع التراكمي). يمكننا الحصول على دالة الكثافة بأخذ مشتق من هذا:

يقال إن أي متغير عشوائي له دالة كثافة كهذه يتم توزيعه بشكل أسي.

تقوم الإجابات الأخرى بعمل جيد في شرح الرياضيات. أعتقد أنه من المفيد النظر في مثال مادي. عندما أفكر في عملية بواسون ، أعود دائمًا إلى فكرة مرور السيارات على الطريق. Lambda هو متوسط ​​عدد السيارات التي تمر لكل وحدة زمنية ، لنقل 60 / ساعة (لامدا = 60). ومع ذلك ، نعلم أن العدد الفعلي سيختلف - في بعض الأيام أكثر ، وبعض الأيام أقل. يسمح لنا توزيع بواسون بنمذجة هذا التباين.

الآن ، متوسط ​​60 سيارة في الساعة يعني مرور سيارة واحدة في المتوسط ​​في كل دقيقة. مرة أخرى ، نعلم أنه سيكون هناك تباين في مقدار الوقت بين الوافدين: في بعض الأحيان أكثر من دقيقة واحدة أخرى مرات أقل. يتيح لنا التوزيع الأسي نمذجة هذا التباين.

كل ما يقال ، السيارات المارة على الطريق لن تتبع دائمًا عملية بواسون. إذا كانت هناك إشارة مرور قريبة ، على سبيل المثال ، فسيتم تجميع الوافدين بدلاً من الثبات. على طريق سريع مفتوح ، يمكن لجرار-مقطورة بطيء أن يعيق طابورًا طويلًا من السيارات ، مما يتسبب مرة أخرى في حدوث تجمعات. في هذه الحالات ، قد لا يزال توزيع Poisson يعمل بشكل جيد لفترات زمنية أطول ، لكن الأسي سيفشل بشكل سيئ في نمذجة أوقات الوصول.

لاحظ أيضًا أن هناك تباينًا كبيرًا يعتمد على الوقت من اليوم: يكون الانشغال أثناء التنقل أبطأ بكثير في الساعة 3 صباحًا. تأكد من أن لامدا الخاص بك يعكس الفترة الزمنية المحددة التي تفكر فيها.


أساليب

الموديل

نحن نعتبر عددًا محدودًا من السكان أحادي الصيغة الصبغية اللاجنسي تمامًا (مع حجم سكانية ثابت ن) التي تضم 10 مجموعات سكانية فرعية ، لكل منها ن/10 أفراد ومعدل طفرة مختلف ، مع كل شيء متساوٍ. الأساس المنطقي لهذه الطريقة هو أن هذه المجموعات السكانية الفرعية تتنافس على الوجود في ظل الانتقاء الطبيعي والانجراف العشوائي. في نهاية المحاكاة ، تبقى مجموعة سكانية فرعية واحدة والباقي ينقرض. يصبح معدل الطفرة في المجموعة السكانية المتبقية هو معدل الطفرة "الثابت" في تلك المنافسة. من خلال محاكاة العملية عدة مرات ، يمكننا تحديد معدل الطفرة الأكثر ثباتًا على أنه معدل الطفرة "الأمثل".

يتم تعيين كل من المجموعات السكانية الفرعية العشرة بمعدل طفرة متميز لكل جينوم لكل جيل (انظر المعلمات). تحدث كل من الطفرات الضارة والمفيدة في كل مجموعة سكانية فرعية مع كسور للطفرات المفيدة والضارة التي يمثلها ص ب و ص د (أي 1- ص ب )، على التوالى. يتم استخلاص تأثيرات (معاملات الانتقاء) لكل من الطفرات المفيدة والضارة من التوزيعات الاحتمالية المستمرة. نشير س ب كتأثيرات الطفرات المفيدة (في هذه الحالة الملاءمة ث بمعامل 1+ س ب )، في حين س د يمثل آثار الطفرات الضارة (في هذه الحالة الملاءمة ث انخفض بعامل 1- س د )[21].

نحن نفترض أن س ب يتبع التوزيع الأسي: f (s b، λ) = λ e - λ s b مع 1 / λ كقيمة متوسطة للتوزيع. يتمتع هذا الافتراض بدعم نظري جيد من نظرية القيمة القصوى وقد استخدم على نطاق واسع في نماذج علم الوراثة السكانية [22-24]. قد تكون آثار الطفرات الضارة معقدة ولا يوجد افتراض عام حتى الآن حول توزيع س د ومع ذلك ، في الحسابات التحليلية ، تدعم الدراسات التجريبية توزيع غاما بمعامل شكل أصغر من واحد (لا يتم استبعاد التوزيعات الأخرى بالضرورة) [25 ، 26]. في هذه الدراسة ، نفترض ذلك س د يتبع توزيع غاما منحرف f (s d، α، β) = s d α - 1 e - s d / β / (β α Γ (α)) (α≤1). يتم اقتطاع توزيع غاما المستخدم في عمليات المحاكاة لدينا بقيمة 1.0 ، وهو أمر ضروري لتجنب إنتاج لياقة سلبية. بالإضافة إلى ذلك ، نفترض أن متوسط ​​تأثيرات الطفرات المفيدة (s b ¯) أصغر بكثير من متوسط ​​التأثيرات الضارة (s d ¯) ، والذي يبدو معقولًا في معظم الحالات [27 ، 28].

العوامل

في عمليات المحاكاة التي أجريناها ، تعد أحجام الكسور وتأثيرات كل من الطفرات المفيدة والضارة من أهم المعايير الكمية. ألقت العديد من الدراسات التجريبية على الميكروبات بعض الضوء على هذا المجال وتم تلخيص بعض تقديرات هذه المعلمات في الجدول 1 [29-35]. توفر هذه البيانات أفضل الافتراضات المتاحة للمعلمات المستخدمة في عمليات المحاكاة. يوضح الشكل 1 أحد الأمثلة على توزيع تأثيرات الطفرات وتغير الملاءمة المقابل الناجم عن الطفرات التي نتبناها. وهناك عامل أساسي آخر متضمن في عمليات المحاكاة وهو معدلات الطفرات المخصصة في البداية للمجموعات السكانية الفرعية العشرة. والصيغة اللوغاريتمية لمعدلات الطفرات (lg (يو)) موزعة بشكل موحد تقريبًا بين -4 و -1. بالإضافة إلى ذلك ، نعتمد عدة نطاقات تتكون من معدلات طفرة مختلفة ، موضحة في الجدول 2 ، لمعرفة ما إذا كان هذا النطاق الأولي يؤثر على معدل الطفرة الأمثل.

مثال واحد لتوزيع آثار الطفرات. (أ) آثار الطفرات الضارة تتبع توزيع جاما مع α = 0.6 (معلمة الشكل) ، β = 0.5 (معلمة المقياس) والتأثيرات المتوسطة s d = 0.3. (ب) آثار الطفرات المفيدة تتبع التوزيع الأسي مع λ = 100 والتأثيرات المتوسطة هي s ¯ b = 0.01. (ج) توزيع تغيرات اللياقة عن طريق كل من الطفرات الضارة والمفيدة مع ص د = 97٪ و ص ب = 3%.

المحاكاة العددية

خلال الدراسة ، نفترض أن الأجيال منفصلة وغير متداخلة. في كل جيل ، عدد الطفرات الجديدة (م) يظهر في فرد ينتمي إلى ط يتم استخلاص التجمعات السكانية الفرعية من توزيع بواسون p (m، U i) = U i m e - U i / m! ، أين يو أنا هو معدل طفرة الجينوم من ط مجموعة فرعية. ثم يتم إعطاء معدل الطفرات الضارة بواسطة يو أنا ×ص د ومعدل الطفرة المفيدة هو يو أنا ×ص ب . بالنظر إلى حدوث طفرة ضارة (أو مفيدة) ، فإن اللياقة ث من الفرد ينقص (أو يزداد) بمقدار 1- س د (أو 1+ س ب )، أين س د (أو س ب ) بشكل عشوائي من توزيع جاما (أو الأسي). هنا ، نفترض أنه لا يحدث أي نزيف ، وبالتالي فإن كل الطفرات لها تأثيرات مستقلة على اللياقة وتعمل بشكل مضاعف. من الممكن أن يحمل الفرد طفرات متعددة خلال جيل واحد. في هذه الحالة ، اللياقة البدنية للفرد في ال ال توليد (ث ن ) هي دالة لأرقام الطفرات التي يحملها الفرد (م) ، آثار طفراتهم (س ي ) ، ولياقة والدها في (ن -1)-ذ توليد (ث ن -1 ). يمكن وصف هذه الوظيفة بأنها

يتم أخذ عينات من النسل مع التكرار وفقًا لتوزيع متعدد الحدود ، مرجحًا بملاءمة الوالدين. نقوم بتسمية كل نسل بمعرف فريد لسكانه الفرعيين المعينين.

نتتبع عدد الأفراد من كل مجموعة سكانية فرعية حتى يصل حجم السكان لمجموعة سكانية فرعية واحدة ن وتصبح أحجام المجموعات السكانية الفرعية الأخرى صفراً. في هذه المرحلة ، يتم إيقاف العملية ويتم تسجيل معدل الطفرة المقابل للشريحة السكانية الفرعية المتبقية. بالإضافة إلى ذلك ، يتم أيضًا تتبع عدد الأجيال التي تستغرقها إحدى المسابقات. نقوم بتشغيل عمليات المحاكاة التي تختلف في كل من حجم السكان وتأثيرات الطفرات لتقييم كيف وإلى أي مدى تؤثر هذه على نتائج المنافسة (انظر النتائج). يتم أيضًا تخفيف بعض الظروف الأولية للسكان لاختبار قوة الطريقة (انظر المناقشة).


محتويات

تعديل دالة الكتلة الاحتمالية

يُقال إن المتغير العشوائي X المنفصل له توزيع بواسون ، مع المعلمة λ & gt 0 < displaystyle lambda & gt0> ، إذا كان لديه دالة كتلة احتمالية معطاة بواسطة: [2]: 60

العدد الحقيقي الموجب λ يساوي القيمة المتوقعة لـ X وأيضًا تباينها [3]

يمكن تطبيق توزيع Poisson على الأنظمة التي بها عدد كبير من الأحداث المحتملة ، كل منها نادر الحدوث. عدد مثل هذه الأحداث التي تحدث خلال فترة زمنية محددة ، في ظل الظروف المناسبة ، هو رقم عشوائي مع توزيع بواسون.

مثال تحرير

قد يكون توزيع Poisson مفيدًا لنمذجة أحداث مثل

  • عدد النيازك التي يزيد قطرها عن متر واحد والتي تضرب الأرض في السنة
  • عدد المرضى الذين يصلون إلى غرفة الطوارئ بين الساعة 10 و 11 مساءً
  • عدد فوتونات الليزر التي تصطدم بالكاشف في فترة زمنية معينة

الافتراضات والصلاحية تحرير

يعتبر توزيع بواسون نموذجًا مناسبًا إذا كانت الافتراضات التالية صحيحة: [4]

  • k هو عدد المرات التي يقع فيها حدث ما في فترة ما ويمكن لـ k أن تأخذ القيم 0 ، 1 ، 2 ،.
  • لا يؤثر وقوع حدث واحد على احتمال وقوع حدث ثان. أي أن الأحداث تحدث بشكل مستقل.
  • متوسط ​​المعدل الذي تحدث به الأحداث مستقل عن أي تكرارات. من أجل التبسيط ، يُفترض عادةً أن يكون هذا ثابتًا ، ولكن قد يختلف عمليًا مع مرور الوقت.
  • لا يمكن أن يحدث حدثان في نفس اللحظة تمامًا بدلاً من ذلك ، في كل فترة فرعية صغيرة جدًا يحدث حدث واحد تمامًا أو لا يحدث.

إذا كانت هذه الشروط صحيحة ، فإن k هو متغير Poisson العشوائي ، وتوزيع k هو توزيع بواسون.

توزيع بواسون هو أيضًا حد التوزيع ذي الحدين ، حيث يساوي احتمال النجاح لكل تجربة λ مقسومًا على عدد التجارب ، حيث يقترب عدد التجارب من اللانهاية (انظر التوزيعات ذات الصلة).

أمثلة على احتمالية تحرير توزيعات بواسون

في نهر معين ، تحدث الفيضانات الفائضة مرة كل 100 عام في المتوسط. احسب احتمال k = 0 ، أو 1 ، أو 2 ، أو 3 ، أو 4 ، أو 5 ، أو 6 الفيضانات الفائضة في فترة 100 عام ، على افتراض أن نموذج بواسون مناسب.

لأن متوسط ​​معدل الحدث هو فيضان فائض واحد لكل 100 عام ، λ = 1

احتمال حدوث فيضانات من 0 إلى 6 فيضانات خلال فترة 100 عام.

أفاد أوغارتي وزملاؤه أن متوسط ​​عدد الأهداف في مباراة كأس العالم لكرة القدم يبلغ 2.5 تقريبًا وأن نموذج بواسون مناسب. [5] لأن متوسط ​​معدل الحدث 2.5 هدف في المباراة ، λ = 2.5.

احتمال 0 إلى 7 أهداف في المباراة.

مرة واحدة في أحداث فاصلة: الحالة الخاصة لـ λ = 1 و ك = 0 تحرير

افترض أن علماء الفلك قدّروا أن النيازك الكبيرة (فوق حجم معين) تضرب الأرض في المتوسط ​​مرة واحدة كل 100 عام (λ = حدث واحد لكل 100 عام) ، وأن عدد ضربات النيزك يتبع توزيع بواسون. ما هو احتمال k = 0 يضرب نيزك في المائة عام القادمة؟

في ظل هذه الافتراضات ، فإن احتمال عدم اصطدام نيازك كبيرة بالأرض في المائة عام القادمة هو 0.37 تقريبًا. النسبة المتبقية 1 - 0.37 = 0.63 هي احتمال حدوث 1 أو 2 أو 3 أو أكثر من ضربات نيزك كبير في المائة عام القادمة. في المثال أعلاه ، حدث فيضان فائض مرة كل 100 عام (λ = 1). كان احتمال عدم حدوث فيضانات فائضة خلال 100 عام تقريبًا 0.37 ، بنفس الحساب.

بشكل عام ، إذا حدث حدث ما في المتوسط ​​مرة واحدة لكل فترة زمنية (λ = 1) ، وتتبع الأحداث توزيع بواسون ، إذن ص(0 أحداث في الفترة التالية) = 0.37. بالإضافة الى، ص(حدث واحد بالضبط في الفترة التالية) = 0.37 ، كما هو موضح في جدول الفيضانات الفائضة.

أمثلة تنتهك افتراضات بواسون

من المحتمل ألا يتبع عدد الطلاب الذين يصلون إلى اتحاد الطلاب في الدقيقة توزيع بواسون ، لأن المعدل ليس ثابتًا (معدل منخفض خلال وقت الفصل ، ومعدل مرتفع بين أوقات الفصل) وقادمين فرديين ليسوا مستقلين (الطلاب تميل إلى الحضور في مجموعات).

قد لا يتبع عدد الزلازل التي تبلغ قوتها 5 درجات سنويًا في بلد ما توزيع بواسون إذا زاد أحد الزلازل الكبيرة من احتمال حدوث توابع من نفس الحجم.

الأمثلة التي يتم فيها ضمان حدث واحد على الأقل لا يتم توزيع Poission ولكن يمكن نمذجتها باستخدام توزيع Poisson مقطوع صفريًا.

يمكن نمذجة توزيعات العد التي يكون فيها عدد الفواصل الزمنية التي تحتوي على أحداث صفرية أعلى من المتوقع بواسطة نموذج بواسون باستخدام نموذج مضخم صفري.

تحرير الإحصاء الوصفي

  • القيمة المتوقعة والتباين لمتغير عشوائي موزع بواسون كلاهما يساوي λ.
  • معامل الاختلاف هو λ - 1/2 < displaystyle textstyle lambda ^ <- 1/2 >> ، بينما مؤشر التشتت هو 1. [6]: 163
  • متوسط ​​الانحراف المطلق عن المتوسط ​​هو [6]: 163
  • وضع المتغير العشوائي الموزع بواسون بدون عدد صحيح يساوي ⌊ λ ⌋ ، وهو أكبر عدد صحيح أقل من أو يساوي λ. هذا هو مكتوب أيضا الكلمة (λ). عندما تكون λ عددًا صحيحًا موجبًا ، تكون الأوضاع λ و λ − 1.
  • جميع تراكمات توزيع بواسون تساوي القيمة المتوقعة λ. ال نالعزم المضروب لتوزيع بواسون هو λن .
  • تتحلل القيمة المتوقعة لعملية بواسون في بعض الأحيان إلى منتج الشدة و مكشوف (أو يتم التعبير عنها بشكل عام على أنها جزء لا يتجزأ من "وظيفة الكثافة" عبر الزمان أو المكان ، والتي توصف أحيانًا باسم "التعرض"). [7]

تحرير الوسيط

لحظات أعلى تحرير

تحرير مجاميع المتغيرات العشوائية الموزعة بواسون

خصائص أخرى تحرير

  • توزيعات بواسون هي توزيعات احتمالية لا نهائية للقسمة. [14]: 233 [6]: 164
  • تباعد Kullback – Leibler الموجه لـ Pois ⁡ (λ 0) ( lambda _ <0>)> من Pois ⁡ (λ) ( lambda)> بواسطة
  • حدود احتمالات الذيل لمتغير Poisson العشوائي X ∼ Pois ⁡ (λ) ( lambda)> يمكن اشتقاقها باستخدام وسيطة مرتبطة بـ Chernoff. [15]: 97-98
  • يمكن تشديد احتمال الذيل العلوي (بمعامل لا يقل عن اثنين) على النحو التالي: [16]
  • المتباينات التي تتعلق بوظيفة التوزيع لمتغير Poisson العشوائي X ∼ Pois ⁡ (λ) ( lambda)> إلى دالة التوزيع العادية القياسية Φ (x) < displaystyle Phi (x)> كالتالي: [16]

سباقات بواسون تحرير

تم إثبات الحد الأعلى باستخدام حد Chernoff القياسي.

تحرير عام

  • إذا كانت X 1 ∼ P o i s (λ 1) sim mathrm ( lambda _ <1>) > و X 2 ∼ الفوسفور o i ث (λ 2) sim mathrm ( lambda _ <2>) > مستقلتان ، فإن الفرق Y = X 1 - X 2 < displaystyle Y = X_ <1> -X_ <2>> يتبع توزيع Skellam.
  • إذا كانت X 1 ∼ P o i s (λ 1) sim mathrm ( lambda _ <1>) > و X 2 ∼ الفوسفور o i ث (λ 2) sim mathrm ( lambda _ <2>) > مستقلة ، ثم توزيع X 1 > شرطي على X 1 + X 2 + X_ <2>> هو توزيع ثنائي.
  • إذا كانت X ∼ الفوسفور o i ث (λ) ( lambda) ،> وتوزيع Y < displaystyle Y> ، مشروط X = ك، هو توزيع ذي الحدين ، Y ∣ (X = k) ∼ B i n o m (k، p) (ك ، ع)> ، ثم توزيع Y يتبع توزيع بواسون Y ∼ P o i s (λ ⋅ p) ( لامدا cdot ع) ،>. في الواقع ، إذا كان < displaystyle <> >> ، شرطي على X = ك ، يتبع توزيع متعدد الحدود ، ∣ (X = ك) ∼ M u l t i n o m (k، p i) > mid (X = k) sim mathrm يسار (ك ، ص_ right)> ، ثم كل Y i > يتبع توزيع Poisson المستقل Y i ∼ P o i s (λ ⋅ p i) ، ρ (Y i، Y ​​j) = 0 سيم ماثرم ( لامدا cdot ع_) ، rho (Y_، ص)=0> .
  • يمكن اشتقاق توزيع Poisson كحالة مقيدة للتوزيع ذي الحدين حيث أن عدد المحاكمات يذهب إلى اللانهاية والعدد المتوقع للنجاحات يظل ثابتًا - انظر قانون الأحداث النادرة أدناه. لذلك ، يمكن استخدامه كتقريب للتوزيع ذي الحدين إذا ن كبير بما فيه الكفاية و ص صغير بما فيه الكفاية. هناك قاعدة عامة تنص على أن توزيع بواسون هو تقريب جيد للتوزيع ذي الحدين إذا كان n على الأقل 20 و ص أصغر من أو يساوي 0.05 ، وتقريب ممتاز إذا ن ≥ 100 و np ≤ 10. [18]
  • توزيع بواسون هو حالة خاصة لتوزيع بواسون المركب المنفصل (أو توزيع بواسون المتلعثم) بمعامل فقط. [19] [20] يمكن استنتاج توزيع بواسون المركب المنفصل من التوزيع المحدود للتوزيع أحادي المتغير متعدد الحدود. وهي أيضًا حالة خاصة لتوزيع Poisson المركب.
  • لقيم λ كبيرة بما فيه الكفاية (على سبيل المثال λ & gt1000) ، التوزيع الطبيعي بمتوسط ​​λ والتباين λ (الانحراف المعياري λ < displaystyle < sqrt < lambda >>>) هو تقريب ممتاز لتوزيع بواسون. إذا كانت أكبر من حوالي 10 ، فإن التوزيع الطبيعي هو تقريب جيد إذا تم إجراء تصحيح استمرارية مناسب ، أي إذا كان P (Xx)، أين x هو عدد صحيح غير سالب ، يتم استبداله بـ P (Xx + 0.5).
    : إذا كان X ∼ P o i s (λ) ( لامدا) ،> ، إذن
  • إذا لكل ر & gt 0 عدد مرات الوصول في الفاصل الزمني [0، ر] يتبع توزيع بواسون بمتوسط λt، فإن تسلسل أوقات الوصول تكون مستقلة ومتشابهة المتغيرات العشوائية الأسية التي تعني 1 /λ. [23] : 317–319
  • ترتبط وظائف التوزيع التراكمي لتوزيعات Poisson و chi-squared بالطرق التالية: [6]: 167

تحرير تقريب بواسون

تحرير توزيع بواسون ثنائي المتغير

تم تمديد هذا التوزيع إلى حالة ثنائية المتغير. [25] وظيفة التوليد لهذا التوزيع هي

التوزيعات الهامشية هي بواسون (θ1) وبواسون (θ2) ومعامل الارتباط يقتصر على النطاق

تحرير توزيع Poisson

هذا التعريف مشابه لإحدى الطرق التي يتم بها الحصول على توزيع بواسون الكلاسيكي من عملية بواسون (كلاسيكية).

يتم إعطاء التدبير المرتبط بقانون بواسون المجاني بواسطة [27]

بعض تحولات هذا القانون تحرير

نعطي قيمًا لبعض التحولات المهمة لقانون Poisson المجاني ، يمكن العثور على الحساب في على سبيل المثال في هذا الكتاب محاضرات عن التوافقية للاحتمالية الحرة بقلم أ. نيكا و ر. سبيتشر [28]

يتم إعطاء تحويل R لقانون Poisson المجاني بواسطة

يتم إعطاء تحويل Cauchy (وهو سلبي لتحويل Stieltjes) بواسطة

تحرير تقدير المعلمة

نظرًا لأن كل ملاحظة لها توقع λ فهل تعني العينة. لذلك ، فإن تقدير الاحتمالية القصوى هو مقدر غير متحيز لـ λ. وهو أيضًا مقدر فعال نظرًا لأن تباينه يحقق الحد الأدنى Cramér-Rao (CRLB). [ بحاجة لمصدر ] ومن ثم يعتبر الحد الأدنى من التباين غير متحيز. كما يمكن إثبات أن المجموع (ومن ثم متوسط ​​العينة لأنه دالة فردية للمبلغ) هو إحصاء كامل وكافٍ لـ λ.

للعثور على المعلمة λ التي تزيد من دالة الاحتمال لسكان بواسون ، يمكننا استخدام لوغاريتم دالة الاحتمال:

حل ل λ يعطي نقطة ثابتة.

وبالتالي λ هو متوسط كأنا القيم. الحصول على علامة المشتق الثاني لـ إل عند النقطة الثابتة سيحدد نوع القيمة القصوى λ يكون.

إيجاد المشتق الثاني عند النقطة الثابتة يعطي:

وهو سلبي من ن ضرب مقلوب متوسط ​​kأنا. هذا التعبير سالب عندما يكون المتوسط ​​موجبًا. إذا تم استيفاء ذلك ، فإن النقطة الثابتة تزيد من دالة الاحتمال.

تحرير الفاصل الزمني للثقة

يمكن التعبير عن فاصل الثقة لمتوسط ​​توزيع بواسون باستخدام العلاقة بين وظائف التوزيع التراكمي لتوزيعات بواسون وكي تربيع. يرتبط توزيع مربع كاي ارتباطًا وثيقًا بتوزيع جاما ، وهذا يؤدي إلى تعبير بديل. بالنظر إلى الملاحظة ك من توزيع بواسون بمتوسط ميكرومتر، فاصل الثقة ل ميكرومتر بثقة المستوى 1 - α هو

حيث χ 2 (p n) (pn)> هي الدالة الكمية (المقابلة لمنطقة الذيل السفلية) ص) لتوزيع كاي تربيع مع ن درجات الحرية و F - 1 (pn، 1) < displaystyle F ^ <-1> (pn، 1)> هي الدالة الكمية لتوزيع جاما مع معلمة الشكل n ومعلمة المقياس 1. [6]: 176- 178 [30] هذه الفترة الزمنية "دقيقة" بمعنى أن احتمالية تغطيتها لا تقل أبدًا عن 1 - α الاسمي.

عندما لا تتوفر كميات توزيع جاما ، تم اقتراح تقريب دقيق لهذه الفترة الزمنية الدقيقة (بناءً على تحويل ويلسون-هيلفيرتي): [31]

لتطبيق هذه الصيغ في نفس السياق على النحو الوارد أعلاه (بالنظر إلى عينة من ن القيم المقاسة كأنا كل واحد مستمد من توزيع بواسون بمتوسط λ) ، يمكن للمرء أن يحدد

احسب فترة ميكرومتر = لا، ثم قم باشتقاق الفاصل الزمني لـ λ.

تحرير الاستدلال بايزي

في الاستدلال البايزي ، المرافق السابق لمعلمة المعدل λ توزيع بواسون هو توزيع جاما. [32] اسمحوا

تدل على ذلك λ يتم توزيعها حسب كثافة جاما ز معلمات من حيث معلمة الشكل α ومعلمة مقياس عكسي β:

ثم ، بالنظر إلى نفس العينة من ن القيم المقاسة كأنا كما في السابق ، وسابقة من جاما (α, β) ، التوزيع اللاحق

التوزيع التنبئي اللاحق لملاحظة إضافية واحدة هو توزيع سالب ذي الحدين ، [33]: 53 يُسمى أحيانًا توزيع غاما-بواسون.

التقدير المتزامن لبواسون المتعدد يعني تحرير

يمكن العثور على تطبيقات توزيع Poisson في العديد من المجالات بما في ذلك: [36]

    مثال: وصول المكالمات الهاتفية في النظام. مثال: وصول الفوتونات إلى التلسكوب. مثال: توزيع الكتلة المولية لبلمرة حية. [37] مثال: عدد الطفرات على خيط من الحمض النووي لكل وحدة طول. مثال: وصول العملاء إلى كاونتر أو مركز اتصال. مثال: عدد الخسائر أو المطالبات التي حدثت في فترة زمنية معينة. مثال: نموذج بواسون مقارب للمخاطر الزلزالية للزلازل الكبيرة. [38] مثال: عدد حالات الاضمحلال في فترة زمنية معينة في عينة مشعة. مثال: عدد الفوتونات المنبعثة في نبضة ليزر واحدة. هذه ثغرة أمنية كبيرة لمعظم بروتوكولات توزيع المفاتيح الكمية المعروفة باسم تقسيم رقم الفوتون (PNS).

ينشأ توزيع بواسون فيما يتعلق بعمليات بواسون. ينطبق على ظواهر مختلفة من الخصائص المنفصلة (أي تلك التي قد تحدث 0 ، 1 ، 2 ، 3 ،. مرات خلال فترة زمنية معينة أو في منطقة معينة) عندما يكون احتمال حدوث الظاهرة ثابتًا في الوقت أو فضاء. تتضمن أمثلة الأحداث التي يمكن نمذجتها كتوزيع بواسون ما يلي:

  • عدد الجنود الذين قتلوا بركلات الخيول كل عام في كل سلاح في سلاح الفرسان البروسي. تم استخدام هذا المثال في كتاب من تأليف Ladislaus Bortkiewicz (1868–1931). [39]: 23-25
  • عدد خلايا الخميرة المستخدمة عند تخمير بيرة غينيس. استخدم هذا المثال ويليام سيلي جوسيت (1876-1937). [40] [41]
  • عدد المكالمات الهاتفية التي تصل إلى مركز الاتصال خلال دقيقة. تم وصف هذا المثال بواسطة A.K. إرلانج (1878-1929). [42]
  • حركة المرور على الإنترنت.
  • عدد الأهداف في الألعاب الرياضية التي يشارك فيها فريقان متنافسان. [43]
  • عدد الوفيات في السنة في فئة عمرية معينة.
  • عدد القفزات في سعر السهم في فترة زمنية معينة.
  • في ظل افتراض التجانس ، عدد المرات التي يتم فيها الوصول إلى خادم الويب في الدقيقة.
  • عدد الطفرات في امتداد معين من الحمض النووي بعد كمية معينة من الإشعاع.
  • نسبة الخلايا المصابة في عدوى معينة.
  • عدد البكتيريا في كمية معينة من السائل. [44]
  • وصول الفوتونات على دائرة البكسل عند إضاءة معينة وخلال فترة زمنية معينة.
  • تم التحقيق في استهداف القنابل الطائرة V-1 على لندن أثناء الحرب العالمية الثانية بواسطة R.D. Clarke في عام 1946. [45]

أظهر غالاغر في عام 1976 أن أعداد الأعداد الأولية في فترات زمنية قصيرة تخضع لتوزيع بواسون [46] قدمت نسخة معينة من تخمين مجموعة r-tuple الأولية غير المثبتة لـ Hardy-Littlewood [47] صحيح.

تعديل قانون الأحداث النادرة

في العديد من الأمثلة المذكورة أعلاه - مثل عدد الطفرات في تسلسل معين من الحمض النووي - الأحداث التي يتم عدها هي في الواقع نتائج تجارب منفصلة ، وستكون أكثر دقة في نمذجة باستخدام التوزيع ذي الحدين ، أي

في حالات كهذه ن كبير جدا و ص صغير جدًا (وبالتالي فإن التوقع np متوسط ​​الحجم). ثم يمكن تقريب التوزيع عن طريق توزيع بواسون الأقل تعقيدًا [ بحاجة لمصدر ]

يُعرف هذا التقريب أحيانًا باسم قانون الأحداث النادرة، [48]: 5 منذ كل من ن نادرا ما تحدث أحداث برنولي الفردية. The name may be misleading because the total count of success events in a Poisson process need not be rare if the parameter np is not small. For example, the number of telephone calls to a busy switchboard in one hour follows a Poisson distribution with the events appearing frequent to the operator, but they are rare from the point of view of the average member of the population who is very unlikely to make a call to that switchboard in that hour.

The word law is sometimes used as a synonym of probability distribution, and convergence in law means convergence in distribution. Accordingly, the Poisson distribution is sometimes called the "law of small numbers" because it is the probability distribution of the number of occurrences of an event that happens rarely but has very many opportunities to happen. The Law of Small Numbers is a book by Ladislaus Bortkiewicz about the Poisson distribution, published in 1898. [39] [49]

Poisson point process Edit

The Poisson distribution arises as the number of points of a Poisson point process located in some finite region. More specifically, if د is some region space, for example Euclidean space ر د , for which |د|, the area, volume or, more generally, the Lebesgue measure of the region is finite, and if ن(د) denotes the number of points in د, then

Poisson regression and negative binomial regression Edit

Poisson regression and negative binomial regression are useful for analyses where the dependent (response) variable is the count (0, 1, 2, . ) of the number of events or occurrences in an interval.

Other applications in science Edit

The correlation of the mean and standard deviation in counting independent discrete occurrences is useful scientifically. By monitoring how the fluctuations vary with the mean signal, one can estimate the contribution of a single occurrence, even if that contribution is too small to be detected directly. For example, the charge ه on an electron can be estimated by correlating the magnitude of an electric current with its shot noise. لو ن electrons pass a point in a given time ر on the average, the mean current is I = e N / t since the current fluctuations should be of the order σ I = e N / t =e>/t> (i.e., the standard deviation of the Poisson process), the charge e can be estimated from the ratio t σ I 2 / I ^<2>/I> . [ بحاجة لمصدر ]

An everyday example is the graininess that appears as photographs are enlarged the graininess is due to Poisson fluctuations in the number of reduced silver grains, not to the individual grains themselves. By correlating the graininess with the degree of enlargement, one can estimate the contribution of an individual grain (which is otherwise too small to be seen unaided). [ بحاجة لمصدر ] Many other molecular applications of Poisson noise have been developed, e.g., estimating the number density of receptor molecules in a cell membrane.

In Causal Set theory the discrete elements of spacetime follow a Poisson distribution in the volume.

The Poisson distribution poses two different tasks for dedicated software libraries: Evaluating the distribution P ( k λ ) , and drawing random numbers according to that distribution.

Evaluating the Poisson distribution Edit

f ( k λ ) = exp ⁡ [ k ln ⁡ λ − λ − ln ⁡ Γ ( k + 1 ) ] ,

which is mathematically equivalent but numerically stable. The natural logarithm of the Gamma function can be obtained using the lgamma function in the C standard library (C99 version) or R, the gammaln function in MATLAB or SciPy, or the log_gamma function in Fortran 2008 and later.

Some computing languages provide built-in functions to evaluate the Poisson distribution, namely

    : function dpois(x, lambda) : function POISSON( x, mean, cumulative) , with a flag to specify the cumulative distribution : univariate Poisson distribution as PoissonDistribution[ λ ] , [50] bivariate Poisson distribution as MultivariatePoissonDistribution[ θ 12 > ,< θ 1 − θ 12 - heta _<12>> , θ 2 − θ 12 - heta _<12>> >] ,. [51]

Random drawing from the Poisson distribution Edit

The less trivial task is to draw random integers from the Poisson distribution with given λ .

Solutions are provided by:

Generating Poisson-distributed random variables Edit

A simple algorithm to generate random Poisson-distributed numbers (pseudo-random number sampling) has been given by Knuth: [52] : 137-138

The complexity is linear in the returned value ك, which is λ on average. There are many other algorithms to improve this. Some are given in Ahrens & Dieter, see § References below.

For large values of λ, the value of L = ه −λ may be so small that it is hard to represent. This can be solved by a change to the algorithm which uses an additional parameter STEP such that ه −STEP does not underflow: [ بحاجة لمصدر ]

The choice of STEP depends on the threshold of overflow. For double precision floating point format, the threshold is near ه 700 , so 500 shall be a safe STEP.

Other solutions for large values of λ include rejection sampling and using Gaussian approximation.

Inverse transform sampling is simple and efficient for small values of λ, and requires only one uniform random number u per sample. Cumulative probabilities are examined in turn until one exceeds u.

The distribution was first introduced by Siméon Denis Poisson (1781–1840) and published together with his probability theory in his work Recherches sur la probabilité des jugements en matière criminelle et en matière civile(1837). [54] : 205-207 The work theorized about the number of wrongful convictions in a given country by focusing on certain random variables ن that count, among other things, the number of discrete occurrences (sometimes called "events" or "arrivals") that take place during a time-interval of given length. The result had already been given in 1711 by Abraham de Moivre in De Mensura Sortis seu de Probabilitate Eventuum in Ludis a Casu Fortuito Pendentibus . [55] : 219 [56] : 14-15 [57] : 193 [6] : 157 This makes it an example of Stigler's law and it has prompted some authors to argue that the Poisson distribution should bear the name of de Moivre. [58] [59]

In 1860, Simon Newcomb fitted the Poisson distribution to the number of stars found in a unit of space. [60] A further practical application of this distribution was made by Ladislaus Bortkiewicz in 1898 when he was given the task of investigating the number of soldiers in the Prussian army killed accidentally by horse kicks [39] : 23-25 this experiment introduced the Poisson distribution to the field of reliability engineering.


A more realistic model!

Now let’s consider per-capita birth and death rates in the population. This way, if the population is bigger, the total births will increase!

Click on this link to load up the next population modeling demonstration.

In the upper right-hand corner of the screen, click on the “Clone Insight” link at the top and click on the “Clone” button on the following screen (so you can make edits to this model!). If you want, you can change the name of the model by clicking on the whitespace anywhere in your InsightMaker workspace and then clicking the “Edit Info” button on the left-hand context menu.

Your model should look something like this:

Hover your cursor over the two [Flows] (Births and Deaths). Do these equations make sense?

Make sure the initial number of moose is set to 50, the birth rate is set to 0.5, and the death rate is set to 0.4. Now click [Run Simulation]. How would you describe the results?

س: what happens if you set the birth rate equal to the death rate?

س: what happens if you set the birth rate less than the death rate?

One of the most fundamental quantities in population ecology is called the “intrinsic rate of growth”, or ص. R is simply the difference between birth and death rate:

س: What is the intrinsic rate of growth for this population (when birth rate is set to 0.5 and the death rate is set to 0.4)?

س: What is the next thing you would like to change to make the model more realistic?


by Joe Felsenstein and Michael Lynch

The blogs of creationists and advocates of ID have been abuzz lately about exciting new work by William Basener and John Sanford. In a peer-reviewed paper at Journal of Mathematical Biology, they have presented a mathematical model of mutation and natural selection in a haploid population, and they find in one realistic case that natural selection is unable to prevent the continual decline of fitness. This is presented as correcting R.A. Fisher’s 1930 “Fundamental Theorem of Natural Selection”, which they argue is the basis for all subsequent theory in population genetics. The blog postings on that will be found here, here, here, here, here, here, and here.

One of us (JF) has argued at The Skeptical Zone that they have misread the literature on population genetics. The theory of mutation and natural selection developed during the 1920s, was relatively fully developed before Fisher’s 1930 book. Fisher’s FTNS has been difficult to understand, and subsequent work has not depended on it. But that still leaves us with the issue of whether the B and S simulations show some startling behavior, with deleterious mutations seemingly unable to be prevented from continually rising in frequency. Let’s take a closer look at their simulations.

Basener and Sanford show equations, mostly mostly taken from a paper by Claus Wilke, for changes in genotype frequencies in a haploid, asexual species experiencing mutation and natural selection. They keep track of the distribution of the values of fitness on a continuous scale time scale. Genotypes at different values of the fitness scale have different birth rates. There is a distribution of fitness effects of mutations, as displacements on the fitness scale. An important detail is that the genotypes are haploid and asexual — they have no recombination, so they do not mate.

After giving the equations for this model, they present runs of a simulation program. In some runs with distributions of mutations that show equal numbers of beneficial and deleterious mutations all goes as expected — the genetic variance in the population rises, and as it does the mean fitness rises more and more. But in their final case, which they argue is more realistic, there are mostly deleterious mutations. The startling outcome in the simulation in that case is there absence of an equilibrium between mutation and selection. Instead the deleterious mutations go to fixation in the population, and the mean fitness of the population steadily declines.

Why does that happen? For deleterious mutations in large populations, we typically see them come to a low equilibrium frequency reflecting a balance between mutation and selection. But they’re not doing that at high mutation rates!

The key is the absence of recombination in these clonally-reproducing haploid organisms. In effect each haploid organism is passed on whole, as if it were a copy of a single gene. So the frequencies of the mutant alleles should reflect the balance between the selection coefficient against the mutant (which is said to be near 0.001 in their simulation) versus the mutation rate. But they have one mutation per generation per haploid individual. Thus the mutation rate is, in effect, 1000 times the selection coefficient against the mutant allele. The selection coefficient of 0.001 means about a 0.1% decline in the frequency of a deleterious allele per generation, which is overwhelmed when one new mutant per individual comes in each generation.

In the usual calculations of the balance between mutation and selection, the mutation rate is smaller than the selection coefficient against the mutant. With (say) 20,000 loci (genes) the mutation rate per locus would be 1/20,000 = 0.00005. That would predict an equilibrium frequency near 0.00005/0.001, or 0.05, at each locus. But if the mutation rate were 1, we predict no equilibrium, but rather that the mutant allele is driven to fixation because the selection is too weak to counteract that large a rate of mutation. So there is really nothing new here. In fact 91 years ago J.B.S. Haldane, in his 1927 paper on the balance between selection and mutation, wrote that “To sum up, if selection acts against mutation, it is ineffective provided that the rate of mutation is greater than the coefficient of selection.”

If Basener and Sanford’s simulation allowed recombination between the genes, the outcome would be very different — there would be an equilibrium gene frequency at each locus, with no tendency of the mutant alleles at the individual loci to rise to fixation.

If selection acted individually at each locus, with growth rates for each haploid genotype being added across loci, a similar result would be expected, even without recombination. But in the Basener/Stanford simulation the fitnesses do not add — instead they generate linkage disequilibrium, in this case negative associations that leave us with selection at the different loci opposing each other. Add in recombination, and there would be a dramatically different, and much more conventional, result.

Technical Oddities

Most readers may want to stop there. We add this section for those more familiar with population genetics theory, simply to point out some mysteries connected with the Basener/Stanford simulations:

1. One odd assumption that they make is that any fitness class that has a frequency below 1 part in a billion gets set to 0. This is not a reasonable way to take genetic drift into account, as all fitness classes are subject to random fluctuations. We imagine such a treatment is a minor issue, relative to the enormous mutation pressure imposed in their study. But someone should check this, which can be done as their Javascript source can be downloaded and then made comprehensible by a Javascript beautifier.

2. The behavior of their iterations in some cases is, well, weird. In the crucial final simulation, the genetic variance of fitness rises, reaches a limit, bounces sharply off it, and from then on decreases. We’re not sure why, and suspect a program bug, which we haven’t noticed. We have found that if we run the simulation for many more generations, such odd bouncings of the mean and variance off of upper and lower limits are ultimately seen. We don’t think that this has much to do with mutation overwhelming selection, though.

3. We note one mistake in the Basener and Sanford work. The organisms’ death rates are 0.1 per time step. That would suggest a generation time of about 10 time steps. But Basener and Stanford take there to be one generation per unit of time. That is incorrect. However the mutation rate and the selection coefficient are still 1 and 0.001 per generation, even if the generations are 10 units of time.

Joe Felsenstein, originally trained as a theoretical population geneticist, is an evolutionary biologist who is Professor Emeritus in the Department of Genome Sciences and the Department of Biology at the University of Washington, Seattle. He is the author of the books “Inferring Phylogenies” and “Theoretical Evolutionary Genetics”. He frequently posts and comments here.

Michael Lynch is the director of the Biodesign Center for Mechanisms of Evolution at Arizona State University, and author of “The Origins of Genome Architecture” and, with Bruce Walsh, of “Genetics and Analysis of Quantitative Traits”. Six of his papers are cited in the Basener/Stanford paper.


Notes on Poisson Distribution and Binomial Distribution

A Binomial Distribution is used to model the probability of the number of successes we can expect from n trials with a probability p. The Poisson Distribution is a special case of the Binomial Distribution as n goes to infinity while the expected number of successes remains fixed. The Poisson is used as an approximation of the Binomial if n is large and p is small.

As with many ideas in statistics, “large” and “small” are up to interpretation. A rule of thumb is the Poisson distribution is a decent approximation of the Binomial if n > 20 and np < 10. Therefore, a coin flip, even for 100 trials, should be modeled as a Binomial because np =50. A call center which gets 1 call every 30 minutes over 120 minutes could be modeled as a Poisson distribution as np = 4. One important distinction is a Binomial occurs for a fixed set of trials (the domain is discrete) while a Poisson occurs over a theoretically infinite number of trials (continuous domain). This is only an approximation remember, all models are wrong, but some are useful!


3 Poisson Regression

No, but seriously, here’s the entire Poisson section on Robert I. Kabacoff’s quickR blog at http://www.statmethods.net/advstats/glm.html:

It’s about cases (i.e., counts) of disease among high school students by number of days after outbreak. Here’s the data, called ‘cases.’ Each time, run the whole chunk at once or it won’t work.

Behold, the Poisson distribution! Notice the mode at one extreme and the tail off to the other side. This is characteristic of Poisson distributions.


Central Limit Theorem with a Skewed Distribution

The Poisson distribution is another probability model that is useful for modeling discrete variables such as the number of events occurring during a given time interval. For example, suppose you typically receive about 4 spam emails per day, but the number varies from day to day. Today you happened to receive 5 spam emails. What is the probability of that happening, given that the typical rate is 4 per day? The Poisson probability is:

The mean for the distribution is μ (the average or typical rate), "X" is the actual number of events that occur ("successes"), and "e" is the constant approximately equal to 2.71828. So, in the example above

Now let's consider another Poisson distribution. with μ=3 and σ=1.73. The distribution is shown in the figure below.

This population is not normally distributed, but the Central Limit Theorem will apply if n & GT 30. In fact, if we take samples of size n=30, we obtain samples distributed as shown in the first graph below with a mean of 3 and standard deviation = 0.32. In contrast, with small samples of n=10, we obtain samples distributed as shown in the lower graph. Note that n=10 does not meet the criterion for the Central Limit Theorem, and the small samples on the right give a distribution that is not quite normal. Also note that the sample standard deviation (also called the "standard error") is larger with smaller samples, because it is obtained by dividing the population standard deviation by the square root of the sample size. Another way of thinking about this is that extreme values will have less impact on the sample mean when the sample size is large.

Content �. All Rights Reserved.
Date last modified: July 24, 2016.
Wayne W. LaMorte, MD, PhD, MPH


شاهد الفيديو: توزيع بواسون (قد 2022).