معلومة

شبكة وظيفة الأساس الشعاعي (شبكة RBF)

شبكة وظيفة الأساس الشعاعي (شبكة RBF)


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

في مقالة Wikipedia حول شبكة الوظائف ذات الأساس الشعاعي ، لم أفهم المقصود بعبارة "متجه المركز للخلايا العصبية i" ، وبعبارة أخرى "مركز وحدات RBF يسمى أيضًا النموذج الأولي".


في شبكات RBF ، تطبق كل خلية عصبية في الطبقة المخفية عملية حسابية مرتبطة بـ "المتجه المركزي" الخاص بها.

ضع في اعتبارك أولاً مجموعة الخلايا العصبية المدخلة كمتجه $ mathbf {x} $ ، وأن كل خلية عصبية طبقة مخفية تتلقى متجه الإدخال الكامل كمدخل خاص بها.

ثانيًا ، يتم تحديد معلمات كل خلية عصبية مخفية $ i $ من خلال متجه (متجه مركزي) $ mathbf {c_i} $ بأبعاد متساوية من $ mathbf {x} $.

يتكون حساب كل خلية عصبية مخفية $ i $ من:

  1. قيِّم المسافة (وفقًا لمقياس قد يكون أو لا يكون إقليديًا) بين الإدخال $ mathbf {x} $ والمتجه المركزي $ mathbf {c_i} $. عندما يكون الإدخال مساويًا لمتجه المركز ، فسيكون ناتج تلك الخلايا العصبية القصوى (انظر 2).

  2. احسب دالة جاوس التي تتحلل مع زيادة المسافة بين المتجهين. هذا هو ناتج كل طبقة عصبية مخفية. في المعادلة التالية ، $ beta $ هو معامل يحدد معدل الانحلال لل Gaussian (عكس الانحراف المعياري في توزيع Gaussian العادي).

start {equation} rho_i ( mathbf {x}) = exp {[- beta Vert mathbf {x} - mathbf {c_i} Vert ^ 2]} end {equation}

الآن قم بدمج ناتج جميع الخلايا العصبية المخفية بشكل خطي للحصول على إجمالي ناتج الشبكة العصبية. لذلك ، أنت بحاجة إلى مجموعة إضافية من المعلمات أو الأوزان $ a_i $ (واحد $ a_i $ لكل خلية عصبية مخفية ، لكن قيم $ a_i $ هي مقاييس بينما كل $ mathbf {c_i} $ متجه).

المعادلة النهائية ، التي تنتج إجمالي ناتج الشبكة (قيمة عددية) ، هي:

start {equation} varphi ( mathbf {x}) = sum_ {i = 1} ^ N a_i rho (|| mathbf {x} - mathbf {c} _i ||) end {equation}

وهذا كل شيء.


شبكات دالة الأساس الشعاعي

دالة الأساس الشعاعي (RBF) هي وظيفة تعين قيمة حقيقية لكل مدخل من مجالها (إنها دالة ذات قيمة حقيقية) ، والقيمة التي ينتجها RBF هي دائمًا قيمة مطلقة ، أي أنها مقياس للمسافة ولا يمكن أن تكون سلبية.

عادةً ما تُستخدم المسافة الإقليدية ، وهي المسافة المستقيمة بين نقطتين في الفضاء الإقليدي.

تُستخدم وظائف الأساس الشعاعي لتقريب الوظائف ، مثلما تعمل الشبكات العصبية كمقربين للوظائف. المبلغ التالي:

يمثل شبكة دالة الأساس الشعاعي. تعمل وظائف الأساس الشعاعي كوظائف التنشيط.

التقريب f (x) قابل للتفاضل فيما يتعلق بالأوزان W ، والتي يتم تعلمها باستخدام طرق التحديث التكراري المشتركة بين الشبكات العصبية.

قراءة متعمقة

كريس نيكلسون

كريس نيكلسون هو الرئيس التنفيذي لشركة Pathmind. قاد سابقًا الاتصالات والتجنيد في مستشار الروبوت المدعوم من سكويا ، FutureAdvisor ، والذي استحوذت عليه شركة BlackRock. في حياته السابقة ، أمضى كريس عقدًا من الزمن في كتابة التقارير عن التكنولوجيا والتمويل لصحيفة نيويورك تايمز ، بيزنس ويك وبلومبرج ، من بين آخرين.


البرنامج التعليمي لشبكة وظيفة الأساس الشعاعي (RBFN)

شبكة وظيفة الأساس الشعاعي (RBFN) هي نوع معين من الشبكات العصبية. في هذه المقالة ، سأصف استخدامه كمصنف غير خطي.

بشكل عام ، عندما يتحدث الناس عن الشبكات العصبية أو "الشبكات العصبية الاصطناعية" فإنهم يشيرون إلى مدرك متعدد الطبقات (MLP). تأخذ كل خلية عصبية في MLP المجموع المرجح لقيم مدخلاتها. أي أن كل قيمة إدخال يتم ضربها بمعامل ، ويتم جمع جميع النتائج معًا. خلية عصبية MLP واحدة عبارة عن مصنف خطي بسيط ، ولكن يمكن بناء المصنفات غير الخطية المعقدة من خلال دمج هذه الخلايا العصبية في شبكة.

بالنسبة لي ، يعتبر نهج RBFN أكثر سهولة من MLP. يقوم RBFN بإجراء التصنيف عن طريق قياس تشابه المدخلات مع أمثلة من مجموعة التدريب. تخزن كل خلية عصبية في RBFN "نموذجًا أوليًا" ، والذي يعد مجرد مثال واحد من مجموعة التدريب. عندما نريد تصنيف مدخلات جديدة ، فإن كل خلية عصبية تحسب المسافة الإقليدية بين المدخلات ونموذجها الأولي. بشكل تقريبي ، إذا كان الإدخال يشبه إلى حد كبير نماذج الفئة أ من النماذج الأولية للفئة ب ، فإنه يتم تصنيفها على أنها فئة أ.

هندسة شبكة RBF

يوضح الرسم التوضيحي أعلاه العمارة النموذجية لشبكة RBF. يتكون من متجه إدخال وطبقة من الخلايا العصبية RBF وطبقة إخراج بها عقدة واحدة لكل فئة أو فئة من البيانات.

ناقل المدخلات

متجه الإدخال هو ن- ناقلات الأبعاد التي تحاول تصنيفها. يتم عرض متجه الإدخال بالكامل لكل من الخلايا العصبية RBF.

الخلايا العصبية RBF

كل خلية عصبية RBF تخزن ناقل "نموذج أولي" والذي هو مجرد واحد من النواقل من مجموعة التدريب. يقارن كل خلية عصبية RBF متجه الإدخال بنموذجها الأولي ، وتخرج قيمة بين 0 و 1 وهي مقياس للتشابه. إذا كان الإدخال مساويًا للنموذج الأولي ، فسيكون ناتج خلية RBF العصبية 1. مع زيادة المسافة بين المدخلات والنموذج الأولي ، تنخفض الاستجابة أضعافًا مضاعفة نحو الصفر. شكل استجابة الخلايا العصبية RBF هو منحنى الجرس ، كما هو موضح في مخطط هندسة الشبكة.

تسمى قيمة استجابة الخلية العصبية أيضًا بقيمة "التنشيط".

غالبًا ما يُطلق على متجه النموذج الأولي أيضًا "مركز" الخلايا العصبية ، نظرًا لأنها القيمة الموجودة في مركز منحنى الجرس.

عقد الإخراج

يتكون ناتج الشبكة من مجموعة من العقد ، واحدة لكل فئة نحاول تصنيفها. تحسب كل عقدة إخراج نوعًا من النقاط للفئة المرتبطة. عادة ، يتم اتخاذ قرار التصنيف عن طريق تعيين المدخلات للفئة الحاصلة على أعلى الدرجات.

يتم حساب النتيجة بأخذ مجموع مرجح لقيم التنشيط من كل خلية عصبية من RBF. نعني بالمجموع الموزون أن عقدة الإخراج تربط قيمة وزن مع كل من الخلايا العصبية RBF ، وتضاعف تنشيط الخلايا العصبية بهذا الوزن قبل إضافتها إلى الاستجابة الإجمالية.

نظرًا لأن كل عقدة إخراج تحسب الدرجة الخاصة بفئة مختلفة ، فإن كل عقدة إخراج لها مجموعة أوزانها الخاصة. ستعطي عقدة الإخراج عادةً وزنًا إيجابيًا للخلايا العصبية RBF التي تنتمي إلى فئتها ، ووزنًا سلبيًا للآخرين.

وظيفة تنشيط الخلايا العصبية RBF

يحسب كل خلية عصبية RBF مقياسًا للتشابه بين الإدخال وناقل النموذج الأولي (مأخوذ من مجموعة التدريب). متجهات الإدخال التي تشبه النموذج الأولي تعطي نتيجة أقرب إلى 1. هناك خيارات مختلفة محتملة لوظائف التشابه ، ولكن الأكثر شيوعًا يعتمد على Gaussian. يوجد أدناه معادلة Gaussian بإدخال أحادي البعد.

حيث x هي الإدخال ، mu هي الوسط ، و sigma هو الانحراف المعياري. ينتج عن هذا منحنى الجرس المألوف الموضح أدناه ، والذي يتمركز عند المتوسط ​​، mu (في الرسم أدناه ، المتوسط ​​هو 5 و sigma هو 1).

تختلف وظيفة تنشيط الخلايا العصبية RBF قليلاً ، وعادة ما تتم كتابتها على النحو التالي:

في توزيع Gaussian ، يشير mu إلى متوسط ​​التوزيع. هنا ، هو متجه النموذج الأولي الذي يقع في وسط منحنى الجرس.

بالنسبة لوظيفة التنشيط ، فاي ، لسنا مهتمين بشكل مباشر بقيمة الانحراف المعياري ، سيجما ، لذلك نجري بعض التعديلات المبسطة.

التغيير الأول هو أننا أزلنا المعامل الخارجي ، 1 / ​​(سيجما * الجذر التربيعي (2 * بي)). يتحكم هذا المصطلح عادةً في ارتفاع Gaussian. هنا ، رغم ذلك ، فهي زائدة عن الحاجة مع الأوزان المطبقة بواسطة عقد الإخراج. أثناء التدريب ، سوف العقد الإخراج يتعلم المعامل أو "الوزن" الصحيح لتطبيقه على استجابة العصبون.

التغيير الثاني هو أننا استبدلنا المعامل الداخلي ، 1 / ​​(2 * سيجما ^ 2) ، بمعامل واحد "بيتا". يتحكم معامل بيتا هذا في عرض منحنى الجرس. مرة أخرى ، في هذا السياق ، لا نهتم بقيمة سيجما ، نحن نهتم فقط بوجود بعض المعامل الذي يتحكم في عرض منحنى الجرس. لذلك نبسط المعادلة عن طريق استبدال الحد بمتغير واحد.

تنشيط الخلايا العصبية RBF لقيم مختلفة من بيتا

هناك أيضًا تغيير طفيف في الترميز هنا عندما نطبق المعادلة على متجهات الأبعاد n. يشير تدوين الشريط المزدوج في معادلة التنشيط إلى أننا نأخذ المسافة الإقليدية بين x و mu ، ونقوم بتربيع النتيجة. بالنسبة إلى Gaussian أحادي البعد ، يتم تبسيط هذا إلى (x - mu) ^ 2 فقط.

من المهم ملاحظة أن المقياس الأساسي هنا لتقييم التشابه بين متجه الإدخال والنموذج الأولي هو المسافة الإقليدية بين المتجهين.

أيضًا ، ستنتج كل خلية عصبية RBF أكبر استجابة لها عندما يكون الإدخال مساويًا لمتجه النموذج الأولي. هذا يسمح بأخذها كمقياس للتشابه ، وتلخيص النتائج من جميع الخلايا العصبية RBF.

عندما نخرج من متجه النموذج الأولي ، تنخفض الاستجابة بشكل كبير. تذكر من الرسم التوضيحي لبنية RBFN أن عقدة الإخراج لكل فئة تأخذ المجموع المرجح لـ كل عصبون RBF في الشبكة - بعبارة أخرى ، سيكون لكل خلية عصبية في الشبكة بعض التأثير على قرار التصنيف. ومع ذلك ، فإن التراجع الأسي لوظيفة التنشيط يعني أن الخلايا العصبية التي تكون نماذجها الأولية بعيدة عن متجه الإدخال ستساهم في الواقع قليلاً جدًا في النتيجة.

إذا كنت مهتمًا باكتساب فهم أعمق لكيفية إنتاج المعادلة الغاوسية لشكل منحنى الجرس هذا ، فراجع رسالتي على Gaussian Kernel.

مثال على مجموعة البيانات

قبل الخوض في التفاصيل حول تدريب RBFN ، دعنا نلقي نظرة على مثال مدرب بالكامل.

في مجموعة البيانات أدناه ، لدينا نقطتا بيانات ذات أبعاد تنتمي إلى فئة من فئتين ، يشار إليهما بدائرتي x الزرقاء والحمراء. لقد قمت بتدريب شبكة RBF مع 20 خلية عصبية من RBF على مجموعة البيانات هذه. يتم تمييز النماذج الأولية المحددة بعلامات نجمية سوداء.

يمكننا أيضًا تصور درجة الفئة 1 (الدائرة الحمراء) فوق مساحة الإدخال. يمكننا القيام بذلك باستخدام شبكة ثلاثية الأبعاد ، أو مخطط محيطي مثل المخطط أدناه. المخطط الكنتوري يشبه الخريطة الطبوغرافية.

يتم تلوين المناطق التي تكون فيها الدرجة 1 أعلى باللون الأحمر الداكن ، والمناطق التي تكون فيها الدرجة الأدنى باللون الأزرق الداكن. تتراوح القيم من -0.2 إلى 1.38.

لقد قمت بتضمين مواضع النماذج مرة أخرى كنجمة سوداء. يمكنك أن ترى كيف تتمركز التلال في قيم الإخراج حول هذه النماذج الأولية.

من المثير للاهتمام أيضًا إلقاء نظرة على الأوزان التي تستخدمها عُقد الإخراج لإزالة بعض الغموض.

بالنسبة لعقدة الإخراج من الفئة 1 ، تكون جميع الأوزان الخاصة بالفئة 2 من الخلايا العصبية RBF سالبة:

وجميع الأوزان الخاصة بالخلايا العصبية من الفئة 1 إيجابية:

أخيرًا ، يمكننا رسم تقريب لحد القرار (الخط الذي تتساوى فيه درجات الفئة 1 والفئة 2).

لرسم حدود القرار ، لقد حسبت النتائج على شبكة محدودة. نتيجة لذلك ، تكون حدود القرار خشنة. أعتقد أن حدود القرار الحقيقي ستكون أكثر سلاسة.

تدريب RBFN

تتكون عملية التدريب لـ RBFN من اختيار ثلاث مجموعات من المعلمات: النماذج الأولية (mu) ومعامل بيتا لكل من الخلايا العصبية RBF ، ومصفوفة أوزان المخرجات بين الخلايا العصبية RBF وعقد الإخراج.

هناك العديد من الطرق الممكنة لاختيار النماذج وتنوعاتها. تقدم الورقة التالية نظرة عامة على الأساليب الشائعة لتدريب RBFNs. قرأت من خلاله لأتعرف على بعض تفاصيل تدريب RBF ، واخترت منهجًا محددًا كان أكثر منطقية بالنسبة لي.

يبدو أنه لا توجد طريقة "خاطئة" لتحديد النماذج الأولية للخلايا العصبية RBF. في الواقع ، هناك طريقتان محتملتان تتمثلان في إنشاء خلية عصبية RBF لكل مثال تدريب ، أو اختيار نماذج k بشكل عشوائي من بيانات التدريب. السبب في أن المتطلبات فضفاضة للغاية هو أنه ، بالنظر إلى عدد كافٍ من الخلايا العصبية RBF ، يمكن لـ RBFN تحديد أي حدود قرار معقدة بشكل تعسفي. بمعنى آخر ، يمكنك دائمًا تحسين دقتها باستخدام المزيد من الخلايا العصبية RBF.

ما يتعلق به حقًا هو مسألة الكفاءة - فالمزيد من الخلايا العصبية RBF يعني المزيد من وقت الحوسبة ، لذلك فهو مثالي إذا تمكنا من تحقيق دقة جيدة باستخدام أقل عدد ممكن من الخلايا العصبية RBF.

تتمثل إحدى الطرق لإجراء اختيار ذكي للنماذج الأولية في إجراء مجموعات k-Means على مجموعة التدريب الخاصة بك واستخدام مراكز الكتلة كنماذج أولية. لن أصف مجموعات k-Means بالتفصيل هنا ، لكنها خوارزمية مباشرة إلى حد ما يمكنك العثور على برامج تعليمية جيدة لها.

عند تطبيق الوسائل k ، نريد أولاً فصل أمثلة التدريب حسب الفئة - لا نريد أن تتضمن المجموعات نقاط بيانات من فئات متعددة.

هنا مرة أخرى هو مثال لمجموعة البيانات مع النماذج الأولية المحددة. قمت بتشغيل مجموعات k-mean مع k لـ 10 مرتين ، مرة للفصل الأول ، ومرة ​​أخرى للفصل الثاني ، مما أعطاني إجمالي 20 مجموعة. مرة أخرى ، يتم تمييز مراكز المجموعة بعلامة النجمة السوداء "*".

لقد كنت أدعي أن النماذج الأولية هي مجرد أمثلة من مجموعة التدريب - هنا يمكنك أن ترى أن هذا ليس صحيحًا من الناحية الفنية. يتم حساب مراكز الكتلة كمتوسط ​​لجميع النقاط في الكتلة.

كم عدد المجموعات التي يجب انتقاؤها لكل فصل يجب تحديده "من خلال الكشف عن مجريات الأمور". تعني القيم الأعلى لـ k المزيد من النماذج الأولية ، مما يتيح حدودًا أكثر تعقيدًا للقرار ولكنه يعني أيضًا المزيد من العمليات الحسابية لتقييم الشبكة.

اختيار قيم بيتا

إذا كنت تستخدم مجموعات k-mean clustering لتحديد النماذج الأولية الخاصة بك ، فإن إحدى الطرق البسيطة لتحديد معاملات بيتا هي تعيين سيجما مساويًا لمتوسط ​​المسافة بين جميع النقاط في الكتلة ومركز الكتلة.

هنا ، mu هي النقطه الوسطى العنقودية ، m هو عدد عينات التدريب التي تنتمي إلى هذه المجموعة ، و x_i هي عينة التدريب i في الكتلة.

بمجرد أن نحصل على قيمة سيجما للمجموعة ، نحسب بيتا على النحو التالي:

أوزان الإخراج

المجموعة النهائية من المعلمات للتدريب هي أوزان المخرجات. يمكن تدريب هذه باستخدام النسب المتدرج (المعروف أيضًا باسم المربعات الصغرى).

أولاً ، لكل نقطة بيانات في مجموعة التدريب الخاصة بك ، احسب قيم تنشيط الخلايا العصبية RBF. تصبح قيم التنشيط هذه مدخلات التدريب على نزول التدرج.

تحتاج المعادلة الخطية إلى مصطلح تحيز ، لذلك نضيف دائمًا قيمة ثابتة قدرها "1" إلى بداية متجه قيم التنشيط.

يجب تشغيل التدرج اللوني بشكل منفصل لكل عقدة إخراج (أي لكل فئة في مجموعة البيانات الخاصة بك).

بالنسبة إلى تسميات الإخراج ، استخدم القيمة "1" للعينات التي تنتمي إلى نفس فئة عقدة الإخراج ، و "0" لجميع العينات الأخرى. على سبيل المثال ، إذا كانت مجموعة البيانات الخاصة بنا تشتمل على ثلاثة فئات ، وكنا نتعلم أوزان عقدة المخرجات 3 ، فيجب تسمية جميع أمثلة الفئة 3 على أنها "1" ويجب تسمية جميع أمثلة الفئة 1 و 2 بالرقم 0.

RBFN كشبكة عصبية

حتى الآن ، تجنبت استخدام بعض التسميات النموذجية للشبكة العصبية لوصف شبكات العصب البصري. نظرًا لأن معظم الأوراق تستخدم مصطلحات الشبكة العصبية عند الحديث عن RBFNs ، فقد اعتقدت أنني سأقدم بعض الشرح حول ذلك هنا. يوجد أدناه نسخة أخرى من مخطط هندسة RBFN.

هنا يُنظر إلى RBFN على أنها "شبكة ثلاثية الطبقات" حيث يكون متجه الإدخال هو الطبقة الأولى ، والطبقة الثانية "المخفية" هي الخلايا العصبية RBF ، والطبقة الثالثة هي طبقة الإخراج التي تحتوي على الخلايا العصبية المركبة الخطية.

أحد المصطلحات التي أربكتني حقًا لفترة من الوقت هو أن النواقل الأولية المستخدمة من قبل الخلايا العصبية RBFN يشار إليها أحيانًا باسم "أوزان المدخلات". أفكر عمومًا في الأوزان على أنها معاملات ، مما يعني أنه سيتم ضرب الأوزان مقابل قيمة إدخال. هنا ، على الرغم من ذلك ، نقوم بحساب المسافة بين متجه الإدخال و "أوزان الإدخال" (متجه النموذج الأولي).


مراجع

Poggio، T. & amp Girosi، F. (1989)، "The Theory of Networks for Approximation and Learning" (A.I. Memo No.1140، CB.I.P. Paper No. 31)، Technical report، MIT ARTIFICIAL INTELLIGENCE LABORATORY.

Vogt ، M. (1992) ، 'Implementierung und Anwendung von Generalized Radial Basis Functions in einem Simulator neuronaler Netze' ، أطروحة ماجستير ، IPVR ، جامعة شتوتغارت. (في المانيا)

Zell، A. et al. (1998) ، دليل مستخدم SNNS Stuttgart Neural Network Simulator ، الإصدار 4.2 ، IPVR ، جامعة شتوتغارت و WSI ، جامعة T & ltU + 00FC & gtbingen. http://www.ra.cs.uni-tuebingen.de/SNNS/welcome.html

زيل ، أ. (1994) ، محاكاة Neuronaler Netze ، أديسون ويسلي. (في المانيا)


شرح وظائف الأساس الشعاعي ونواة RBF وشبكات أمبير RBF ببساطة

فيما يلي مجموعة من البيانات أحادية البعد: مهمتك هي إيجاد طريقة لفصل البيانات تمامًا إلى فئتين بسطر واحد.

للوهلة الأولى ، قد تبدو هذه مهمة مستحيلة ، لكن الأمر كذلك فقط إذا قصرنا أنفسنا على بُعد واحد.

دعونا نقدم وظيفة متموجة F(x) ورسم خريطة لكل قيمة x إلى ناتجها المقابل. بشكل ملائم ، هذا يجعل جميع النقاط الزرقاء أعلى والنقاط الحمراء أقل في المواقع الصحيحة فقط. يمكننا بعد ذلك رسم خط أفقي يقسم الطبقات إلى قسمين.

يبدو هذا الحل متسترًا للغاية ، لكن يمكننا في الواقع تعميمه بمساعدة وظائف الأساس الشعاعي (RBFs). على الرغم من أن لديهم العديد من حالات الاستخدام المتخصصة ، إلا أن RBF بطبيعته هي ببساطة وظيفة يتم تعريف نقاطها على أنها مسافات من المركز. تشترك الطرق التي تستخدم RBFs بشكل أساسي في نموذج تعليمي يختلف عن أجرة التعلم الآلي القياسية ، وهو ما يجعلها قوية جدًا.

على سبيل المثال ، يعد Bell Curve مثالاً على RBF ، حيث يتم تمثيل النقاط بعدد الانحرافات المعيارية عن المتوسط. رسميًا ، قد نحدد RBF كدالة يمكن كتابتها على النحو التالي:

لاحظ أن الأنابيب المزدوجة (بشكل غير رسمي ، في حالة الاستخدام هذه) تمثل فكرة "المسافة" ، بغض النظر عن أبعاد x. على سبيل المثال،

  • ستكون هذه قيمة مطلقة في بعد واحد: f (-3) = f (3). المسافة إلى نقطة الأصل (0) هي 3 بغض النظر عن العلامة.
  • ستكون هذه مسافة إقليدية في بعدين: f ([- 3،4]) = f ([3، -4]). المسافة إلى الأصل (0 ، 0) هي 5 وحدات بغض النظر عن موقع النقطة المحددة.

هذا هو جانب "نصف القطر" لـ "وظيفة الأساس الشعاعي". يمكن للمرء أن يقول أن وظائف الأساس الشعاعي هي متماثل حول الأصل.

تُعرف المهمة المذكورة أعلاه - فصل النقاط بطريقة سحرية بسطر واحد - باسم وظيفة الأساس الشعاعي نواة، مع تطبيقات في خوارزمية Support Vector Machine (SVM) القوية. الغرض من "خدعة النواة" هو عرض النقاط الأصلية في بعض الأبعاد الجديدة بحيث يصبح من السهل الفصل من خلال طرق خطية بسيطة.

خذ مثالاً أبسط للمهمة بثلاث نقاط.

دعونا نرسم توزيعًا عاديًا (أو دالة RBF عشوائية أخرى) تتمحور حول كل نقطة.

بعد ذلك ، يمكننا قلب جميع وظائف الأساس الشعاعي لنقاط البيانات من فئة واحدة.

إذا أضفنا جميع قيم وظائف الأساس الشعاعي في كل نقطة x، نحن وظيفة "عالمية" وسيطة تبدو شيئًا مثل هذا:

لقد حققنا وظيفتنا العالمية المتموجة (دعنا نسميها g (x))! إنه يعمل مع جميع أنواع تخطيطات البيانات ، بسبب طبيعة وظيفة RBF.

وظيفة RBF المفضلة لدينا - التوزيع الطبيعي - كثيفة في منطقة مركزية واحدة وأقل من ذلك في جميع الأماكن الأخرى. ومن ثم ، فإن لها تأثيرًا كبيرًا في تحديد قيمة ز(x) عندما قيم x بالقرب من موقعها ، مع تناقص القوة مع زيادة المسافة. هذه الخاصية تجعل وظائف RBF قوية.

عندما نقوم بتعيين كل نقطة أصلية في الموقع x الى حد، الى درجة (x, ز(x)) في الفضاء ثنائي الأبعاد ، يمكن دائمًا فصل البيانات بشكل موثوق ، بشرط ألا تكون صاخبة جدًا. سيتم دائمًا تعيينه وفقًا للكثافة المناسبة للبيانات بسبب تداخل وظائف RBF.

في الواقع ، يمكن استخدام التركيبات الخطية من - الجمع والضرب - وظائف الأساس الشعاعي للتقريب تقريبًا أي تعمل بشكل جيد.

تأخذ شبكات Radial Basis هذه الفكرة بجدية من خلال دمج "الخلايا العصبية الشعاعية" في شبكة بسيطة من طبقتين.

متجه الإدخال هو ن-مدخلات الأبعاد التي يتم فيها تصنيف أو مهمة انحدار (خلية عصبية واحدة فقط). يتم إرسال نسخة من ناقل الإدخال إلى كل من الخلايا العصبية ذات الأساس الشعاعي التالية.

تخزن كل خلية عصبية RBF ناقل "مركزي" - وهذا ببساطة متجه فريد من مجموعة التدريب. تتم مقارنة متجه الإدخال بالمتجه المركزي ، ويتم توصيل الاختلاف بوظيفة RBF. على سبيل المثال ، إذا كان المتجهين المركزيين والمتجهين متماثلين ، فسيكون الفرق صفرًا. التوزيع الطبيعي في x = 0 تساوي 1 ، لذا سيكون ناتج الخلية العصبية 1.

ومن ثم ، فإن المتجه "المركزي" هو المتجه في مركز دالة RBF ، حيث أن المدخل هو الذي ينتج ذروة الإخراج.

وبالمثل ، إذا كانت المتجهات المركزية والمتجهات المدخلة مختلفة ، فإن ناتج العصبون يتحلل بشكل كبير نحو الصفر. إذن ، يمكن اعتبار الخلايا العصبية RBF بمثابة مقياس غير خطي للتشابه بين المدخلات والمتجهات المركزية. نظرًا لأن العصبون شعاعي - قائم على نصف القطر - فإن حجم متجه الاختلاف ، وليس الاتجاه ، مهم.

أخيرًا ، يتم ترجيح الدروس المستفادة من عقد RBF وتلخيصها من خلال اتصال بسيط بطبقة الإخراج. تعطي عُقد الإخراج قيمًا كبيرة للوزن للخلايا العصبية RBF التي لها أهمية خاصة لفئة ما ، وأوزانًا أصغر للخلايا العصبية التي تكون مخرجاتها أقل أهمية.

لماذا تتخذ شبكة الأساس الشعاعي منهج "التشابه" في النمذجة؟ خذ المثال التالي لمجموعة البيانات ثنائية الأبعاد ، حيث يتم تمثيل المتجهات المركزية لعشرين عقدة RBF بعلامة "+".

بعد ذلك ، انظر إلى خريطة محيطية لمساحة التنبؤ لشبكة RBF المدربة: حول كل متجه مركزي تقريبًا (أو مجموعة من النواقل المركزية) عبارة عن قمة أو واد. يتم "تحديد" مساحة ميزة الشبكة بواسطة هذه المتجهات ، تمامًا مثل كيفية عمل الوظيفة العامة ز(x) التي تمت مناقشتها في نواة RBF تتكون من وظائف أساس شعاعي تتمحور في كل نقطة بيانات.

نظرًا لأنه من غير العملي تكوين عقدة RBF واحدة لكل عنصر في مجموعة التدريب كما تفعل النواة ، اختارت الشبكات ذات الأساس الشعاعي المتجهات المركزية لتشكيل رؤية الشبكة للمناظر الطبيعية. عادة ما يتم العثور على هذه النواقل المركزية من خلال بعض خوارزمية التجميع مثل K-Means ، أو بدلاً من ذلك ببساطة من خلال أخذ العينات العشوائية.

تبدو حدود العنصر المرسومة بناءً على الارتفاع كما يلي:

تقترب شبكة الأساس الشعاعي بشكل أساسي من مهمة التصنيف بشكل مختلف عن الشبكات العصبية القياسية بسبب استخدام وظيفة الأساس الشعاعي ، والتي يمكن اعتبارها قياس الكثافة. تسعى الشبكات العصبية القياسية إلى منفصل البيانات من خلال التلاعب الخطي لوظائف التنشيط ، في حين تسعى وظائف الأساس الشعاعي إلى المزيد مجموعة البيانات من خلال التحولات المستندة إلى "الكثافة" بشكل أساسي.

وبسبب هذا ، بالإضافة إلى بنيتها خفيفة الوزن وعدم خطيتها القوية ، فهي المنافس الأول للشبكات العصبية الاصطناعية.

بشكل أساسي ، تعتمد تطبيقات وظائف الأساس الشعاعي على مفهوم يسمى "استيفاء وظيفة الأساس الشعاعي" ، وهو موضوع ذو أهمية كبيرة في نظرية التقريب ، أو دراسة الوظائف التقريبية بكفاءة.

كما ذكرنا سابقًا ، فإن RBFs هي تجسيد رياضي لفكرة أن النقطة يجب أن يكون لها التأثير الأكبر في تلك النقطة وتأثيرها المتحلل لزيادة المسافات من تلك النقطة. وبسبب هذا ، يمكن التلاعب بها بطرق بسيطة جدًا لبناء اللاخطية المعقدة.


شبكة وظيفة الأساس الشعاعي (شبكة RBF) - علم الأحياء

ERM رائع ، لكن حتى الآن جميع المصنفات خطية. ماذا لو لم يكن هناك حد قرار خطي؟

سؤال: هل تعرف نموذج غير خطي من الفصل؟

  • k-NN:
    • التصنيف: $ h ( mathbf) = نص (مجموع _^ ك y_i) $
    • الانحدار: $ h ( mathbf) = فارك <1>(مجموع _^ ك y_i) $

    ماذا لو استخدمنا جميع نقاط بيانات التدريب ومخطط الترجيح ، بحيث تساهم نقاط البيانات البعيدة أقل للتنبؤ؟

    وظائف الأساس الشعاعي (RBF)

    استخدم RBF (أو kernel) لتقدير المساهمة فيما يتعلق بالمسافة إلى نقطة الاختبار. عادة $ mathsf( mathbf، mathbf) = g ( underbrace < frac < | mathbf- mathbf|>> _ <= z>) $ ، حيث تنظم معلمة المقياس $ r $ عرض النواة.

    • نواة جاوس: $ g (z) = e ^ <- frac <1> <2> z ^ 2> $
    • نواة النافذة: $ g (z) = left < begin1 & textrm 0 & textrm 1 $> end حق. يُعرف هذا النموذج أيضًا باسم $ epsilon $ -NN ، حيث $ epsilon $ = r.

    نموذج التنبؤ: نموذج "Nadaraya-Watson" أو انحدار النواة

    استخدم مجموعًا مرجحًا لقيم $ y $:

    ح $ ( mathbf) = فارك < sum_^ ن أ_ ( mathbf) cdot y_i> < sum_^ ن أ_ ( mathbf)> ، text a_i ( mathbf) = mathsf( mathbf، mathbf)$

    $ Rightarrow $ نسخة غير بارامترية (عثرة واحدة عند x) من شبكة RBF

    توضيح:

    ح $ ( mathbf) = مجموع_^ n w_i ( mathbf) cdot mathsf( mathbf، mathbf)، نص w_i = frac< مجموع_^ n mathsf( mathbf، mathbf)> $

    قم بتوسيط النتوء عند كل $ mathbf$ مع الارتفاع $ w_i (x) $ ، حيث يتم تحديد العرض بواسطة r

    ملحوظة: ثوابت التسوية $ <2 pi> ^ <- frac<2>> $ or $ frac < Gamma ( frac<2> +1)> < pi ^ < frac<2> >> $ غير مطلوب (إلا إذا كنت تستخدمه لتقدير الكثافة).

    شبكات دالة الأساس الشعاعي

    ملاحظة: $ w_i ( dot < mathbf>) $ يختلف باختلاف $ dot < mathbf> $ (نقطة اختبار)

    التبسيط الممكن

    إصلاح ارتفاعات جميع نقاط الاختبار إلى $ w_i $

    $ Rightarrow $ نسخة حدودي من شبكة RBF (تناسب $ w_i $ عن طريق تقليل خطأ التدريب)

    توضيح:

    مفاجأة كبيرة!

    ح $ ( mathbf) = mathbf^ mathbf نص <مع> mathbf = ابدأ mathsf( mathbf، mathbf) vdots mathsf( mathbf، mathbf) نهاية $

    لقد قمنا بتحويل النموذج غير الخطي ذي الأبعاد $ d $ إلى نموذج خطي الأبعاد $ n $!

    ملاحظة: يتم تعريف التحويل غير الخطي بواسطة kernel $ mathsf$ ، ونقاط بيانات التدريب $ x_i $

    سيؤدي اختيار معلمات $ n $ إلى تحميل معاملات $ n $ و n من نقاط البيانات ، وهي مناسبة تمامًا. لكن لدينا بيانات صاخبة. بالنسبة لشبكة RBF ، نختار $ k شبكة RBF: للمقارنة: حدود قرار kNN أقل سلاسة.
    ك = 1: ك = 3:


    إذا قرأت على تمرين في الرابط الخاص بك ، فإنه يشرح ماهية متجهات المركز:

    عند قراءة ما ورد أعلاه ، يبدو لي أن لديك مجموعة العينات الخاصة بك ، و xومن بينها ، يمكنك اختيار عدد من نواقل المركز - واحد لكل خلية عصبية في الطبقة المخفية. متجهات المركز ، بشكل عام ، هي مراكز مجموعات في بيانات العينة الخاصة بك.

    كما تقول الملاحظات ، يمكنك استخدام خوارزمية تجميع غير خاضعة للإشراف ، مثل k-mean ، للعثور على ن مراكز الكتلة في البيانات الخاصة بك ، حيث ن هو عدد الخلايا العصبية في الطبقة المخفية التي تتعامل معها. قد تحتوي الطبقات المختلفة على خلايا عصبية أكثر أو أقل وبالتالي سيكون لها نواقل مركزية أكثر أو أقل.

    ثم يربط RBF كل عينة على حدة ، x، لكل متجه مركزي بواسطة بعض وظائف المسافة الإقليدية بينهما.


    تفاصيل

    شبكات RBF هي شبكات تغذية مع طبقة مخفية واحدة. تنشيطها ليس سينيًا (كما هو الحال في MLP) ، ولكنه متماثل شعاعيًا (غالبًا غاوسي). وبالتالي ، يتم تمثيل المعلومات محليًا في الشبكة (على عكس MLP ، حيث يتم تمثيلها عالميًا). تتمثل مزايا شبكات RBF مقارنةً بـ MLPs بشكل أساسي في أن الشبكات أكثر قابلية للتفسير ، ويجب أن يكون التدريب أسهل وأسرع ، ولا يتم تنشيط الشبكة إلا في مناطق مساحة الميزة حيث تم تدريبها بالفعل ، ولديها إمكانية الإشارة أنها "فقط لا تعرف".

    قد يكون بدء تشغيل شبكة RBF أمرًا صعبًا ويتطلب معرفة مسبقة. قبل استخدام هذه الوظيفة ، قد ترغب في قراءة الصفحات 172-183 من دليل مستخدم SNNS 4.2. يتم تنفيذ التهيئة في التنفيذ الحالي عن طريق استدعاء RBF_Weights_Kohonen (0،0،0،0،0) واستدعاء متتالي لـ initFunc المحدد (عادةً RBF_Weights). إذا كانت هذه التهيئة لا تناسب احتياجاتك ، فيجب عليك استخدام واجهة RSNNS منخفضة المستوى لتنفيذ واجهة خاصة بك. ألقِ نظرة بعد ذلك على العروض / الأمثلة. أيضًا ، نلاحظ أنه بناءً على ما إذا كان يتم اختيار الإخراج الخطي أو اللوجستي ، يجب أن تكون معلمات التهيئة مختلفة (عادةً c (0،1.) للخطي و c (-4،4) للإخراج اللوجستي).


    شبكة وظيفة الأساس الشعاعي (شبكة RBF) - علم الأحياء

    شبكات وظيفة الأساس الشعاعي (RBF) مستوحاة من الأنظمة العصبية البيولوجية ، حيث يتم تنظيم الخلايا العصبية بشكل هرمي في مسارات مختلفة لمعالجة الإشارات ، ويتم ضبطها للاستجابة بشكل انتقائي لميزات / خصائص المنبهات المختلفة في مجالاتها الخاصة. بشكل عام ، تحتوي الخلايا العصبية في الطبقات العليا على مجالات استقبالية أكبر وتستجيب بشكل انتقائي لأنماط أكثر عالمية وتعقيدًا.

    • تتلقى الخلايا العصبية في القشرة البصرية الأولية (V1) مدخلات بصرية من شبكية العين وتستجيب بشكل انتقائي لاتجاهات مختلفة من السمات الخطية
    • تستقبل الخلايا العصبية في المنطقة الزمنية الوسطى (MT) مدخلات بصرية من منطقة V1 وتستجيب بشكل انتقائي لاتجاهات الحركة المختلفة
    • تتلقى الخلايا العصبية في المنطقة الزمنية المتوسطة (MST) مدخلات بصرية من منطقة MT وتستجيب بشكل انتقائي لأنماط الحركة المختلفة (التدفق البصري) مثل الدوران والتوسع والانكماش والحركات الحلزونية.

    عادةً ما تكون منحنيات الضبط ، ووظائف الاستجابة المحلية ، لهذه الخلايا العصبية غاوسيًا ، أي أن مستوى الاستجابة ينخفض ​​عندما يصبح المحفز أقل تشابهًا مع أكثر ما تكون الخلية أكثر حساسية واستجابة له (الأكثر تفضيلاً).

    يمكن أيضًا التعامل مع هذه الوظائف التي تشبه Gaussian على أنها مجموعة من الوظائف الأساسية (ليست بالضرورة متعامدة ومكتملة للغاية) تمتد على مساحة جميع أنماط الإدخال. بناءً على هذه الميزات المحلية التي تمثلها العقد ، يمكن تدريب عقدة في طبقة أعلى على الاستجابة بشكل انتقائي لبعض الأنماط / الكائنات (على سبيل المثال ، `` خلية الجدة '') ، بناءً على مخرجات العقد في الطبقة السفلية.

      يمكن استخدام شبكة RBF في تصنيف الأنماط ، والتي يتم من خلالها تصنيف متجه نمط معين في إحدى الفئات. عادةً ما يتم الإشراف على التصنيف ، أي يتم تدريب الشبكة بناءً على مجموعة من أنماط التدريب () ، حيث يشير إلى الفئة التي ينتمي إليها النمط k ، أي.

    كما هو موضح في الأمثلة أعلاه ، تتكون شبكة RBF عادةً من ثلاث طبقات ، تتكون طبقة الإدخال من العقد التي تتلقى إشارة الإدخال ، والطبقة المخفية المكونة من العقد التي تحاكي الخلايا العصبية مع ضبط انتقائي لميزات مختلفة في الإدخال ، و طبقة المخرجات المكونة من العقد التي تحاكي الخلايا العصبية على مستوى أعلى والتي تستجيب لميزات على مستوى أكثر شمولية ، بناءً على الإخراج من الطبقة المخفية التي تمثل ميزات مختلفة على المستوى المحلي. (يمكن اعتبار هذا نموذجًا لمعالجة الإشارات المرئية في المسار.)

    عند تلقي متجه نمط الإدخال ، تصل العقدة المخفية j إلى مستوى التنشيط:

    أين و هما على التوالي المتجه المتوسط ​​ومصفوفة التغاير المرتبطة بالعقدة المخفية jth. على وجه الخصوص ، مصفوفة التغاير هي مصفوفة قطرية خاصة ، ثم تصبح الدالة الغاوسية متناحرة ولدينا

    نرى أن هذا يمثل الميزة المفضلة (الاتجاه ، اتجاه الحركة ، التردد ، إلخ) للخلايا العصبية j. عندما يتم تعظيم استجابة الخلايا العصبية بسبب انتقائية الخلايا العصبية.

    في طبقة الإخراج ، تتلقى كل عقدة مخرجات جميع العقد في الطبقة المخفية ، ويكون ناتج عقدة الإخراج ith عبارة عن تركيبة خطية من التنشيط الصافي:

    Note that the computation at the hidden layer is non-linear but that at the output layer is linear, i.e., this is a hybrid training scheme.

    Through the training stage, various system parameters of an RBF network will be obtained, including the and ( ) of the nodes of the hidden layer, as well as the weights ( ) for the nodes of the output layer, each fully connected to all hidden nodes.

      Training of the hidden layer

    • They can be chosen randomly from the input data set ( ).
    • The centers can be obtained by unsupervised learning (SOM, k-means clustering) based on the training data.
    • The covariance matrix as well as the center can also be obtained by supervised learning.

    Once the parameters and are available, we can concentrate on finding the weights of the output layer, based on the given training data containing data points , i.e., we need to solve the equation system for the weights ( ):

    This equation system can also be expressed in matrix form:

    where , , and is an matrix function of the input vectors :

    As the number of training data pairs is typically much greater than the number of hidden nodes , the equation system above contains more equations than unknowns, and has no solution. However, we can still try to find an optimal solution so that the actual output approximates with a minimal mean squared error (MSE):

    To find the weights as the parameters of the model, the general linear least squares can be used, based on the pseudo inverse of the non-square matrix:


    Chris McCormick

    A Radial Basis Function Network (RBFN) is a particular type of neural network. In this article, I’ll be describing it’s use as a non-linear classifier.

    Generally, when people talk about neural networks or “Artificial Neural Networks” they are referring to the Multilayer Perceptron (MLP). Each neuron in an MLP takes the weighted some of its input values. That is, each input value is multiplied by a coefficient, and the results are all summed together. A single MLP neuron is a simple linear classifier, but complex non-linear classifiers can be built by combining these neurons into a network.

    To me, the RBFN approach is more intuitive than the MLP. An RBFN performs classification by measuring the input’s similarity to examples from the training set. Each RBFN neuron stores a “prototype”, which is just one of the examples from the training set. When we want to classify a new input, each neuron computes the Euclidean distance between the input and its prototype. Roughly speaking, if the input more closely resembles the class A prototypes than the class B prototypes, it is classified as class A.

    RBF Network Architecture

    The above illustration shows the typical architecture of an RBF Network. It consists of an input vector, a layer of RBF neurons, and an output layer with one node per category or class of data.

    The Input Vector

    The input vector is the ن-dimensional vector that you are trying to classify. The entire input vector is shown to each of the RBF neurons.

    The RBF Neurons

    Each RBF neuron stores a “prototype” vector which is just one of the vectors from the training set. Each RBF neuron compares the input vector to its prototype, and outputs a value between 0 and 1 which is a measure of similarity. If the input is equal to the prototype, then the output of that RBF neuron will be 1. As the distance between the input and prototype grows, the response falls off exponentially towards 0. The shape of the RBF neuron’s response is a bell curve, as illustrated in the network architecture diagram.

    The neuron’s response value is also called its “activation” value.

    The prototype vector is also often called the neuron’s “center”, since it’s the value at the center of the bell curve.

    The Output Nodes

    The output of the network consists of a set of nodes, one per category that we are trying to classify. Each output node computes a sort of score for the associated category. Typically, a classification decision is made by assigning the input to the category with the highest score.

    The score is computed by taking a weighted sum of the activation values from every RBF neuron. By weighted sum we mean that an output node associates a weight value with each of the RBF neurons, and multiplies the neuron’s activation by this weight before adding it to the total response.

    Because each output node is computing the score for a different category, every output node has its own set of weights. The output node will typically give a positive weight to the RBF neurons that belong to its category, and a negative weight to the others.

    RBF Neuron Activation Function

    Each RBF neuron computes a measure of the similarity between the input and its prototype vector (taken from the training set). Input vectors which are more similar to the prototype return a result closer to 1. There are different possible choices of similarity functions, but the most popular is based on the Gaussian. Below is the equation for a Gaussian with a one-dimensional input.

    Where x is the input, mu is the mean, and sigma is the standard deviation. This produces the familiar bell curve shown below, which is centered at the mean, mu (in the below plot the mean is 5 and sigma is 1).

    The RBF neuron activation function is slightly different, and is typically written as:

    In the Gaussian distribution, mu refers to the mean of the distribution. Here, it is the prototype vector which is at the center of the bell curve.

    For the activation function, phi, we aren’t directly interested in the value of the standard deviation, sigma, so we make a couple simplifying modifications.

    The first change is that we’ve removed the outer coefficient, 1 / (sigma * sqrt(2 * pi)). This term normally controls the height of the Gaussian. Here, though, it is redundant with the weights applied by the output nodes. During training, the output nodes will يتعلم the correct coefficient or “weight” to apply to the neuron’s response.

    The second change is that we’ve replaced the inner coefficient, 1 / (2 * sigma^2), with a single parameter ‘beta’. This beta coefficient controls the width of the bell curve. Again, in this context, we don’t care about the value of sigma, we just care that there’s some coefficient which is controlling the width of the bell curve. So we simplify the equation by replacing the term with a single variable.

    RBF Neuron activation for different values of beta

    There is also a slight change in notation here when we apply the equation to n-dimensional vectors. The double bar notation in the activation equation indicates that we are taking the Euclidean distance between x and mu, and squaring the result. For the 1-dimensional Gaussian, this simplifies to just (x – mu)^2.

    It’s important to note that the underlying metric here for evaluating the similarity between an input vector and a prototype is the Euclidean distance between the two vectors.

    Also, each RBF neuron will produce its largest response when the input is equal to the prototype vector. This allows to take it as a measure of similarity, and sum the results from all of the RBF neurons.

    As we move out from the prototype vector, the response falls off exponentially. Recall from the RBFN architecture illustration that the output node for each category takes the weighted sum of كل RBF neuron in the network–in other words, every neuron in the network will have some influence over the classification decision. The exponential fall off of the activation function, however, means that the neurons whose prototypes are far from the input vector will actually contribute very little to the result.

    If you are interested in gaining a deeper understanding of how the Gaussian equation produces this bell curve shape, check out my post on the Gaussian Kernel.

    Example Dataset

    Before going into the details on training an RBFN, let’s look at a fully trained example.

    In the below dataset, we have two dimensional data points which belong to one of two classes, indicated by the blue x’s and red circles. I’ve trained an RBF Network with 20 RBF neurons on this data set. The prototypes selected are marked by black asterisks.

    We can also visualize the category 1 (red circle) score over the input space. We could do this with a 3D mesh, or a contour plot like the one below. The contour plot is like a topographical map.

    The areas where the category 1 score is highest are colored dark red, and the areas where the score is lowest are dark blue. The values range from -0.2 to 1.38.

    I’ve included the positions of the prototypes again as black asterisks. You can see how the hills in the output values are centered around these prototypes.

    It’s also interesting to look at the weights used by output nodes to remove some of the mystery.

    For the category 1 output node, all of the weights for the category 2 RBF neurons are negative:

    -0.79934
    -1.26054
    -0.68206
    -0.68042
    -0.65370
    -0.63270
    -0.65949
    -0.83266
    -0.82232
    -0.64140

    And all of the weights for category 1 RBF neurons are positive:
    0.78968
    0.64239
    0.61945
    0.44939
    0.83147
    0.61682
    0.49100
    0.57227
    0.68786
    0.84207

    Finally, we can plot an approximation of the decision boundary (the line where the category 1 and category 2 scores are equal).

    To plot the decision boundary, I’ve computed the scores over a finite grid. As a result, the decision boundary is jagged. I believe the true decision boundary would be smoother.

    Training The RBFN

    The training process for an RBFN consists of selecting three sets of parameters: the prototypes (mu) and beta coefficient for each of the RBF neurons, and the matrix of output weights between the RBF neurons and the output nodes.

    There are many possible approaches to selecting the prototypes and their variances. The following paper provides an overview of common approaches to training RBFNs. I read through it to familiarize myself with some of the details of RBF training, and chose specific approaches from it that made the most sense to me.

    It seems like there’s pretty much no “wrong” way to select the prototypes for the RBF neurons. In fact, two possible approaches are to create an RBF neuron for every training example, or to just randomly select k prototypes from the training data. The reason the requirements are so loose is that, given enough RBF neurons, an RBFN can define any arbitrarily complex decision boundary. In other words, you can always improve its accuracy by using more RBF neurons.

    What it really comes down to is a question of efficiency–more RBF neurons means more compute time, so it’s ideal if we can achieve good accuracy using as few RBF neurons as possible.

    One of the approaches for making an intelligent selection of prototypes is to perform k-Means clustering on your training set and to use the cluster centers as the prototypes. I won’t describe k-Means clustering in detail here, but it’s a fairly straight forward algorithm that you can find good tutorials for.

    When applying k-means, we first want to separate the training examples by category–we don’t want the clusters to include data points from multiple classes.

    Here again is the example data set with the selected prototypes. I ran k-means clustering with a k of 10 twice, once for the first class, and again for the second class, giving me a total of 20 clusters. Again, the cluster centers are marked with a black asterisk ‘*’.

    I’ve been claiming that the prototypes are just examples from the training set–here you can see that’s not technically true. The cluster centers are computed as the average of all of the points in the cluster.

    How many clusters to pick per class has to be determined “heuristically”. Higher values of k mean more prototypes, which enables a more complex decision boundary but also means more computations to evaluate the network.

    Selecting Beta Values

    If you use k-means clustering to select your prototypes, then one simple method for specifying the beta coefficients is to set sigma equal to the average distance between all points in the cluster and the cluster center.

    Here, mu is the cluster centroid, m is the number of training samples belonging to this cluster, and x_i is the ith training sample in the cluster.

    Once we have the sigma value for the cluster, we compute beta as:

    Output Weights

    The final set of parameters to train are the output weights. These can be trained using gradient descent (also known as least mean squares).

    First, for every data point in your training set, compute the activation values of the RBF neurons. These activation values become the training inputs to gradient descent.

    The linear equation needs a bias term, so we always add a fixed value of 𔃱’ to the beginning of the vector of activation values.

    Gradient descent must be run separately for each output node (that is, for each class in your data set).

    For the output labels, use the value 𔃱’ for samples that belong to the same category as the output node, and 𔃰’ for all other samples. For example, if our data set has three classes, and we’re learning the weights for output node 3, then all category 3 examples should be labeled as 𔃱’ and all category 1 and 2 examples should be labeled as 0.

    RBFN as a Neural Network

    So far, I’ve avoided using some of the typical neural network nomenclature to describe RBFNs. Since most papers do use neural network terminology when talking about RBFNs, I thought I’d provide some explanation on that here. Below is another version of the RBFN architecture diagram.

    Here the RBFN is viewed as a 𔄛-layer network” where the input vector is the first layer, the second “hidden” layer is the RBF neurons, and the third layer is the output layer containing linear combination neurons.

    One bit of terminology that really had me confused for a while is that the prototype vectors used by the RBFN neurons are sometimes referred to as the “input weights”. I generally think of weights as being coefficients, meaning that the weights will be multiplied against an input value. Here, though, we’re computing the distance between the input vector and the “input weights” (the prototype vector).


    Radial Basis Function Network versus Regression Model in Manufacturing Processes Prediction

    One of the objectives of manufacturing industry, is to increase the efficiency in their processes using different methodologies, such as statistical modeling, for production control and decision-making. However, the classical tools sometimes have difficulty to depict the manufacturing processes. This paper is a comparative study between a multiple regression model and a Radial Basis Function Neural Network in terms of the statistical metrics R2 and R2 adj applied in a permanent mold casting process and TIG welding process. Results showed that in both cases, the RBF network performed better than Regression model.

    الكلمات الدالة: Radial basis function Multiple regression Process prediction

    مقدمة

    Nowadays, the manufacturing companies have been increased difficulty in their process decision making, due to rapid changes in design methods and demand for quality products [1]. For that reason, there are different tools for modeling a process, like statistical, mathematical and intelligent systems, but the question is which of these tools depict better the process?

    The multiple regression is a statistical model that analyze how a set of predictor variables X are related to a single response measured y. Regression analysis answers questions about the dependence of a single response variable on one or more predictors, including prediction of future values, discovering which predictors are important and estimating the impact of changing a predictor or a treatment on the value of the response [2]. The Radial Basis Function (RBF) neural network aids to explain the process outputs based on the inputs assigned to it. For example, to automate a manufacturing process, it is necessary to know the input-output relationship in both directions, and using a radial basis network it is possible to predict the results of a manufacturing process efficiently [3]. The RBF networks are important in prediction by his character of universal approximators [4] and for its good performance in the non-linearity common in processes [5]. In this paper, we propose a comparative study between a multiple regression model and a Radial Basis Function Neural Network in terms of the statistical metrics R 2 , R 2 adj, R 2 PRESS applied in a permanent mold casting process.

    أساليب

    Radial basis function network

    Are so called Radial basis functions because the functions of the hidden layer as a base set for the function to be approximated, and the functions display a radial symmetry, being only a function of the distance between the learned patterns and the input ones.

    A neural network with radial basis function consists of the following layers [6]:

    Input layer: it is formed by the source nodes (sensory units).

    Intermediate layer: it is a hidden layer of great dimension and in which the units (neurons) that form it are the base functions for the input data.

    Output layer: that has the responsibility in the network for the activation of patterns applied in the input layer.

    Radial basis functions are functions that reach a level close to the maximum of their path when the input pattern (Xن) is close to the center of the neuron. If the pattern moves away from the center, the value of the function tends to the minimum value of its path. The training is only forward. The output of a network in general is influenced by a non-linear transformation, originating in the hidden layer through the radial function and a linear one in the output layer through the continuous linear function. A derivation of the radial basis models is the use of the standard deviation to activate the function G(*) , working with exp(d 2 / a), where a is the standard deviation for the hidden node.

    Genetic algorithm

    As mentioned above, the RBF output depends on the distance between the inputs to the network centers. There are many methods of clustering and optimization for determining the centers. One of them is the Genetic Algorithm (GA), which is a method of optimization based on the processes of biological evolution [7]. It is part of intelligent systems.

    The process consists in select randomly individuals of the current population these individuals will be the parents of the next generation that will be evolve to an optimal solution. The GA works on three main rules [8]:

    Parent selection of the next generation.

    The combination of parents to form the next generation.

    Applying random changes of each parent for the children.

    The GA considers one function of evaluation (fitness function) to optimize. The objective is maximizing or minimizing such fitness function. Applying GA to determine the centroids of the RBF, the metric used is R^2 which is a global evaluation metric [9], in this case the objective is to maximize this metric.

    Multiple regression

    A regression model which involves more than one regressor variable is called multiple regression model. In general, you can relate a response Y with k regressors or predictors. The statistical model to explain the behavior of the dependent variable including any number of independent variables is equation (1).

    The deviation of an observation Yأنا from its population mean E[Yأنا] is taken into account by adding a random error E[Yأنا] .There are k independent variables and k+1 parameters to be estimated. Usually, the estimation of the parameters βي is made by means of the Ordinary least Square Method (OLS). In a matrix form, the OLS estimator is given by [9]:

    تطبيق

    شكل 1: Radial basis function structure.

    الشكل 2: Target vs regression.

    The process consists of a permanent mold casting for manufacturing a piece for the electrical industry. They have three independent variables in eight runs. The data were obtained using a factorial design with 3 factors 2 levels. The objective of the modeling is to find the variable that causes more defects and minimize them. The model response is the total defects in the process. The observations are shown in Table 1. The comparison between the real responses and the Regression model is showed in the Figure 1 and the comparison between Radial Basis Function and real response is showed in the Figure 2 & 3.

    الشكل 3: Target vs RBF.

    Table 1: Model variables.

    الجدول 2: Comparison of association measurements.

    الجدول 3: Comparison of association measurements.

    It is possible to see graphically the FBR network model has a better fit than by regression. After that, the measurements of association were estimated to test the performance of a Regression model and RBF. Results are shown in Table 2. It is observed at Table 2, that the RBF Network depicts the process variation over that 90% in terms of the coefficients of determination. The method was applied in the TIG welding process too, using a welding robot Kuka KR-16, with multi-process welding system (MIG and TIG). Then taking process data and identifying the important parameters: feed rate (IPM), input voltage (volts), wire speed (m/min), and the output, the fusion 2 of the welding.

    The Figure 4 shows the response called Fusion 2, and measures the penetration of the vertical element to be attached to the horizontal element. This response is important in the material properties since its control depends on the strength of the joint. The Table 3 illustrates the results about the application and comparison between the RBF with Regression model. Those metrics are quantities used to express the proportion of total variability in the response accounted by the model. So that indicates the proportion of variability in yexplained by the model. Then the RBF is better than multivariate regression model.

    الشكل 4: TIG welding.

    استنتاج

    In order to improve manufacturing processes, it is very important to analyze the process to take better decisions. In this article it was shown that a tool based alternative intelligent systems, generates a better fit compared to regression analysis in terms of the measures of association. This statistical metrics provide information about the strength of the relationships between predictors and the dependent variable. With these results, it is possible to find the parameters that cause more defects. However, for future work is proposed to consider analyze each defect in a model for joint prediction, considering that the model design must be made multivariate: what will happen with the Regression model and RBF?

    مراجع

    © 2018 Homero De Jesus De Leon Delgado. This is an open access article distributed under the terms of the Creative Commons Attribution License , which permits unrestricted use, distribution, and build upon your work non-commercially.


    شاهد الفيديو: RBF Network Design and training in ANN (يوليو 2022).


تعليقات:

  1. Oscar

    إنه لأمر مؤسف أنه لا يمكنني التعبير عن نفسي الآن - لا يوجد وقت فراغ. سأكون مجانيًا - سأتحدث بالتأكيد عن رأيي.

  2. Oran

    أحسنت ، هذه هي الجملة الممتازة ببساطة :)

  3. Miron

    أعتقد أنه خطأ. أنا متأكد. أنا قادر على إثبات ذلك. اكتب لي في PM ، وتحدث.

  4. Eadlyn

    كبديل ، نعم

  5. Calum

    يا لها من عبارة ضرورية ... الفكرة الهائلة ، ممتازة

  6. Dubhgml

    يتعلمون من الأخطاء ويعاملون بعد الأخطاء. إلى سؤال الاستبيان "الحالة الاجتماعية: ..." كتب بفخر - "أعلاه". الحكومة بحاجة إلى دافع جديد ... حول الغسالة: قوي بوش عندما تشرب ، عليك أن تعرف متى تتوقف. خلاف ذلك ، يمكنك أن تشرب كميات أقل. من المعروف أنه يمكن لأي شخص دائمًا أن ينظر إلى ثلاثة أشياء: كيف تشتعل النار ، وكيف تتدفق المياه ، وكيف يعمل شخص آخر.

  7. Sashakar

    أعتذر ، لكن في رأيي ، أنت لست على حق. أنا متأكد. يمكنني إثبات ذلك. اكتب لي في رئيس الوزراء ، وسوف نتواصل.

  8. Voodoobei

    الجواب السريع ، خاصية الفهم



اكتب رسالة