روش حداقل مربعات اجازه می دهد. روش حداقل مربعات در اکسل. تحلیل رگرسیون برخی از موارد خاص استفاده از MNC در عمل

روش حداقل مربعات اجازه می دهد. روش حداقل مربعات در اکسل. تحلیل رگرسیون برخی از موارد خاص استفاده از MNC در عمل

17.03.2022

که بیشترین کاربرد را در زمینه های مختلف علمی و فعالیت عملی پیدا می کند. این می تواند فیزیک، شیمی، زیست شناسی، اقتصاد، جامعه شناسی، روانشناسی، و غیره و غیره باشد. به خواست سرنوشت، من اغلب باید با اقتصاد سر و کار داشته باشم، و بنابراین امروز برای شما سفری به کشوری شگفت انگیز به نام اقتصاد سنجی=) ...چطور نمیخوای؟! آنجا خیلی خوب است - فقط باید تصمیم خود را بگیرید! اما چیزی که احتمالاً قطعاً می خواهید این است که یاد بگیرید چگونه مشکلات را حل کنید روش حداقل مربعات. و به خصوص خوانندگان سخت کوش یاد خواهند گرفت که آنها را نه تنها به طور دقیق، بلکه بسیار سریع حل کنند ;-) اما ابتدا بیان کلی مشکل+ مثال همراه:

فرض کنید در یک حوزه موضوعی مشخص، شاخص هایی که بیان کمی دارند مورد مطالعه قرار می گیرند. در عین حال، دلایل زیادی برای این باور وجود دارد که شاخص به شاخص بستگی دارد. این فرض می تواند یک فرضیه علمی یا مبتنی بر عقل سلیم اولیه باشد. با این حال، بیایید علم را کنار بگذاریم و مناطق اشتها آورتر - یعنی فروشگاه های مواد غذایی - را بررسی کنیم. بیایید نشان دهیم:

- منطقه خرده فروشی یک فروشگاه مواد غذایی، متر مربع،
- گردش مالی سالانه یک فروشگاه مواد غذایی، میلیون روبل.

کاملاً واضح است که هر چه مساحت فروشگاه بزرگتر باشد، در بیشتر موارد گردش مالی آن بیشتر خواهد بود.

بیایید فرض کنیم که پس از انجام مشاهدات / آزمایش ها / محاسبات / رقص با یک تنبور، داده های عددی در اختیار داریم:

در مورد فروشگاه های مواد غذایی، فکر می کنم همه چیز روشن است: - این منطقه اولین فروشگاه است، - گردش مالی سالانه آن، - منطقه فروشگاه دوم، - گردش مالی سالانه آن و غیره. به هر حال، دسترسی به مواد طبقه بندی شده اصلاً ضروری نیست - ارزیابی نسبتاً دقیقی از گردش مالی تجاری را می توان با استفاده از آمار ریاضی. با این حال، بیایید منحرف نشویم، دوره جاسوسی تجاری قبلاً پرداخت شده است =)

داده های جدولی را نیز می توان به صورت نقطه نوشت و به شکل آشنا به تصویر کشید سیستم دکارتی .

بیایید به یک سوال مهم پاسخ دهیم: برای یک مطالعه کیفی چند امتیاز لازم است؟

بیشتر بهتر حداقل مجموعه قابل قبول شامل 5-6 امتیاز است. علاوه بر این، زمانی که مقدار داده کم باشد، نتایج "غیر عادی" نمی توانند در نمونه گنجانده شوند. بنابراین، برای مثال، یک فروشگاه کوچک نخبه می‌تواند سفارش‌های بزرگ‌تری نسبت به «همکارانش» به دست آورد، در نتیجه الگوی کلی را که باید پیدا کنید، مخدوش می‌کند!

به بیان ساده، باید یک تابع را انتخاب کنیم، برنامهکه تا حد امکان نزدیک به نقاط می گذرد . این تابع نامیده می شود تقریبی (تقریبی - تقریبی)یا عملکرد نظری . به طور کلی، یک "مقابل" آشکار بلافاصله در اینجا ظاهر می شود - یک چند جمله ای درجه بالا، که نمودار آن از تمام نقاط عبور می کند. اما این گزینه پیچیده است و اغلب به سادگی نادرست است. (از آنجایی که نمودار همیشه "حلقه" می شود و روند اصلی را به خوبی منعکس می کند).

بنابراین، تابع جستجو باید کاملاً ساده باشد و در عین حال به اندازه کافی وابستگی را منعکس کند. همانطور که ممکن است حدس بزنید، یکی از روش های یافتن چنین توابعی نامیده می شود روش حداقل مربعات. ابتدا اجازه دهید به ماهیت آن به صورت کلی نگاه کنیم. اجازه دهید برخی از تابع ها داده های تجربی را تقریبی کنند:


چگونه می توان دقت این تقریب را ارزیابی کرد؟ اجازه دهید تفاوت (انحرافات) بین مقادیر تجربی و عملکردی را نیز محاسبه کنیم (ما نقاشی را مطالعه می کنیم). اولین فکری که به ذهن می رسد این است که تخمین بزنیم مجموع چقدر است، اما مشکل اینجاست که تفاوت ها می تواند منفی باشد. (مثلاً ) و انحرافات در نتیجه چنین جمع آوری یکدیگر را خنثی می کنند. بنابراین، به عنوان تخمینی از دقت تقریب، التماس می شود که جمع را در نظر بگیرید ماژول هاانحرافات:

یا فرو ریخت: (در صورتی که کسی نداند: - این نماد جمع است و - یک متغیر "counter" کمکی که مقادیری از 1 تا را می گیرد).

با تقریب نقاط تجربی با توابع مختلف مقادیر متفاوتی بدست می آوریم و بدیهی است که در جایی که این مجموع کوچکتر است آن تابع دقیقتر است.

چنین روشی وجود دارد و به آن می گویند روش حداقل مدول. با این حال، در عمل بسیار گسترده تر شده است روش حداقل مربعات، که در آن مقادیر منفی احتمالی نه توسط ماژول، بلکه با مربع کردن انحرافات حذف می شوند:

، پس از آن تلاش ها برای انتخاب تابعی به گونه ای است که مجموع انحرافات مجذور باشد تا حد امکان کوچک بود در واقع، نام روش از اینجا آمده است.

و اکنون به یک نکته مهم دیگر باز می گردیم: همانطور که در بالا ذکر شد، تابع انتخاب شده باید کاملاً ساده باشد - اما بسیاری از توابع از این دست نیز وجود دارد: خطی , هذلولی, نمایی, لگاریتمی, درجه دوم و غیره و البته در اینجا من بلافاصله می خواهم "زمینه فعالیت را کاهش دهم." کدام دسته از توابع را برای تحقیق انتخاب کنم؟ یک تکنیک بدوی اما موثر:

- به تصویر کشیدن نقاط ساده تر است بر روی نقاشی و تجزیه و تحلیل مکان آنها. اگر آنها تمایل به دویدن در یک خط مستقیم دارند، پس باید به دنبال آن باشید معادله یک خط با مقادیر بهینه و . به عبارت دیگر، وظیفه یافتن چنین ضرایبی است که مجموع مجذور انحرافات کوچکترین باشد.

اگر نقاط، به عنوان مثال، در امتداد قرار دارند هذلولی، پس واضح است که تابع خطی تقریب ضعیفی به دست می دهد. در این مورد، ما به دنبال "مطلوب ترین" ضرایب برای معادله هذلولی هستیم - آنهایی که حداقل مجموع مربع ها را می دهند .

حال توجه داشته باشید که در هر دو مورد ما صحبت می کنیم توابع دو متغیر، که استدلال های آن است پارامترهای وابستگی جستجو شده:

و اساساً ما باید یک مشکل استاندارد را حل کنیم - پیدا کنیم حداقل تابع دو متغیر.

بیایید مثال خود را به خاطر بسپاریم: فرض کنید که نقاط "فروشگاه" در یک خط مستقیم قرار دارند و دلایل زیادی برای باور وجود وجود دارد. وابستگی خطیگردش مالی از فضای خرده فروشی بیایید چنین ضرایبی "a" و "be" را به گونه ای پیدا کنیم که مجموع انحرافات مجذور شود. کوچکترین بود همه چیز طبق معمول است - اول مشتقات جزئی مرتبه 1. با توجه به قانون خطی بودنمی توانید درست در زیر نماد جمع متمایز کنید:

اگر می‌خواهید از این اطلاعات برای مقاله یا مقاله ترم استفاده کنید، از پیوند موجود در فهرست منابع بسیار سپاسگزار خواهم بود، چنین محاسبات مفصلی را در چند جا پیدا خواهید کرد.

بیایید یک سیستم استاندارد ایجاد کنیم:

هر معادله را "دو" کاهش می دهیم و علاوه بر این، مجموع را "تقسیم" می کنیم:

توجه داشته باشید : به طور مستقل تجزیه و تحلیل کنید که چرا "a" و "be" را می توان فراتر از نماد جمع خارج کرد. به هر حال، به طور رسمی این را می توان با مجموع انجام داد

بیایید سیستم را به شکل "کاربردی" بازنویسی کنیم:

پس از آن الگوریتم برای حل مشکل ما شروع به ظهور می کند:

آیا مختصات نقاط را می دانیم؟ می دانیم. مبالغ آیا می توانیم آن را پیدا کنیم؟ به راحتی. بیایید ساده ترین ها را بسازیم سیستم دو معادله خطی در دو مجهول(«الف» و «بودن»). ما سیستم را حل می کنیم، به عنوان مثال، روش کرامر، در نتیجه یک نقطه ثابت به دست می آوریم. چک کردن شرایط کافی برای یک افراطی، می توانیم تأیید کنیم که در این مرحله تابع دقیقا می رسد حداقل. چک شامل محاسبات اضافی است و بنابراین ما آن را در پشت صحنه رها می کنیم (در صورت لزوم، قاب گم شده قابل مشاهده است). نتیجه نهایی را می گیریم:

تابع به بهترین شکل ممکن (حداقل در مقایسه با هر تابع خطی دیگری)نقاط تجربی را به هم نزدیک می کند . به طور کلی، نمودار آن تا حد ممکن به این نقاط نزدیک می شود. در سنت اقتصاد سنجیتابع تقریبی حاصل نیز نامیده می شود معادله رگرسیون خطی زوجی .

مسئله مورد بررسی اهمیت عملی زیادی دارد. در وضعیت مثال ما، معادله به شما اجازه می دهد تا پیش بینی کنید که چه گردش تجاری ("ایگرک")فروشگاه در یک یا مقدار دیگری از منطقه فروش خواهد داشت (یک یا آن معنی از "x"). بله، پیش‌بینی حاصل فقط یک پیش‌بینی خواهد بود، اما در بسیاری از موارد کاملاً دقیق خواهد بود.

من فقط یک مشکل را با اعداد "واقعی" تجزیه و تحلیل می کنم ، زیرا هیچ مشکلی در آن وجود ندارد - همه محاسبات در سطح برنامه درسی مدرسه کلاس 7-8 است. در 95 درصد موارد، از شما خواسته می شود که فقط یک تابع خطی را پیدا کنید، اما در انتهای مقاله نشان خواهم داد که یافتن معادلات هذلولی بهینه، نمایی و برخی دیگر از توابع دشوارتر نیست.

در واقع، تنها چیزی که باقی می ماند این است که چیزهای موعود را توزیع کنید - به طوری که می توانید یاد بگیرید که چنین نمونه هایی را نه تنها با دقت، بلکه به سرعت حل کنید. ما استاندارد را با دقت مطالعه می کنیم:

وظیفه

در نتیجه مطالعه رابطه بین دو شاخص، جفت اعداد زیر به دست آمد:

با استفاده از روش حداقل مربعات، تابع خطی را که بهترین تقریب تجربی را دارد، پیدا کنید (با تجربه)داده ها یک نقاشی بکشید که بر روی آن نقاط تجربی و نموداری از تابع تقریبی در یک سیستم مختصات مستطیلی دکارتی ساخته شود. . مجموع مجذور انحرافات بین مقادیر تجربی و نظری را بیابید. ببینید آیا این ویژگی بهتر است یا خیر (از دیدگاه روش حداقل مربعات)نقاط تجربی را به هم نزدیک کنید.

لطفاً توجه داشته باشید که معانی "x" طبیعی هستند و این یک معنای معنی دار مشخصه دارد که کمی بعد در مورد آن صحبت خواهم کرد. اما آنها، البته، می توانند کسری نیز باشند. علاوه بر این، بسته به محتوای یک کار خاص، هر دو مقدار "X" و "بازی" می توانند به طور کامل یا تا حدی منفی باشند. خوب، به ما یک وظیفه "بی چهره" داده شده است و ما آن را شروع می کنیم راه حل:

ما ضرایب تابع بهینه را به عنوان یک راه حل برای سیستم پیدا می کنیم:

برای ضبط فشرده تر، متغیر "counter" را می توان حذف کرد، زیرا از قبل واضح است که جمع بندی از 1 تا .

محاسبه مقادیر مورد نیاز به صورت جدولی راحت تر است:


محاسبات را می توان بر روی یک ریز ماشین حساب انجام داد، اما استفاده از Excel بسیار بهتر است - هم سریعتر و هم بدون خطا. تماشای یک ویدیوی کوتاه:

بنابراین، موارد زیر را بدست می آوریم سیستم:

در اینجا می توانید معادله دوم را در 3 ضرب کنید و عدد 2 را از معادله 1 کم کنید. اما این شانس است - در عمل، سیستم ها اغلب یک هدیه نیستند و در چنین مواردی باعث صرفه جویی می شود روش کرامر:
، به این معنی که سیستم یک راه حل منحصر به فرد دارد.

بیایید بررسی کنیم. می‌دانم که شما نمی‌خواهید، اما چرا از خطاهایی که نمی‌توان آنها را مطلقاً از دست داد، رد شد؟ اجازه دهید جواب یافت شده را در سمت چپ هر معادله سیستم جایگزین کنیم:

سمت راست معادلات مربوطه به دست می آید که به این معنی است که سیستم به درستی حل شده است.

بنابراین، تابع تقریبی مورد نظر: – از همه توابع خطیاین اوست که داده های تجربی را به بهترین شکل تقریب می کند.

بر خلاف مستقیم وابستگی گردش مالی فروشگاه به منطقه آن، وابستگی یافت شده است معکوس (اصل "هرچه بیشتر، کمتر")، و این واقعیت بلافاصله توسط منفی آشکار می شود شیب. تابع به ما می گوید که با افزایش 1 واحد در یک شاخص خاص، مقدار شاخص وابسته کاهش می یابد به طور متوسط 0.65 واحد همانطور که می گویند هر چه قیمت گندم سیاه بیشتر باشد کمتر فروخته می شود.

برای رسم تابع تقریبی، بیایید دو مقدار آن را پیدا کنیم:

و نقشه را اجرا کنید:


خط مستقیم ساخته شده نامیده می شود خط روند (یعنی یک خط روند خطی، یعنی در حالت کلی، یک روند لزوما یک خط مستقیم نیست). همه با عبارت "در ترند بودن" آشنا هستند و من فکر می کنم که این اصطلاح نیازی به توضیحات اضافی ندارد.

بیایید مجموع انحرافات مجذور را محاسبه کنیم بین ارزش های تجربی و نظری از نظر هندسی، این مجموع مربعات طول بخش های "تمشک" است. (دوتای آنها آنقدر کوچک هستند که حتی دیده نمی شوند).

بیایید محاسبات را در یک جدول خلاصه کنیم:


باز هم، آنها را می توان به صورت دستی انجام داد، برای نکته اول مثالی می زنم:

اما انجام آن به روشی که قبلاً شناخته شده است بسیار مؤثرتر است:

یک بار دیگر تکرار می کنیم: منظور از نتیجه به دست آمده چیست؟از همه توابع خطیتابع y شاخص کوچکترین است، یعنی در خانواده خود بهترین تقریب است. و در اینجا، اتفاقاً، سؤال نهایی مسئله تصادفی نیست: اگر تابع نمایی پیشنهادی چه می‌شود؟ آیا بهتر است نکات تجربی را به هم نزدیک کنیم؟

بیایید مجموع متناظر انحرافات مربع را پیدا کنیم - برای تشخیص، آنها را با حرف "epsilon" نشان می دهم. تکنیک دقیقاً مشابه است:


و دوباره، فقط در مورد، محاسبات برای نقطه 1:

در اکسل از تابع استاندارد استفاده می کنیم انقضا (سیستکس را می توان در راهنمای اکسل یافت).

نتیجه گیری: یعنی تابع نمایی بدتر از یک خط مستقیم به نقاط تجربی تقریب می زند .

اما در اینجا باید توجه داشت که "بدتر" است هنوز به این معنی نیست، که بد است. اکنون من یک نمودار از این تابع نمایی ساخته ام - و همچنین نزدیک به نقاط عبور می کند - به حدی که بدون تحقیق تحلیلی نمی توان گفت کدام تابع دقیق تر است.

این راه حل را به پایان می رساند و من به سؤال ارزش های طبیعی استدلال باز می گردم. در مطالعات مختلف، معمولاً اقتصادی یا جامعه‌شناختی، از «X»های طبیعی برای شماره‌گذاری ماه‌ها، سال‌ها یا سایر فواصل زمانی مساوی استفاده می‌شود. برای مثال مشکل زیر را در نظر بگیرید.

مثال.

داده های تجربی در مورد مقادیر متغیرها Xو دردر جدول آورده شده است.

در نتیجه تراز آنها، تابع به دست می آید

با استفاده از روش حداقل مربعات، این داده ها را با یک وابستگی خطی تقریب بزنید y=ax+b(پیدا کردن پارامترها الفو ب). دریابید که کدام یک از دو خط (به معنای روش حداقل مربعات) داده های تجربی را بهتر تراز می کند. یک نقاشی بکشید.

ماهیت روش حداقل مربعات (LSM).

وظیفه یافتن ضرایب وابستگی خطی است که در آن تابع دو متغیر است الفو ب کمترین مقدار را می گیرد. یعنی داده شده الفو بمجموع انحرافات مجذور داده های تجربی از خط مستقیم یافت شده کوچکترین خواهد بود. این نکته کل روش حداقل مربعات است.

بنابراین، حل مثال به یافتن حداکثر یک تابع از دو متغیر ختم می شود.

استخراج فرمول برای یافتن ضرایب.

یک سیستم دو معادله با دو مجهول گردآوری و حل می شود. یافتن مشتقات جزئی یک تابع با توجه به متغیرها الفو ب، این مشتقات را با صفر برابر می کنیم.

ما سیستم معادلات حاصل را با استفاده از هر روشی حل می کنیم (مثلا با روش تعویضیا ) و فرمول های یافتن ضرایب را با استفاده از روش حداقل مربعات (LSM) بدست آورید.

داده شده است الفو بتابع کمترین مقدار را می گیرد. دلیل این واقعیت ارائه شده است.

این کل روش حداقل مربعات است. فرمول برای یافتن پارامتر الفشامل مجموع ، ، ، و پارامتر است n- مقدار داده های تجربی توصیه می کنیم مقادیر این مقادیر را جداگانه محاسبه کنید. ضریب ببعد از محاسبه پیدا شد الف.

وقت آن است که نمونه اصلی را به خاطر بسپارید.

راه حل.

در مثال ما n=5. برای راحتی محاسبه مقادیری که در فرمول های ضرایب مورد نیاز گنجانده شده است، جدول را پر می کنیم.

مقادیر سطر چهارم جدول با ضرب مقادیر سطر دوم در مقادیر سطر 3 برای هر عدد به دست می آید. من.

مقادیر ردیف پنجم جدول با مربع کردن مقادیر ردیف دوم برای هر عدد به دست می آید. من.

مقادیر در آخرین ستون جدول مجموع مقادیر در سراسر سطرها هستند.

برای یافتن ضرایب از فرمول روش حداقل مربعات استفاده می کنیم الفو ب. مقادیر مربوطه را از آخرین ستون جدول در آنها جایگزین می کنیم:

از این رو، y = 0.165x+2.184- خط مستقیم تقریبی مورد نظر.

باقی مانده است که بفهمیم کدام یک از خطوط y = 0.165x+2.184یا داده های اصلی را بهتر تقریب می کند، یعنی با استفاده از روش حداقل مربعات تخمین می زند.

تخمین خطای روش حداقل مربعات.

برای انجام این کار، باید مجموع انحرافات مجذور داده های اصلی را از این خطوط محاسبه کنید و ، یک مقدار کوچکتر مربوط به خطی است که داده های اصلی را به معنای روش حداقل مربعات بهتر تقریب می کند.

از آن زمان، سپس مستقیم y = 0.165x+2.184داده های اصلی را بهتر تقریب می کند.

تصویر گرافیکی روش حداقل مربعات (LS).

همه چیز به وضوح در نمودارها قابل مشاهده است. خط قرمز خط مستقیم پیدا شده است y = 0.165x+2.184، خط آبی است ، نقطه های صورتی داده های اصلی هستند.

چرا این مورد نیاز است، چرا این همه تقریب؟

من شخصا از آن برای حل مشکلات هموارسازی داده ها، درون یابی و مشکلات برون یابی استفاده می کنم (در مثال اصلی ممکن است از آنها خواسته شده باشد که مقدار یک مقدار مشاهده شده را بیابند. yدر x=3یا چه زمانی x=6با استفاده از روش حداقل مربعات). اما بعداً در بخش دیگری از سایت در مورد این موضوع بیشتر صحبت خواهیم کرد.

اثبات

به طوری که وقتی پیدا شد الفو بتابع کوچکترین مقدار را می گیرد، لازم است که در این مرحله ماتریس شکل درجه دوم دیفرانسیل مرتبه دوم برای تابع باشد. مثبت قطعی بود بیایید آن را نشان دهیم.

دیفرانسیل مرتبه دوم به شکل زیر است:

یعنی

بنابراین، ماتریس فرم درجه دوم دارای فرم است

و مقادیر عناصر به آن بستگی ندارد الفو ب.

اجازه دهید نشان دهیم که ماتریس مثبت قطعی است. برای انجام این کار، مینورهای زاویه ای باید مثبت باشند.

مینور زاویه ای مرتبه اول . نابرابری سخت است زیرا نقاط با هم مطابقت ندارند. در ادامه به این موضوع اشاره خواهیم کرد.

مینور زاویه ای مرتبه دوم

این را ثابت کنیم به روش استقراء ریاضی

نتیجه گیری: مقادیر یافت شده الفو ببا کوچکترین مقدار تابع مطابقت دارد بنابراین، پارامترهای مورد نیاز برای روش حداقل مربعات هستند.

روش حداقل مربعات

در درس پایانی مبحث با معروف ترین اپلیکیشن آشنا می شویم FNP، که بیشترین کاربرد را در زمینه های مختلف علمی و فعالیت عملی پیدا می کند. این می تواند فیزیک، شیمی، زیست شناسی، اقتصاد، جامعه شناسی، روانشناسی، و غیره و غیره باشد. به خواست سرنوشت، من اغلب باید با اقتصاد سر و کار داشته باشم، و بنابراین امروز برای شما سفری به کشوری شگفت انگیز به نام اقتصاد سنجی=) ...چطور نمیخوای؟! آنجا خیلی خوب است - فقط باید تصمیم خود را بگیرید! اما چیزی که احتمالاً قطعاً می خواهید این است که یاد بگیرید چگونه مشکلات را حل کنید روش حداقل مربعات. و به خصوص خوانندگان سخت کوش یاد خواهند گرفت که آنها را نه تنها به طور دقیق، بلکه بسیار سریع حل کنند ;-) اما ابتدا بیان کلی مشکل+ مثال همراه:

فرض کنید در یک حوزه موضوعی مشخص، شاخص هایی که بیان کمی دارند مورد مطالعه قرار می گیرند. در عین حال، دلایل زیادی برای این باور وجود دارد که شاخص به شاخص بستگی دارد. این فرض می تواند یک فرضیه علمی یا مبتنی بر عقل سلیم اولیه باشد. با این حال، بیایید علم را کنار بگذاریم و مناطق اشتها آورتر - یعنی فروشگاه های مواد غذایی - را بررسی کنیم. بیایید نشان دهیم:

- منطقه خرده فروشی یک فروشگاه مواد غذایی، متر مربع،
- گردش مالی سالانه یک فروشگاه مواد غذایی، میلیون روبل.

کاملاً واضح است که هر چه مساحت فروشگاه بزرگتر باشد، در بیشتر موارد گردش مالی آن بیشتر خواهد بود.

بیایید فرض کنیم که پس از انجام مشاهدات / آزمایش ها / محاسبات / رقص با یک تنبور، داده های عددی در اختیار داریم:

در مورد فروشگاه های مواد غذایی، فکر می کنم همه چیز روشن است: - این منطقه اولین فروشگاه است، - گردش مالی سالانه آن، - منطقه فروشگاه دوم، - گردش مالی سالانه آن و غیره. به هر حال، دسترسی به مواد طبقه بندی شده اصلاً ضروری نیست - ارزیابی نسبتاً دقیقی از گردش مالی تجاری را می توان با استفاده از آمار ریاضی. با این حال، بیایید منحرف نشویم، دوره جاسوسی تجاری قبلاً پرداخت شده است =)

داده های جدولی را نیز می توان به صورت نقطه نوشت و به شکل آشنا به تصویر کشید سیستم دکارتی .

بیایید به یک سوال مهم پاسخ دهیم: برای یک مطالعه کیفی چند امتیاز لازم است؟

بیشتر بهتر حداقل مجموعه قابل قبول شامل 5-6 امتیاز است. علاوه بر این، زمانی که مقدار داده کم باشد، نتایج "غیر عادی" نمی توانند در نمونه گنجانده شوند. بنابراین، برای مثال، یک فروشگاه کوچک نخبه می‌تواند سفارش‌های بزرگ‌تری نسبت به «همکارانش» به دست آورد، در نتیجه الگوی کلی را که باید پیدا کنید، مخدوش می‌کند!



به بیان ساده، باید یک تابع را انتخاب کنیم، برنامهکه تا حد امکان نزدیک به نقاط می گذرد . این تابع نامیده می شود تقریبی (تقریبی - تقریبی)یا عملکرد نظری . به طور کلی، یک "مقابل" آشکار بلافاصله در اینجا ظاهر می شود - یک چند جمله ای درجه بالا، که نمودار آن از تمام نقاط عبور می کند. اما این گزینه پیچیده است و اغلب به سادگی نادرست است. (از آنجایی که نمودار همیشه "حلقه" می شود و روند اصلی را به خوبی منعکس می کند).

بنابراین، تابع جستجو باید کاملاً ساده باشد و در عین حال به اندازه کافی وابستگی را منعکس کند. همانطور که ممکن است حدس بزنید، یکی از روش های یافتن چنین توابعی نامیده می شود روش حداقل مربعات. ابتدا اجازه دهید به ماهیت آن به صورت کلی نگاه کنیم. اجازه دهید برخی از تابع ها داده های تجربی را تقریبی کنند:


چگونه می توان دقت این تقریب را ارزیابی کرد؟ اجازه دهید تفاوت (انحرافات) بین مقادیر تجربی و عملکردی را نیز محاسبه کنیم (ما نقاشی را مطالعه می کنیم). اولین فکری که به ذهن می رسد این است که تخمین بزنیم مجموع چقدر است، اما مشکل اینجاست که تفاوت ها می تواند منفی باشد. (مثلاً ) و انحرافات در نتیجه چنین جمع آوری یکدیگر را خنثی می کنند. بنابراین، به عنوان تخمینی از دقت تقریب، التماس می شود که جمع را در نظر بگیرید ماژول هاانحرافات:

یا فرو ریخت: (در صورتی که کسی نداند: نماد جمع است و - یک متغیر "counter" کمکی که مقادیر از 1 تا را می گیرد ) .

با تقریب نقاط تجربی با توابع مختلف مقادیر متفاوتی بدست می آوریم و بدیهی است که در جایی که این مجموع کوچکتر است آن تابع دقیقتر است.

چنین روشی وجود دارد و به آن می گویند روش حداقل مدول. با این حال، در عمل بسیار گسترده تر شده است روش حداقل مربعات، که در آن مقادیر منفی احتمالی نه توسط ماژول، بلکه با مربع کردن انحرافات حذف می شوند:



، پس از آن تلاش ها برای انتخاب تابعی به گونه ای است که مجموع انحرافات مجذور باشد تا حد امکان کوچک بود در واقع، نام روش از اینجا آمده است.

و اکنون به یک نکته مهم دیگر باز می گردیم: همانطور که در بالا ذکر شد، تابع انتخاب شده باید کاملاً ساده باشد - اما بسیاری از توابع از این دست نیز وجود دارد: خطی , هذلولی , نمایی , لگاریتمی , درجه دوم و غیره و البته در اینجا من بلافاصله می خواهم "زمینه فعالیت را کاهش دهم." کدام دسته از توابع را برای تحقیق انتخاب کنم؟ یک تکنیک بدوی اما موثر:

- به تصویر کشیدن نقاط ساده تر است بر روی نقاشی و تجزیه و تحلیل مکان آنها. اگر آنها تمایل به دویدن در یک خط مستقیم دارند، پس باید به دنبال آن باشید معادله یک خط با مقادیر بهینه و . به عبارت دیگر، وظیفه یافتن چنین ضرایبی است که مجموع مجذور انحرافات کوچکترین باشد.

اگر نقاط، به عنوان مثال، در امتداد قرار دارند هذلولی، پس واضح است که تابع خطی تقریب ضعیفی به دست می دهد. در این مورد، ما به دنبال "مطلوب ترین" ضرایب برای معادله هذلولی هستیم - آنهایی که حداقل مجموع مربع ها را می دهند .

حال توجه داشته باشید که در هر دو مورد ما صحبت می کنیم توابع دو متغیر، که استدلال های آن است پارامترهای وابستگی جستجو شده:

و اساساً ما باید یک مشکل استاندارد را حل کنیم - پیدا کنیم حداقل تابع دو متغیر.

بیایید مثال خود را به خاطر بسپاریم: فرض کنید که نقاط "فروشگاه" در یک خط مستقیم قرار دارند و دلایل زیادی برای باور وجود وجود دارد. وابستگی خطیگردش مالی از فضای خرده فروشی بیایید چنین ضرایبی "a" و "be" را به گونه ای پیدا کنیم که مجموع انحرافات مجذور شود. کوچکترین بود همه چیز طبق معمول است - اول مشتقات جزئی مرتبه 1. با توجه به قانون خطی بودنمی توانید درست در زیر نماد جمع متمایز کنید:

اگر می‌خواهید از این اطلاعات برای مقاله یا مقاله ترم استفاده کنید، از پیوند موجود در فهرست منابع بسیار سپاسگزار خواهم بود، چنین محاسبات مفصلی را در چند جا پیدا خواهید کرد.

بیایید یک سیستم استاندارد ایجاد کنیم:

هر معادله را "دو" کاهش می دهیم و علاوه بر این، مجموع را "تقسیم" می کنیم:

توجه داشته باشید : به طور مستقل تجزیه و تحلیل کنید که چرا "a" و "be" را می توان فراتر از نماد جمع خارج کرد. به هر حال، به طور رسمی این را می توان با مجموع انجام داد

بیایید سیستم را به شکل "کاربردی" بازنویسی کنیم:

پس از آن الگوریتم برای حل مشکل ما شروع به ظهور می کند:

آیا مختصات نقاط را می دانیم؟ می دانیم. مبالغ آیا می توانیم آن را پیدا کنیم؟ به راحتی. بیایید ساده ترین ها را بسازیم سیستم دو معادله خطی در دو مجهول(«الف» و «بودن»). ما سیستم را حل می کنیم، به عنوان مثال، روش کرامر، در نتیجه یک نقطه ثابت به دست می آوریم. چک کردن شرایط کافی برای یک افراطی، می توانیم تأیید کنیم که در این مرحله تابع دقیقا می رسد حداقل. چک شامل محاسبات اضافی است و بنابراین ما آن را در پشت صحنه رها می کنیم (در صورت لزوم، قاب گم شده قابل مشاهده استاینجا ) . نتیجه نهایی را می گیریم:

تابع به بهترین شکل ممکن (حداقل در مقایسه با هر تابع خطی دیگری)نقاط تجربی را به هم نزدیک می کند . به طور کلی، نمودار آن تا حد ممکن به این نقاط نزدیک می شود. در سنت اقتصاد سنجیتابع تقریبی حاصل نیز نامیده می شود معادله رگرسیون خطی زوجی .

مسئله مورد بررسی اهمیت عملی زیادی دارد. در وضعیت مثال ما، معادله به شما اجازه می دهد تا پیش بینی کنید که چه گردش تجاری ("ایگرک")فروشگاه در یک یا مقدار دیگری از منطقه فروش خواهد داشت (یک یا آن معنی از "x"). بله، پیش‌بینی حاصل فقط یک پیش‌بینی خواهد بود، اما در بسیاری از موارد کاملاً دقیق خواهد بود.

من فقط یک مشکل را با اعداد "واقعی" تجزیه و تحلیل می کنم ، زیرا هیچ مشکلی در آن وجود ندارد - همه محاسبات در سطح برنامه درسی مدرسه کلاس 7-8 است. در 95 درصد موارد، از شما خواسته می شود که فقط یک تابع خطی را پیدا کنید، اما در انتهای مقاله نشان خواهم داد که یافتن معادلات هذلولی بهینه، نمایی و برخی دیگر از توابع دشوارتر نیست.

در واقع، تنها چیزی که باقی می ماند این است که چیزهای موعود را توزیع کنید - به طوری که می توانید یاد بگیرید که چنین نمونه هایی را نه تنها با دقت، بلکه به سرعت حل کنید. ما استاندارد را با دقت مطالعه می کنیم:

وظیفه

در نتیجه مطالعه رابطه بین دو شاخص، جفت اعداد زیر به دست آمد:

با استفاده از روش حداقل مربعات، تابع خطی را که بهترین تقریب تجربی را دارد، پیدا کنید (با تجربه)داده ها یک نقاشی بکشید که بر روی آن نقاط تجربی و نموداری از تابع تقریبی در یک سیستم مختصات مستطیلی دکارتی ساخته شود. . مجموع مجذور انحرافات بین مقادیر تجربی و نظری را بیابید. ببینید آیا این ویژگی بهتر است یا خیر (از دیدگاه روش حداقل مربعات)نقاط تجربی را به هم نزدیک کنید.

لطفاً توجه داشته باشید که معانی "x" طبیعی هستند و این یک معنای معنی دار مشخصه دارد که کمی بعد در مورد آن صحبت خواهم کرد. اما آنها، البته، می توانند کسری نیز باشند. علاوه بر این، بسته به محتوای یک کار خاص، هر دو مقدار "X" و "بازی" می توانند به طور کامل یا تا حدی منفی باشند. خوب، به ما یک وظیفه "بی چهره" داده شده است و ما آن را شروع می کنیم راه حل:

ما ضرایب تابع بهینه را به عنوان یک راه حل برای سیستم پیدا می کنیم:

برای ضبط فشرده تر، متغیر "counter" را می توان حذف کرد، زیرا از قبل واضح است که جمع بندی از 1 تا .

محاسبه مقادیر مورد نیاز به صورت جدولی راحت تر است:


محاسبات را می توان بر روی یک ریز ماشین حساب انجام داد، اما استفاده از Excel بسیار بهتر است - هم سریعتر و هم بدون خطا. تماشای یک ویدیوی کوتاه:

بنابراین، موارد زیر را بدست می آوریم سیستم:

در اینجا می توانید معادله دوم را در 3 ضرب کنید و عدد 2 را از معادله 1 کم کنید. اما این شانس است - در عمل، سیستم ها اغلب یک هدیه نیستند و در چنین مواردی باعث صرفه جویی می شود روش کرامر:
، به این معنی که سیستم یک راه حل منحصر به فرد دارد.

بیایید بررسی کنیم. می‌دانم که شما نمی‌خواهید، اما چرا از خطاهایی که نمی‌توان آنها را مطلقاً از دست داد، رد شد؟ اجازه دهید جواب یافت شده را در سمت چپ هر معادله سیستم جایگزین کنیم:

سمت راست معادلات مربوطه به دست می آید که به این معنی است که سیستم به درستی حل شده است.

بنابراین، تابع تقریبی مورد نظر: – از همه توابع خطیاین اوست که داده های تجربی را به بهترین شکل تقریب می کند.

بر خلاف مستقیم وابستگی گردش مالی فروشگاه به منطقه آن، وابستگی یافت شده است معکوس (اصل "هرچه بیشتر، کمتر")، و این واقعیت بلافاصله توسط منفی آشکار می شود شیب. تابع به ما می گوید که با افزایش 1 واحد در یک شاخص خاص، مقدار شاخص وابسته کاهش می یابد به طور متوسط 0.65 واحد همانطور که می گویند هر چه قیمت گندم سیاه بیشتر باشد کمتر فروخته می شود.

برای رسم تابع تقریبی، بیایید دو مقدار آن را پیدا کنیم:

و نقشه را اجرا کنید:

خط مستقیم ساخته شده نامیده می شود خط روند (یعنی یک خط روند خطی، یعنی در حالت کلی، یک روند لزوما یک خط مستقیم نیست). همه با عبارت "در ترند بودن" آشنا هستند و من فکر می کنم که این اصطلاح نیازی به توضیحات اضافی ندارد.

بیایید مجموع انحرافات مجذور را محاسبه کنیم بین ارزش های تجربی و نظری از نظر هندسی، این مجموع مربعات طول بخش های "تمشک" است. (دوتای آنها آنقدر کوچک هستند که حتی دیده نمی شوند).

بیایید محاسبات را در یک جدول خلاصه کنیم:


باز هم، آنها را می توان به صورت دستی انجام داد، برای نکته اول مثالی می زنم:

اما انجام آن به روشی که قبلاً شناخته شده است بسیار مؤثرتر است:

یک بار دیگر تکرار می کنیم: منظور از نتیجه به دست آمده چیست؟از همه توابع خطیتابع y شاخص کوچکترین است، یعنی در خانواده خود بهترین تقریب است. و در اینجا، اتفاقاً، سؤال نهایی مسئله تصادفی نیست: اگر تابع نمایی پیشنهادی چه می‌شود؟ آیا بهتر است نکات تجربی را به هم نزدیک کنیم؟

بیایید مجموع متناظر انحرافات مربع را پیدا کنیم - برای تشخیص، آنها را با حرف "epsilon" نشان می دهم. تکنیک دقیقاً مشابه است:


و دوباره، فقط در مورد، محاسبات برای نقطه 1:

در اکسل از تابع استاندارد استفاده می کنیم انقضا (سیستکس را می توان در راهنمای اکسل یافت).

نتیجه گیری: یعنی تابع نمایی بدتر از یک خط مستقیم به نقاط تجربی تقریب می زند .

اما در اینجا باید توجه داشت که "بدتر" است هنوز به این معنی نیست، که بد است. اکنون من یک نمودار از این تابع نمایی ساخته ام - و همچنین نزدیک به نقاط عبور می کند - به حدی که بدون تحقیق تحلیلی نمی توان گفت کدام تابع دقیق تر است.

این راه حل را به پایان می رساند و من به سؤال ارزش های طبیعی استدلال باز می گردم. در مطالعات مختلف، معمولاً اقتصادی یا جامعه‌شناختی، از «X»های طبیعی برای شماره‌گذاری ماه‌ها، سال‌ها یا سایر فواصل زمانی مساوی استفاده می‌شود. برای مثال مشکل زیر را در نظر بگیرید:

داده های زیر در مورد گردش مالی خرده فروشی فروشگاه در نیمه اول سال موجود است:

با استفاده از تراز خط مستقیم تحلیلی، حجم گردش مالی ماه جولای را تعیین کنید.

بله، مشکلی نیست: ما ماه ها را 1، 2، 3، 4، 5، 6 شماره گذاری می کنیم و از الگوریتم معمولی استفاده می کنیم که در نتیجه معادله ای به دست می آید - تنها چیزی که به زمان می رسد این است که معمولاً از آن استفاده می کنند. حرف "ته" (اگرچه این مهم نیست). معادله به دست آمده نشان می دهد که در نیمه اول سال گردش مالی به طور متوسط ​​27.74 واحد افزایش یافته است. در هر ماه بیایید پیش بینی ماه جولای را دریافت کنیم (ماه شماره 7): d.e.

و وظایف بی شماری از این دست وجود دارد. کسانی که مایل هستند می توانند از یک سرویس اضافی یعنی من استفاده کنند ماشین حساب اکسل (نسخه دمو)، که تقریباً بلافاصله مشکل تجزیه و تحلیل شده را حل می کند!نسخه کاری برنامه موجود است در مبادلهیا برای هزینه نمادین.

در پایان درس، اطلاعات مختصری در مورد یافتن وابستگی های برخی از انواع دیگر ارائه شود. در واقع، چیز زیادی برای گفتن وجود ندارد، زیرا رویکرد اساسی و الگوریتم حل یکسان هستند.

فرض کنید آرایش نقاط تجربی شبیه هذلولی است. سپس، برای پیدا کردن ضرایب بهترین هذلولی، باید حداقل تابع را پیدا کنید - هر کسی می تواند محاسبات دقیق را انجام دهد و به یک سیستم مشابه برسد:

از نقطه نظر فنی رسمی، از یک سیستم "خطی" به دست می آید (بیایید آن را با یک ستاره نشان دهیم)جایگزینی "x" با . خوب، در مورد مقادیر؟ محاسبه کنید، پس از آن به ضرایب بهینه "a" و "be" نزدیک در دست.

در صورتی که همه دلایلی وجود داشته باشد که این نکات را باور کنیم در امتداد یک منحنی لگاریتمی قرار می گیرند، سپس برای یافتن مقادیر بهینه، حداقل تابع را پیدا می کنیم . به طور رسمی، در سیستم (*) باید با:

هنگام انجام محاسبات در اکسل، از تابع استفاده کنید LN. اعتراف می کنم که ایجاد ماشین حساب برای هر یک از موارد مورد بررسی برای من دشوار نخواهد بود، اما باز هم بهتر است که محاسبات را خودتان "برنامه ریزی" کنید. فیلم های درسی برای کمک.

با وابستگی نمایی، وضعیت کمی پیچیده‌تر است. برای تقلیل ماده به حالت خطی، تابع لگاریتم را می گیریم و استفاده می کنیم خواص لگاریتم:

حال با مقایسه تابع به دست آمده با تابع خطی به این نتیجه می رسیم که در سیستم (*) باید با، و – با . برای راحتی، بیایید نشان دهیم:

لطفا توجه داشته باشید که سیستم با توجه به و بنابراین، پس از یافتن ریشه ها، نباید فراموش کنید که خود ضریب را پیدا کنید.

برای نزدیک کردن به نکات تجربی سهمی بهینه ، باید پیدا شود حداقل تابع سه متغیر . پس از انجام اقدامات استاندارد، "کار" زیر را دریافت می کنیم سیستم:

بله، البته، در اینجا مقادیر بیشتری وجود دارد، اما در هنگام استفاده از برنامه مورد علاقه شما هیچ مشکلی وجود ندارد. و در نهایت، من به شما خواهم گفت که چگونه با استفاده از اکسل به سرعت بررسی کنید و خط روند مورد نظر را بسازید: یک نمودار پراکندگی ایجاد کنید، هر یک از نقاط را با ماوس انتخاب کنید. و راست کلیک کنید گزینه را انتخاب کنید "افزودن خط روند". در مرحله بعد، نوع نمودار را انتخاب کنید و در تب "گزینه ها"گزینه را فعال کنید "نمایش معادله در نمودار". باشه

مثل همیشه، می‌خواهم مقاله را با یک عبارت زیبا به پایان برسانم و تقریباً «در ترند باشید!» را تایپ کردم. اما به مرور نظرش عوض شد. و نه به این دلیل که کلیشه ای است. من نمی دانم برای کسی چگونه است، اما من واقعاً نمی خواهم از روند تبلیغ شده آمریکایی و به خصوص اروپایی پیروی کنم =) بنابراین، آرزو می کنم هر یک از شما به خط خود پایبند باشید!

http://www.grandars.ru/student/vysshaya-matematika/metod-naimenshih-kvadratov.html

روش حداقل مربعات یکی از رایج ترین و پیشرفته ترین روش ها به دلیل داشتن آن است سادگی و کارایی روش‌های تخمین پارامترهای مدل‌های اقتصادسنجی خطی. در عین حال، هنگام استفاده از آن، باید احتیاط را رعایت کرد، زیرا مدل های ساخته شده با استفاده از آن ممکن است تعدادی از الزامات کیفیت پارامترهای آنها را برآورده نکنند و در نتیجه، الگوهای توسعه فرآیند را به خوبی منعکس نکنند. به اندازه کافی

اجازه دهید روند تخمین پارامترهای یک مدل اقتصاد سنجی خطی با استفاده از روش حداقل مربعات را با جزئیات بیشتری در نظر بگیریم. چنین مدلی را می توان به طور کلی با معادله (1.2) نشان داد:

y t = a 0 + a 1 x 1t +...+ a n x nt + ε t.

داده های اولیه هنگام تخمین پارامترهای a 0, a 1,..., a n بردار مقادیر متغیر وابسته است. y= (y 1 , y 2 , ... , y T)" و ماتریس مقادیر متغیرهای مستقل

که در آن ستون اول، متشکل از یکی، با ضریب مدل مطابقت دارد.

روش حداقل مربعات نام خود را بر اساس اصل اساسی دریافت کرد که تخمین پارامترهای به دست آمده بر اساس آن باید برآورده شوند: مجموع مربعات خطای مدل باید حداقل باشد.

نمونه هایی از حل مسائل با استفاده از روش حداقل مربعات

مثال 2.1.شرکت بازرگانی دارای شبکه ای از 12 فروشگاه است که اطلاعات فعالیت های آنها در جدول ارائه شده است. 2.1.

مدیریت شرکت مایل است بداند که اندازه گردش مالی سالانه چگونه به فضای خرده فروشی فروشگاه بستگی دارد.

جدول 2.1

شماره فروشگاه گردش مالی سالانه، میلیون روبل. مساحت خرده فروشی، هزار متر مربع
19,76 0,24
38,09 0,31
40,95 0,55
41,08 0,48
56,29 0,78
68,51 0,98
75,01 0,94
89,05 1,21
91,13 1,29
91,26 1,12
99,84 1,29
108,55 1,49

راه حل حداقل مربعاتاجازه دهید گردش مالی سالانه فروشگاه هفتم، میلیون روبل را نشان دهیم. - متراژ خرده فروشی هزار متر مربع.

شکل 2.1. Scatterplot برای مثال 2.1

برای تعیین شکل رابطه عملکردی بین متغیرها و ما یک نمودار پراکندگی می سازیم (شکل 2.1).

بر اساس نمودار پراکندگی، می‌توان نتیجه گرفت که گردش مالی سالانه به طور مثبت به فضای خرده‌فروشی وابسته است (یعنی با افزایش y افزایش می‌یابد). مناسب ترین شکل اتصال عملکردی است خطی.

اطلاعات برای محاسبات بیشتر در جدول ارائه شده است. 2.2. با استفاده از روش حداقل مربعات، پارامترهای یک مدل اقتصادسنجی خطی تک عاملی را تخمین می زنیم

جدول 2.2

تی y t x 1t y t 2 x 1t 2 x 1t y t
19,76 0,24 390,4576 0,0576 4,7424
38,09 0,31 1450,8481 0,0961 11,8079
40,95 0,55 1676,9025 0,3025 22,5225
41,08 0,48 1687,5664 0,2304 19,7184
56,29 0,78 3168,5641 0,6084 43,9062
68,51 0,98 4693,6201 0,9604 67,1398
75,01 0,94 5626,5001 0,8836 70,5094
89,05 1,21 7929,9025 1,4641 107,7505
91,13 1,29 8304,6769 1,6641 117,5577
91,26 1,12 8328,3876 1,2544 102,2112
99,84 1,29 9968,0256 1,6641 128,7936
108,55 1,49 11783,1025 2,2201 161,7395
اس 819,52 10,68 65008,554 11,4058 858,3991
میانگین 68,29 0,89

بنابراین،

بنابراین، با افزایش فضای خرده فروشی به میزان 1000 متر مربع، با مساوی بودن سایر موارد، میانگین گردش مالی سالانه 67.8871 میلیون روبل افزایش می یابد.

مثال 2.2.مدیریت شرکت متوجه شد که گردش مالی سالانه نه تنها به منطقه فروش فروشگاه (نگاه کنید به مثال 2.1)، بلکه به میانگین تعداد بازدیدکنندگان نیز بستگی دارد. اطلاعات مربوطه در جدول ارائه شده است. 2.3.

جدول 2.3

راه حل.اجازه دهید نشان دهیم - میانگین تعداد بازدیدکنندگان از فروشگاه هفتم در روز، هزار نفر.

برای تعیین شکل رابطه عملکردی بین متغیرها و ما یک نمودار پراکندگی می سازیم (شکل 2.2).

بر اساس نمودار پراکندگی، می‌توان نتیجه گرفت که گردش مالی سالانه به طور مثبت به میانگین تعداد بازدیدکنندگان در روز وابسته است (یعنی با افزایش y افزایش می‌یابد). شکل وابستگی عملکردی خطی است.

برنج. 2.2. Scatterplot برای مثال 2.2

جدول 2.4

تی x 2t x 2t 2 y t x 2t x 1t x 2t
8,25 68,0625 163,02 1,98
10,24 104,8575 390,0416 3,1744
9,31 86,6761 381,2445 5,1205
11,01 121,2201 452,2908 5,2848
8,54 72,9316 480,7166 6,6612
7,51 56,4001 514,5101 7,3598
12,36 152,7696 927,1236 11,6184
10,81 116,8561 962,6305 13,0801
9,89 97,8121 901,2757 12,7581
13,72 188,2384 1252,0872 15,3664
12,27 150,5529 1225,0368 15,8283
13,92 193,7664 1511,016 20,7408
اس 127,83 1410,44 9160,9934 118,9728
میانگین 10,65

به طور کلی تعیین پارامترهای یک مدل اقتصادسنجی دو عاملی ضروری است

y t = a 0 + a 1 x 1t + a 2 x 2t + ε t

اطلاعات مورد نیاز برای محاسبات بیشتر در جدول ارائه شده است. 2.4.

اجازه دهید پارامترهای یک مدل اقتصادسنجی خطی دو عاملی را با استفاده از روش حداقل مربعات تخمین بزنیم.

بنابراین،

تخمین ضریب = 61.6583 نشان می دهد که با برابری سایر موارد، با افزایش فضای خرده فروشی 1 هزار متر مربع، گردش مالی سالانه به طور متوسط ​​61.6583 میلیون روبل افزایش می یابد.

برآورد ضریب = 2.2748 نشان می دهد که با مساوی بودن سایر موارد، میانگین تعداد بازدیدکنندگان به ازای هر هزار نفر افزایش می یابد. در روز، گردش مالی سالانه به طور متوسط ​​2.2748 میلیون روبل افزایش می یابد.

مثال 2.3.با استفاده از اطلاعات ارائه شده در جدول 2.2 و 2.4، پارامتر مدل اقتصادسنجی تک عاملی را برآورد کنید

ارزش مرکزی گردش مالی سالانه فروشگاه، میلیون روبل کجاست. - ارزش مرکزی میانگین روزانه تعداد بازدیدکنندگان از فروشگاه t-ام، هزار نفر. (نمونه های 2.1-2.2 را ببینید).

راه حل.اطلاعات اضافی مورد نیاز برای محاسبات در جدول ارائه شده است. 2.5.

جدول 2.5

-48,53 -2,40 5,7720 116,6013
-30,20 -0,41 0,1702 12,4589
-27,34 -1,34 1,8023 36,7084
-27,21 0,36 0,1278 -9,7288
-12,00 -2,11 4,4627 25,3570
0,22 -3,14 9,8753 -0,6809
6,72 1,71 2,9156 11,4687
20,76 0,16 0,0348 3,2992
22,84 -0,76 0,5814 -17,413
22,97 3,07 9,4096 70,4503
31,55 1,62 2,6163 51,0267
40,26 3,27 10,6766 131,5387
مقدار 48,4344 431,0566

با استفاده از فرمول (2.35) بدست می آوریم

بنابراین،

http://www.cleverstudents.ru/articles/mnk.html

مثال.

داده های تجربی در مورد مقادیر متغیرها Xو دردر جدول آورده شده است.

در نتیجه تراز آنها، تابع به دست می آید

با استفاده از روش حداقل مربعات، این داده ها را با یک وابستگی خطی تقریب بزنید y=ax+b(پیدا کردن پارامترها الفو ب). دریابید که کدام یک از دو خط (به معنای روش حداقل مربعات) داده های تجربی را بهتر تراز می کند. یک نقاشی بکشید.

راه حل.

در مثال ما n=5. برای راحتی محاسبه مقادیری که در فرمول های ضرایب مورد نیاز گنجانده شده است، جدول را پر می کنیم.

مقادیر سطر چهارم جدول با ضرب مقادیر سطر دوم در مقادیر سطر 3 برای هر عدد به دست می آید. من.

مقادیر ردیف پنجم جدول با مربع کردن مقادیر ردیف دوم برای هر عدد به دست می آید. من.

مقادیر در آخرین ستون جدول مجموع مقادیر در سراسر سطرها هستند.

برای یافتن ضرایب از فرمول روش حداقل مربعات استفاده می کنیم الفو ب. مقادیر مربوطه را از آخرین ستون جدول در آنها جایگزین می کنیم:

از این رو، y = 0.165x+2.184- خط مستقیم تقریبی مورد نظر.

باقی مانده است که بفهمیم کدام یک از خطوط y = 0.165x+2.184یا داده های اصلی را بهتر تقریب می کند، یعنی با استفاده از روش حداقل مربعات تخمین می زند.

اثبات

به طوری که وقتی پیدا شد الفو بتابع کوچکترین مقدار را می گیرد، لازم است که در این مرحله ماتریس شکل درجه دوم دیفرانسیل مرتبه دوم برای تابع باشد. مثبت قطعی بود بیایید آن را نشان دهیم.

دیفرانسیل مرتبه دوم به شکل زیر است:

یعنی

بنابراین، ماتریس فرم درجه دوم دارای فرم است

و مقادیر عناصر به آن بستگی ندارد الفو ب.

اجازه دهید نشان دهیم که ماتریس مثبت قطعی است. برای انجام این کار، مینورهای زاویه ای باید مثبت باشند.

مینور زاویه ای مرتبه اول . نابرابری سخت است، از نقاط

  • درس مقدماتی به صورت رایگان;
  • تعداد زیادی معلم با تجربه (بومی و روسی زبان)؛
  • دوره ها برای یک دوره خاص (ماه، شش ماه، سال) نیستند، بلکه برای تعداد خاصی از درس ها (5، 10، 20، 50) هستند.
  • بیش از 10000 مشتری راضی
  • هزینه یک درس با معلم روسی زبان می باشد از 600 روبلبا یک زبان مادری - از 1500 روبل

ماهیت روش حداقل مربعات این است در یافتن پارامترهای یک مدل روند که به بهترین وجه گرایش توسعه هر پدیده تصادفی را در زمان یا مکان توصیف می کند (روند خطی است که گرایش این توسعه را مشخص می کند). وظیفه روش حداقل مربعات (LSM) به یافتن نه تنها مدل روند، بلکه یافتن بهترین یا بهینه مدل خلاصه می شود. اگر مجموع انحرافات مربع بین مقادیر واقعی مشاهده شده و مقادیر روند محاسبه شده مربوطه حداقل (کوچکترین) باشد، این مدل بهینه خواهد بود:

انحراف مربع بین مقدار واقعی مشاهده شده کجاست

و مقدار روند محاسبه شده مربوطه،

ارزش واقعی (مشاهده شده) پدیده مورد مطالعه،

مقدار محاسبه شده مدل روند،

تعداد مشاهدات پدیده مورد مطالعه.

MNC به ندرت به تنهایی استفاده می شود. به عنوان یک قاعده، اغلب از آن فقط به عنوان یک تکنیک فنی ضروری در مطالعات همبستگی استفاده می شود. باید به خاطر داشت که اساس اطلاعات OLS فقط می تواند یک سری آماری قابل اعتماد باشد و تعداد مشاهدات نباید کمتر از 4 باشد، در غیر این صورت ممکن است روش های هموارسازی OLS عقل سلیم را از دست بدهند.

جعبه ابزار MNC به رویه های زیر خلاصه می شود:

روش اول معلوم می‌شود که آیا در هنگام تغییر عامل انتخابی، تمایلی به تغییر ویژگی حاصل وجود دارد یا به عبارت دیگر، آیا ارتباطی بین « در "و" X ».

رویه دوم مشخص می شود که کدام خط (مسیر) می تواند این روند را به بهترین نحو توصیف یا توصیف کند.

رویه سوم.

مثال. فرض کنید اطلاعاتی در مورد میانگین عملکرد آفتابگردان برای مزرعه مورد مطالعه داریم (جدول 9.1).

جدول 9.1

شماره مشاهده

بهره وری، c/ha

از آنجایی که سطح فناوری تولید آفتابگردان در کشور ما طی 10 سال گذشته تقریباً بدون تغییر باقی مانده است، به این معنی است که ظاهراً نوسانات عملکرد در دوره مورد تجزیه و تحلیل بسیار وابسته به نوسانات آب و هوا و شرایط آب و هوایی بوده است. آیا این واقعا درست است؟

اولین روش OLS فرضیه وجود یک روند در تغییرات عملکرد آفتابگردان بسته به تغییرات آب و هوا و شرایط آب و هوایی در طول 10 سال مورد تجزیه و تحلیل آزمایش شده است.

در این مثال، برای " y توصیه می شود محصول آفتابگردان را مصرف کنید و برای x » – تعداد سال مشاهده شده در دوره مورد تجزیه و تحلیل. آزمون فرضیه وجود هر گونه رابطه بین " x "و" y به دو صورت دستی و با استفاده از برنامه های کامپیوتری قابل انجام است. البته اگر تکنولوژی کامپیوتری دارید این مشکل خود به خود قابل حل است. اما برای درک بهتر ابزارهای MNC، توصیه می‌شود که فرضیه وجود رابطه بین x "و" y » به صورت دستی، زمانی که فقط یک خودکار و یک ماشین حساب معمولی در دسترس باشد. در چنین مواردی، فرضیه وجود یک روند به بهترین وجه از طریق مکان تصویر گرافیکی سری تجزیه و تحلیل شده پویا - میدان همبستگی به صورت بصری بررسی می شود:

میدان همبستگی در مثال ما در اطراف یک خط به آرامی در حال افزایش قرار دارد. این خود نشان دهنده وجود روند معینی در تغییرات عملکرد آفتابگردان است. صحبت از وجود هر گرایشی فقط زمانی غیرممکن است که میدان همبستگی شبیه یک دایره، یک دایره، یک ابر کاملاً عمودی یا کاملا افقی باشد یا از نقاط پراکنده پر هرج و مرج تشکیل شده باشد. در همه موارد دیگر، فرضیه وجود رابطه بین « x "و" y "، و به تحقیق ادامه دهید.

روش دوم OLS. مشخص می شود که کدام خط (مسیر) می تواند به بهترین وجه روند تغییرات عملکرد آفتابگردان را در طول دوره مورد تجزیه و تحلیل توصیف یا توصیف کند.

اگر فناوری رایانه دارید، انتخاب روند بهینه به طور خودکار اتفاق می افتد. در پردازش "دستی"، انتخاب تابع بهینه، به عنوان یک قاعده، به صورت بصری - با محل میدان همبستگی انجام می شود. یعنی بر اساس نوع نمودار، معادله خطی که بهترین تناسب را با روند تجربی (مسیر واقعی) دارد انتخاب می شود.

همانطور که مشخص است، در طبیعت تنوع زیادی از وابستگی های عملکردی وجود دارد، بنابراین تجزیه و تحلیل بصری حتی بخش کوچکی از آنها بسیار دشوار است. خوشبختانه، در عمل اقتصادی واقعی، بیشتر روابط را می توان با یک سهمی یا هذلولی یا یک خط مستقیم کاملاً دقیق توصیف کرد. در این راستا، با گزینه “دستی” انتخاب بهترین عملکرد، می توانید خود را تنها به این سه مدل محدود کنید.

هایپربولا:

سهمی مرتبه دوم: :

به راحتی می توان فهمید که در مثال ما، روند تغییرات عملکرد آفتابگردان در طول 10 سال تجزیه و تحلیل شده به بهترین وجه با یک خط مستقیم مشخص می شود، بنابراین معادله رگرسیون معادله یک خط مستقیم خواهد بود.

رویه سوم. پارامترهای معادله رگرسیون مشخص کننده این خط محاسبه می شود، یا به عبارت دیگر، یک فرمول تحلیلی تعیین می شود که بهترین مدل روند را توصیف می کند.

یافتن مقادیر پارامترهای معادله رگرسیون، در مورد ما پارامترها و هسته OLS است. این فرآیند به حل یک سیستم معادلات عادی ختم می شود.

(9.2)

این سیستم معادلات را می توان به راحتی با روش گاوس حل کرد. به یاد بیاوریم که در نتیجه راه حل، در مثال ما، مقادیر پارامترها و یافت می شوند. بنابراین، معادله رگرسیون یافت شده به شکل زیر خواهد بود:

این به طور گسترده در اقتصاد سنجی در قالب یک تفسیر اقتصادی روشن از پارامترهای آن استفاده می شود.

رگرسیون خطی به یافتن معادله شکل می رسد

یا

معادله فرم بر اساس مقادیر پارامتر مشخص شده اجازه می دهد Xمقادیر نظری مشخصه حاصل را داشته باشد و مقادیر واقعی عامل را جایگزین آن کند. X.

ساخت رگرسیون خطی به تخمین پارامترهای آن ختم می شود - الفو V.تخمین پارامترهای رگرسیون خطی را می توان با استفاده از روش های مختلف یافت.

رویکرد کلاسیک برای برآورد پارامترهای رگرسیون خطی بر اساس است روش حداقل مربعات(MNC).

روش حداقل مربعات به ما امکان می دهد چنین تخمین پارامترهایی را بدست آوریم الفو که در آن مجموع انحرافات مجذور مقادیر واقعی مشخصه حاصل است (y)از محاسبه شده (نظری) حداقل:

برای یافتن حداقل یک تابع، باید مشتقات جزئی را برای هر یک از پارامترها محاسبه کنید الفو بو آنها را برابر صفر قرار دهید.

بگذارید با S نشان دهیم، سپس:

با تبدیل فرمول، سیستم معادلات عادی زیر را برای تخمین پارامترها به دست می آوریم الفو V:

با حل سیستم معادلات نرمال (3.5) یا به روش حذف متوالی متغیرها و یا با روش تعیین کننده ها، برآوردهای مورد نیاز پارامترها را پیدا می کنیم. الفو V.

پارامتر Vضریب رگرسیون نامیده می شود. مقدار آن میانگین تغییر در نتیجه را با تغییر ضریب یک واحد نشان می دهد.

معادله رگرسیون همیشه با نشانگر نزدیک بودن اتصال تکمیل می شود. هنگام استفاده از رگرسیون خطی، چنین شاخصی ضریب همبستگی خطی است. اصلاحات مختلفی در فرمول ضریب همبستگی خطی وجود دارد. برخی از آنها در زیر آورده شده است:

همانطور که مشخص است، ضریب همبستگی خطی در حدود: -1 است 1.

برای ارزیابی کیفیت انتخاب یک تابع خطی، مربع محاسبه می شود

ضریب همبستگی خطی نامیده می شود ضریب تعیینضریب تعیین، نسبت واریانس مشخصه حاصل را مشخص می کند با رگرسیون، در کل واریانس صفت حاصل توضیح داده می شود:

بر این اساس، مقدار 1 سهم واریانس را مشخص می کند ناشی از تأثیر عوامل دیگری است که در مدل در نظر گرفته نشده اند.

سوالاتی برای خودکنترلی

1. ماهیت روش حداقل مربعات؟

2. رگرسیون زوجی چند متغیر ارائه می دهد؟

3. نزدیک بودن ارتباط بین تغییرات را چه ضریبی تعیین می کند؟

4. ضریب تعیین در چه حدودی تعیین می شود؟

5. برآورد پارامتر b در تحلیل همبستگی-رگرسیون؟

1. کریستوفر دوگرتی. مقدمه ای بر اقتصاد سنجی. - M.: INFRA - M، 2001 - 402 p.

2. س.ا. بورودیچ. اقتصاد سنجی. Minsk LLC "دانش جدید" 2001.


3. R.U. Rakhmetova دوره کوتاه در اقتصاد سنجی. راهنمای مطالعه. آلماتی 2004. -78 ص.

4. I.I. Eliseeva. - م.: "مالی و آمار"، 2002

5. ماهنامه اطلاعات و تحلیلی.

مدل های اقتصادی غیرخطی مدل های رگرسیون غیرخطی تبدیل متغیرها

مدل های اقتصادی غیرخطی..

تبدیل متغیرها

ضریب الاستیسیته.

اگر روابط غیر خطی بین پدیده های اقتصادی وجود داشته باشد، آنها با استفاده از توابع غیرخطی مربوطه بیان می شوند: برای مثال، هذلولی متساوی الاضلاع , سهمی های درجه دوم و غیره

دو دسته رگرسیون غیرخطی وجود دارد:

1. رگرسیون هایی که با توجه به متغیرهای توضیحی موجود در تجزیه و تحلیل غیرخطی هستند، اما با توجه به پارامترهای برآورد شده خطی هستند، به عنوان مثال:

چند جمله ای درجات مختلف - , ;

هذلولی متساوی الاضلاع - ;

تابع نیم لگاریتمی - .

2. رگرسیون هایی که در پارامترهای تخمین زده شده غیرخطی هستند، به عنوان مثال:

قدرت - ;

نمایشی - ;

نمایی - .

مجموع مجذور انحرافات مقادیر فردی مشخصه حاصل دراز مقدار متوسط ​​ناشی از تأثیر دلایل بسیاری است. اجازه دهید به طور مشروط کل مجموعه دلایل را به دو گروه تقسیم کنیم: عامل مورد مطالعه xو عوامل دیگر

اگر عامل بر نتیجه تأثیری نداشته باشد، خط رگرسیون در نمودار موازی با محور است. اوهو

سپس کل واریانس مشخصه حاصل به دلیل تأثیر عوامل دیگر است و مجموع مجذور انحرافات با باقیمانده منطبق خواهد شد. اگر عوامل دیگر بر نتیجه تأثیر نگذارند، پس y گره خورده استبا Xاز نظر عملکردی و مجموع مربعات باقیمانده صفر است. در این حالت، مجموع انحرافات مجذور تبیین شده توسط رگرسیون با مجموع مجذورات یکسان است.

از آنجایی که همه نقاط میدان همبستگی روی خط رگرسیون قرار ندارند، پراکندگی آنها همیشه در نتیجه تأثیر عامل رخ می دهد. X، یعنی رگرسیون درتوسط و ناشی از علل دیگر (تغییر غیر قابل توضیح). مناسب بودن یک خط رگرسیون برای پیش‌بینی بستگی به این دارد که چه بخشی از تغییرات کل صفت درتغییرات توضیح داده شده را به حساب می آورد

بدیهی است که اگر مجذور انحرافات ناشی از رگرسیون بیشتر از مجموع مجذور باقیمانده باشد، معادله رگرسیون از نظر آماری معنادار است و عامل Xتاثیر بسزایی در نتیجه دارد تو

, یعنی با تعداد آزادی تغییرات مستقل یک مشخصه. تعداد درجات آزادی مربوط به تعداد واحدهای جمعیت n و تعداد ثابت های تعیین شده از آن است. در رابطه با مسئله مورد مطالعه، تعداد درجات آزادی باید نشان دهد که چه تعداد انحراف مستقل از آن وجود دارد n

ارزیابی اهمیت معادله رگرسیون به عنوان یک کل با استفاده از داده می شود اف-معیار فیشر در این حالت، یک فرضیه صفر مطرح می شود که ضریب رگرسیون برابر با صفر است، یعنی. b = 0 و در نتیجه فاکتور Xبر نتیجه تأثیر نمی گذارد تو

محاسبات فوری آزمون F با تجزیه و تحلیل واریانس انجام می شود. مکان مرکزی در آن با تجزیه مجموع مجذور انحرافات یک متغیر اشغال شده است. دراز مقدار متوسط دربه دو بخش - "توضیح" و "غیر قابل توضیح":

مجموع مجذور انحرافات.

مجموع انحراف مجذور تبیین شده توسط رگرسیون.

مجموع باقیمانده مجذور انحرافات.

هر مجموع انحرافات مجذور مربوط به تعداد درجات آزادی است , یعنی با تعداد آزادی تغییرات مستقل یک مشخصه. تعداد درجات آزادی با تعداد واحدهای جمعیتی مرتبط است nو با تعداد ثابت های تعیین شده از آن. در رابطه با مسئله مورد مطالعه، تعداد درجات آزادی باید نشان دهد که چه تعداد انحراف مستقل از آن وجود دارد nممکن است مورد نیاز برای تشکیل یک مجموع معین از مربع.

پراکندگی در هر درجه آزادیD.

نسبت های F (آزمون F):

اگر فرضیه صفر درست باشد، سپس واریانس عامل و باقیمانده با یکدیگر تفاوتی ندارند. برای H 0، ابطال لازم است به طوری که پراکندگی عامل چندین بار از پراکندگی باقیمانده بیشتر شود. Snedekor آماردان انگلیسی جداول مقادیر بحرانی را تهیه کرد اف-روابط در سطوح مختلف اهمیت فرضیه صفر و تعداد متفاوت درجات آزادی. مقدار جدول افمعیار حداکثر مقدار نسبت واریانس است که می تواند در صورت واگرایی تصادفی برای سطح معینی از احتمال وجود فرضیه صفر رخ دهد. مقدار محاسبه شده افاگر o بزرگتر از جدول باشد، روابط قابل اعتماد در نظر گرفته می شوند.

در این صورت فرضیه صفر مبنی بر عدم وجود رابطه بین نشانه ها رد می شود و در مورد اهمیت این رابطه نتیجه گیری می شود: F fact > جدول F H 0 رد می شود.

اگر مقدار کمتر از جدول باشد F fact ‹، F جدول، پس احتمال فرضیه صفر بالاتر از سطح مشخص شده است و بدون خطر جدی نتیجه گیری اشتباه در مورد وجود یک رابطه قابل رد نیست. در این حالت معادله رگرسیون از نظر آماری ناچیز در نظر گرفته می شود. اما او منحرف نمی شود.

خطای استاندارد ضریب رگرسیون

برای ارزیابی اهمیت ضریب رگرسیون، مقدار آن با خطای استاندارد آن مقایسه می شود، یعنی مقدار واقعی تعیین می شود. تی-تست دانشجویی: که سپس با مقدار جدول در سطح معینی از معناداری و تعداد درجه آزادی مقایسه می شود. n- 2).

خطای پارامتر استاندارد الف:

اهمیت ضریب همبستگی خطی بر اساس بزرگی خطا بررسی می شود. ضریب همبستگی t r:

واریانس کل صفت X:

رگرسیون خطی چندگانه

ساختمان نمونه

رگرسیون چندگانهنشان دهنده رگرسیون یک مشخصه مؤثر با دو یا چند عامل، یعنی مدلی از فرم است

در صورتی که بتوان از تأثیر سایر عوامل مؤثر بر موضوع مطالعه چشم پوشی کرد، رگرسیون می تواند نتایج خوبی در مدل سازی به همراه داشته باشد. رفتار متغیرهای اقتصادی منفرد قابل کنترل نیست، یعنی نمی توان از برابری سایر شرایط برای ارزیابی تأثیر یک عامل مورد مطالعه اطمینان حاصل کرد. در این مورد، باید سعی کنید با وارد کردن آنها به مدل، تأثیر عوامل دیگر را شناسایی کنید، یعنی یک معادله رگرسیون چندگانه بسازید: y = a+b 1 x 1 +b 2 +…+b p x p + .

هدف اصلی رگرسیون چندگانه ساختن مدلی با تعداد زیادی فاکتور است، در حالی که تأثیر هر یک از آنها به طور جداگانه و همچنین تأثیر ترکیبی آنها بر شاخص مدل شده تعیین می شود. مشخصات مدل شامل دو محدوده موضوع است: انتخاب عوامل و انتخاب نوع معادله رگرسیون.

© 2024 hozferma.ru - دایرکتوری باغبان. تخت باغ، محوطه سازی، کشاورزی فرعی