Скачать бесплатно экспресс-курc по Excel

 

3d box Excel

   

Получить шаблон файла Excel для ABC-анализа

ABC table free

 

  •    
   
   
   
Уроки по Joomla 3 можно найти здесь: http://joomla3x.ru/
Шаблоны Joomla 3 здесь: http://www.joomla3x.ru/joomla3-templates.html

Приветствую посетителей блога statanaliz.info. Это очередная статья из рубрики «вариация данных». Сегодня мы продолжаем знакомство со статистической непредсказуемостью.

Тема не нова, так как с таким показателями как размах значений, среднее линейное отклонение, дисперсия, среднее квадратическое (стандартное) отклонение, коэффициент вариации мы уже знакомы. Даже узнали, по каким формулам они рассчитываются и что обозначают. Дабы не тратить время, повторяться не буду, а те, кому интересно, могут перейти по соответствующим ссылкам.

Сразу разочарую: новых показателей вариации сегодня не будет. Зато мы возвращаемся к полюбившейся дисперсии и среднеквадратическому отклонению (корень из дисперсии), и на то есть веская причина.

Кто сталкивался с более-менее серьезным статистическим анализом, наверняка слышал термин «несмещенная дисперсия» или «выборочная дисперсия». Некоторые даже знают, чем расчет такой дисперсии отличается от обычной, которая без добавления «выборочная». Да-да, правильно – делим не на n, а на n-1. Думаю, многим будет интересно узнать, в чем различие и, собственно, кому это надо.

Из названия «выборочная дисперсия» видно, что она как-то связана с выборкой. Действительно, выборочная дисперсия рассчитывается по выборке данных.

Понятие о сплошном и выборочном наблюдении

С точки зрения охвата объекта исследования, статистический анализ можно разделить на два вида: сплошной и выборочный. Сплошной статанализ предполагает изучение генеральной совокупности данных, то есть всего явления во всем его многообразии без распространения выводов на другие элементы, не входящие в анализируемую совокупность. Из названия данного типа явствует, что наблюдению подвергаются тотально все элементы. Результат анализа распространяется на всю генеральную совокупность без каких-либо допущений и поправок на ошибку. Данный тип статистического исследования является наиболее полным и точным, так как дополнительные знания почерпнуть уже неоткуда – информация собрана со всех элементов объекта исследования. Это бесспорный плюс.

Отличным примером сплошного наблюдения является перепись населения. «Всесоюзная перепись населения» - красиво звучало! Кстати, советская статистика, как и наука в целом, была одной из самых лучших в мире. Денег на проведение сплошных обследований не жалели, так как при СССР статистика выполняла свою прямую функцию – исследовала реальность, без чего невозможно было строить «светлое будущее». При этом советские ученые-статистики справедливо критиковали буржуазную статистику за то, что те скрывают от народа реальное положение дел и используют статистику для промывки мозгов. Об этом, кстати, писали и сами буржуи. Более практичный пример сплошного наблюдения – опрос жителей многоэтажного дома на предмет заваривания мусоропровода. Опрашиваются все, результат дает вполне однозначный ответ об отношении жителей к мусоропроводу. Ошибки в выводах маловероятны.

Как бы там ни было, у сплошного наблюдения есть отрицательное качество: на организацию и проведение исследования могут потребоваться значительные ресурсы. Одно дело взять пробу из партии товаров, другое – проверять всю партию. Одно дело опросить тысячу прохожих на улице, совсем другое – организовать перепись населения.

В противовес сплошному придумали выборочное наблюдение. Название метода точно отражает его суть: из генеральной совокупности отбирается и анализируется только часть данных, а выводы распространяют на всю генеральную совокупность. Отбор данных происходит таким образом, чтобы выборка была репрезентативной, то есть, сохранила внутреннюю структуру и закономерности генеральной совокупности. Если это условие не соблюдено, то дальнейший анализ во многом теряет смысл.

Сам анализ выборочных данных происходит так же, как и при сплошном наблюдении (рассчитываются различные показатели, делаются прогнозы и т.д.), только с поправкой на ошибку. Это значит, что рассчитывая тот или иной показатель, мы понимаем, что при повторной выборке его значение всегда будет иным. К примеру, провели опрос общественного мнения об отношении к кандидатам в президенты. Опрос показал, что за кандидата N желают проголосовать 60% опрошенных. Если провести еще один такой же опрос, даже в том же месте, то результат будет отличаться. То есть, взяв первое значение 60%, следует понимать, что с той или иной вероятностью оно могло быть, скажем, и 55%, и 65%. Точность и разброс выборочных показателей зависят от характера данных.

Пример изменчивости средней рассмотрен в статье о качестве средней величины при маленьком объеме данных. Там как раз речь идет о том, что средняя величина постоянно меняется и для решения проблемы предлагается увеличить выборку. Большая выборка, бесспорно, дает более надежные результаты, чем маленькая, но даже в этом случае ошибка сохранится, только станет меньше. А иногда и выбора нет, приходится иметь дело с маленькими выборками.

У выборочного наблюдения есть один существенный плюс и один минус, однако по сравнению со сплошным наблюдением крайности меняются местами. Плюс заключается в том, что для проведения выборочного обследования требуется гораздо меньше ресурсов. Минус – в том, что выборочное наблюдение всегда ошибочно. Поэтому основная задача проведения выборочного наблюдения – добиться максимальной точности при приемлемых затратах на его проведение.

Выборочная дисперсия

И вот, стало быть, дисперсия. Дисперсия, как и доля или средняя арифметическая, также меняет свое значение от выборки к выборке, но здесь есть интересная особенность. Дисперсия ведь рассчитывается от средней величины, а она в свою очередь тоже рассчитывается по выборке, то есть является ошибочной. Как же это обстоятельство влияет на саму дисперсию?

Если бы мы знали истинную среднюю величину (по генеральной совокупности), то ошибка дисперсии была бы связана только с нерепрезентативностью, то есть с тем, что данные в выборке оказались бы ближе или дальше от средней, чем в целом по генеральной совокупности. При этом при многократном повторении данные стремились бы к своему реальному расположению относительно средней.

Выборочный показатель, который при многократном повторении выборки стремится к своему теоретическому значению, называется несмещенной оценкой. Почему оценкой? Потому что мы не знаем реальное значение показателя (по генеральной совокупности), и с помощью выборочного наблюдения пытаемся его оценить. Оценка показателя – это есть показатель, рассчитанный по выборке.

Примером из жизни могут служить оценки в школе. Учитель же не может влезть в мозг школьника и измерить объем знаний. Школьнику задаются вопросы, задачи, на основе чего оцениваются его знания (производится как бы выборочное наблюдение). Как и в эконометрике, оценка знаний школьника может быть ошибочна, что многие знают по себе. Почему-то только каждый считает, что его оценки занижают. Правда, учителя считают, что оценки завышают. Такое вот противостояние. Как видим, оценка знаний в школе и оценка статистического показателя имеет схожее происхождение и назначение.

Теперь смотрим внимательно на выборочную среднюю. Выборочная средняя – это несмещенная оценка математического ожидания, так как средняя из выборочных средних стремится к своему теоретическому значению по генеральной совокупности. Где она расположена? Правильно, в центре выборки! Средняя всегда находится в центре значений, по которым рассчитана – на то она и средняя. А раз выборочная средняя находится в центре выборки, то из этого следует, что сумма квадратов расстояний от каждого значения выборки до выборочной средней всегда меньше, чем до любой другой точки, в том числе и до генеральной средней. Это ключевой момент. А раз так, то дисперсия в каждой выборке будет занижена. Средняя из заниженных дисперсий тоже даст заниженное значение. То есть при многократном повторении эксперимента выборочная дисперсия не будет стремиться к своему истинному значению (как выборочная средняя), а будет смещена относительно истинного значения по генеральной совокупности.

Отклонение выборочной средней от генеральной показано на рисунке.

Среднее арифметическое в выборке и в генеральной совокупности

Несмещенность оценки – одна из важных характеристик статистического показателя. Смещенная оценка показателя заранее говорит о тенденции к ошибке. Поэтому показатели стараются оценивать таким образом, чтобы их оценки были несмещенными (как у средней арифметической). Для того, чтобы решить проблему смещенности оценки выборочной дисперсии в ее расчет вносят корректировку – домножают на n/(n-1), либо сразу при расчете в знаменатель ставят не n, а n-1. Получается так.

Дисперсия по генеральной совокупности:

Формула генеральной дисперсии

Выборочная дисперсия:

Формула выборочной дисперсии 

Примечание. Для расчета выборочной и генеральной дисперсии в Excel есть специальная функция.

Так как кредо данного блога – статистический анализ доступным языком, то несложное математическое доказательство того, что несмещенная дисперсия получается именно таким образом, опустим. В интернете можно легко найти и более детальную информацию, и доказательство. Зато вместо теоретического доказательства расскажу о практическом эксперименте. Как известно, практика – критерий истины (с).

Вначале я взял 100 случайных значений от 10 до 20 – это генеральная совокупность. Рассчитал дисперсию (по первой формуле). Потом сделал выборку из 20 значений и снова по той же формуле рассчитал дисперсию (генеральную). Как и ожидалась, дисперсия по выборке оказалась несколько меньше дисперсии по генеральной совокупности. Но это могло быть случайностью. Расчет повторил 100 раз. Получилось, что в 60 случаях из 100 дисперсия по выборке оказалась меньше, чем дисперсия генеральной совокупности. Эксперимент подтвердил, что дисперсия по выборке, рассчитанная по правилам генеральной, является смещенной оценкой (в сторону уменьшения).

Теперь посмотрим на практическую сторону использования той или иной формулы. Нас ведь практика интересует в первую очередь. Соотношение между выборочной и генеральной дисперсией составляет n/n-1. Несложно догадаться, что с ростом n (объема выборки) данное выражение стремится к 1, то есть разница между значениями выборочной и генеральной дисперсиями уменьшается.

Так, если мы возьмем выборку из 11 наблюдений, то 11/10 – это 10% относительной разницы. При 21 наблюдениях, отличие сокращается до 5%, при 31 наблюдении – до 3,3%, при 51 – до 2%, при 101 – до 1%. Короче, при достаточно большой выборке данных (50 и выше наблюдений) относительная разница между смещенной и несмещенной дисперсией практически исчезает. Оценка параметра, когда с ростом выборки его отклонение от теоретического значения уменьшается, называется асимптотически несмещенной оценкой.

При переходе к среднему квадратическому отклонению по выборке (оценка среднеквадратического отклонения, равная квадратному корню из выборочной дисперсии) разница становится еще меньше.

Таким образом, эффект смещенной дисперсии проявляется в небольших выборках. В больших выборках можно использовать генеральную дисперсию, что как бы не усложняет и не упрощает жизнь. Вручную сейчас никто не считает. Все легко посчитать в Excel. Но понимать различие в терминологии и в сути показателей все же следует.

Вот и все, что я хотел сегодня поведать. Из данной статьи неплохо бы усвоить следующее.

1. Формула генеральной дисперсии в выборке дает смещенную оценку.

2. Несмещенная оценка дисперсии рассчитывается по формуле, указанной выше.

3. При большом объеме выборки (от 100 наблюдений) разница между смещенной и несмещенной дисперсиями практически исчезает.

4. Среднеквадратическое отклонение по выборке – это корень из выборочной дисперсии.

Надеюсь, мне удалость развеять мифы о несмещенной (или выборочной) дисперсии.

До новых встреч на блоге statanaliz.info.

 

Поделиться с друзьями в соцсетях:  

Добавить комментарий

Защитный код
Обновить

   
   

Следить в социальных сетях

 ВКонтакте Twitter Facebook RSS youtube

   
   

Последние комментарии

  • Очень рад, пожалуйста. Кстати, старые книжки, в основном сам и читаю. Библиотечка скоро пополнится.

    Подробнее...

     
  • Как всегда, четкое, доходчивое и структурированное изложение материала в старых добрых традициях 50-х ...

    Подробнее...

     
  • Марина, добрый день. Файл корректно работает в Excel 2010-2013. С более ранними версиями есть ...

    Подробнее...

     
  • Дмитрий. добрый день! Скачала Ваш файл, спасибо. В столбце Функция Ранг одни нули. Что означает этот ...

    Подробнее...

     
  • Спасибо, действительно границы XYZ групп условные. У меня почти все товары в Z попали если дневные ...

    Подробнее...

     
  • Вот и я думаю... Но вначале на блоге потренируюсь ))

    Подробнее...

     
  • Дмитрий, спасибо за рецензию. Давно пора Вам книгу написать. Прочитаю с удовольствием!

    Подробнее...

     
  • спасибо)

    Подробнее...

     
  • Да не за что. ))

    Подробнее...

     
  • Уже заказала на русском языке, жду доставки. И, Дмитрий, спасибо за рецензию!

    Подробнее...

   
© statanaliz.info