Что такое распределение по гауссу в росте
Что такое распределение по гауссу в росте
Измеримые физиологические показатели, например артериальное давление, концентрация холестерина сыворотки или индекс массы тела, варьирующие у разных индивидуумов, — важные показатели здоровья и болезней в популяции. Такие изменения обычно вызваны различиями в генотипе, а также негенетическими факторами (т.е. окружающей средой).
Задача генетика — определить степень влияния генов на такую изменчивость, идентифицировать эти гены и выявить ответственные аллели.
Нормальное (Гауссово) распределение физиологического показателя
Как часто случается с физиологическими показателями, измеренными в популяции, график числа индивидуумов в популяции (ось Y), имеющих конкретный количественный показатель (ось X), формирует колоколообразную кривую, известную как кривая нормального (Гауссова) распределения.
Нормальное (Гауссово) распределение и диапазон физиологического показателя
В графике популяционной частоты с нормально распределенными величинами положение вершины графика и его форма полностью определяются двумя значениями — средним (u) и дисперсией (а2) соответственно. Среднее — это простое среднее арифметическое величин, и поскольку больше людей имеет величины признака около среднего значения, кривая имеет пик в этой точке.
Дисперсия (или ее квадратный корень, среднеквадратичное отклонение, о) — мера разброса значений в обе стороны от среднего, и, следовательно, определяет ширину кривой. Любой физиологический показатель, который может быть измерен, представляет количественный фенотип, со своим средним и дисперсией. Изменчивость показателя в популяции называют общей фенотипической изменчивостью.
Нормальный диапазон физиологического показателя
Нормальный диапазон физиологического показателя — одно из фундаментальных понятий в клинической медицине. Например, чрезвычайно высокий или низкий рост, артериальную гипертонию, гиперхолестеринемию и ожирение считают аномальными, когда их величина выходит за пределы нормального диапазона. При оценке здоровья детей рост, масса тела, окружность головы и другие размеры сравнивают с «нормальным» размером для ребенка такого пола и возраста.
Однако как определить диапазон нормы? Во многих ситуациях в медицине конкретная измеренная физиологическая величина «нормальна» или «аномальна» в зависимости от того, насколько значительно она отличается от среднего. Нормальная форма распределения определяет границы диапазона нормы.
Статистическая теория утверждает, что когда количественный признак встречается в популяции в соответствии с законом нормального распределения, только 5% популяции имеет значения показателя, выходящие за 2 среднеквадратичных отклонения выше или ниже популяционной средней. (Обратите внимание, что слово «нормальное» использовано здесь в двух разных значениях — что физиологический показатель имеет нормальную форму распределения в популяции и что индивидуальная величина находится в пределах диапазона нормы.)
Редактор: Искандер Милевски. Дата обновления публикации: 18.3.2021
Почему с нормальным распределением не все нормально
Нормальное распределение (распределение Гаусса) всегда играло центральную роль в теории вероятностей, так как возникает очень часто как результат воздействия множества факторов, вклад любого одного из которых ничтожен. Центральная предельная теорема (ЦПТ), находит применение фактически во всех прикладных науках, делая аппарат статистики универсальным. Однако, весьма часты случаи, когда ее применение невозможно, а исследователи пытаются всячески организовать подгонку результатов под гауссиану. Вот про альтернативный подход в случае влияния на распределение множества факторов я сейчас и расскажу.
Краткая история ЦПТ. Еще при живом Ньютоне Абрахам де Муавр доказал теорему о сходимости центрированного и нормированного числа наблюдений события в серии независимых испытаний к нормальному распределению. Весь 19 и начало 20 веков эта теорема послужила ученым образцом для обобщений. Лаплас доказал случай равномерного распределения, Пуассон – локальную теорему для случая с разными вероятностями. Пуанкаре, Лежандр и Гаусс разработали богатую теорию ошибок наблюдений и метод наименьших квадратов, опираясь на сходимость ошибок к нормальному распределению. Чебышев доказал еще более сильную теорему для суммы случайных величин, походу разработав метод моментов. Ляпунов в 1900 году, опираясь на Чебышева и Маркова, доказал ЦПТ в нынешнем виде, но только при существовании моментов третьего порядка. И только в 1934 году Феллер поставил точку, показав, что существование моментов второго порядка, является и необходимым и достаточным условием.
ЦПТ можно сформулировать так: если случайные величины независимы, одинаково распределены и имеют конечную дисперсию отличную от нуля, то суммы (центрированные и нормированные) этих величин сходятся к нормальному закону. Именно в таком виде эту теорему и преподают в вузах и ее так часто используют наблюдатели и исследователи, которые не профессиональны в математике. Что в ней не так? В самом деле, теорема отлично применяется в областях, над которыми работали Гаусс, Пуанкаре, Чебышев и прочие гении 19 века, а именно: теория ошибок наблюдений, статистическая физика, МНК, демографические исследования и может что-то еще. Но ученые, которым не достает оригинальности для открытий, занимаются обобщениями и хотят применить эту теорему ко всему, или просто притащить за уши нормальное распределение, где его просто быть не может. Хотите примеры, они есть у меня.
Коэффициент интеллекта IQ. Изначально подразумевает, что интеллект людей распределен нормально. Проводят тест, который заранее составлен таким образом, при котором не учитываются незаурядные способности, а учитываются по-отдельности с одинаковыми долевыми факторами: логическое мышление, мысленное проектирование, вычислительные способности, абстрактное мышление и что-то еще. Способность решать задачи, недоступные большинству, или прохождение теста за сверхбыстрое время никак не учитывается, а прохождение теста ранее, увеличивает результат (но не интеллект) в дальнейшем. А потом филистеры и полагают, что «никто в два раза умнее их быть не может», «давайте у умников отнимем и поделим».
Второй пример: изменения финансовых показателей. Исследования изменения курса акций, котировок валют, товарных опционов требует применения аппарата математической статистики, а особенно тут важно не ошибиться с видом распределения. Показательный пример: в 1997 году нобелевская премия по экономике была выплачена за предложение модели Блэка — Шоулза, основанной на предположении нормальности распределения прироста фондовых показателей (так называемый белый шум). При этом авторы явно заявили, что данная модель нуждается в уточнении, но всё, на что решилось большинство дальнейших исследователей – просто добавить к нормальному распределению распределение Пуассона. Здесь, очевидно, будут неточности при исследовании длинных временных рядов, так как распределение Пуассона слишком хорошо удовлетворяет ЦПТ, и уже при 20 слагаемых неотличимо от нормального распределения. Гляньте на картинку снизу (а она из очень серьезного экономического журнала), на ней видно, что, несмотря на достаточно большое количество наблюдений и очевидные перекосы, делается предположение о нормальности распределения.
Весьма очевидно, что нормальными не будет распределения заработной платы среди населения города, размеров файлов на диске, населения городов и стран.
Общее у распределений из этих примеров – наличие так называемого «тяжелого хвоста», то есть значений, далеко лежащих от среднего, и заметной асимметрии, как правило, правой. Рассмотрим, какими еще, кроме нормального могли бы быть такие распределения. Начнем с упоминаемого ранее Пуассона: у него есть хвост, но мы же хотим, чтобы закон повторялся для совокупности групп, в каждой из которых он наблюдается (считать размер файлов по предприятию, зарплату по нескольким городам) или масштабировался (произвольно увеличивать или уменьшать интервал модели Блэка — Шоулза), как показывают наблюдения, хвосты и асимметрия не исчезают, а вот распределение Пуассона, по ЦПТ, должно стать нормальным. По этим же соображениям не подойдут распределения Эрланга, бета, логонормальное, и все другие, имеющие дисперсию. Осталось только отсечь распределение Парето, а вот оно не подходит в связи с совпадением моды с минимальным значением, что почти не встречается при анализе выборочных данных.
Распределения, обладающее необходимыми свойствами, существуют и носят название устойчивых распределений. Их история также весьма интересна, а основная теорема была доказана через год после работы Феллера, в 1935 году, совместными усилиями французского математика Поля Леви и советского математика А.Я. Хинчина. ЦПТ была обобщена, из нее было убрано условие существования дисперсии. В отличие от нормального, ни плотность ни функция распределения у устойчивых случайных величин не выражаются (за редким исключением, о котором ниже), все что о них известно, это характеристическая функция (обратное преобразование Фурье плотности распределения, но для понимания сути это можно и не знать).
Итак, теорема: если случайные величины независимы, одинаково распределены, то суммы этих величин сходятся к устойчивому закону.
Теперь определение. Случайная величина X будет устойчивой тогда и только тогда, когда логарифм ее характеристической функции представим в виде:
где .
В самом деле, ничего сильно сложного здесь нет, просто надо объяснить смысл четырех параметров. Параметры сигма и мю – обычные масштаб и смещение, как и в нормальном распределении, мю будет равно математическому ожиданию, если оно есть, а оно есть, когда альфа больше одного. Параметр бета – асимметрия, при его равенстве нулю, распределение симметрично. А вот альфа это характеристический параметр, обозначает какого порядка моменты у величины существуют, чем он ближе к двум, тем больше распределение похоже на нормальное, при равенстве двум распределение становиться нормальным, и только в этом случае у него существуют моменты больших порядков, также в случае нормального распределения, асимметрия вырождается. В случае, когда альфа равна единице, а бета нулю, получается распределение Коши, а в случае, когда альфа равна половине, а бета единице – распределение Леви, в других случаях не существует представления в квадратурах для плотности распределения таких величин.
В 20 веке была разработана богатая теория устойчивых величин и процессов (получивших название процессов Леви), показана их связь с дробными интегралами, введены различные способы параметризации и моделирования, несколькими способами были оценены параметры и показана состоятельность и устойчивость оценок. Посмотрите на картинку, на ней смоделированная траектория процесса Леви с увеличенным в 15 раз фрагментом.
Именно занимаясь такими процессами и их приложением в финансах, Бенуа Мандельброт придумал фракталы. Однако не везде было так хорошо. Вторая половина 20 века прошла под повальным трендом прикладных и кибернетических наук, а это означало кризис чистой математики, все хотели производить, но не хотели думать, гуманитарии со своей публицистикой оккупировали математические сферы. Пример: книга «Пятьдесят занимательных вероятностных задач с решениями» американца Мостеллера, задача №11:
Авторское решение этой задачи, это просто поражение здравого смысла:
Такая же ситуация и с 25 задачей, где даются ТРИ противоречащих ответа.
Но вернемся к устойчивым распределениям. В оставшейся части статьи я попытаюсь показать, что не должно возникать дополнительных сложностей при работе с ними. А именно, существуют численные и статистические методы, позволяющие оценивать параметры, вычислять функцию распределения и моделировать оные, то есть работать так же, как и с любым другим распределением.
Моделирование устойчивых случайных величин. Так как все познается в сравнении, то напомню сначала наиболее удобный, с точки зрения вычислений, метод генерирования нормальной величины (метод Бокса – Мюллера): если – базовые случайные величины (равномерно распределены на [0, 1) и независимы), то по соотношению
получится стандартная нормальная величина.
Теперь зададим заранее альфу и бету, пусть V и W, независимые случайные величины: V равномерно распределена на , W экспоненциально распределена с параметром 1, определим
и
, тогда по соотношению:
получим устойчивую случайную величину, для которой мю равна нулю, а сигма единице. Это так называемая стандартная устойчивая величина, которую для общего случая (при альфа не равном единице), просто достаточно помножить на масштаб и прибавить смещение. Да, соотношение сложнее, но оно все равно достаточно простое, чтобы его использовать даже в электронных таблицах (Ссылка). На рисунках снизу показаны траектории моделирования модели Блэка — Шоулза сперва для нормального, а затем для устойчивого процесса.
Можете поверить, график изменения цен на биржах больше похож на второй.
Оценка параметров устойчивого распределения. Так как вставлять формулы на хабре достаточно сложно, я просто оставлю ссылку на статью, где подробно разбираются всевозможные методы для оценки параметров, или на мою статью на русском языке, где приводятся только два метода. Также можно найти замечательную книгу, в которой собрана вся теория по устойчивым случайным величинам и их приложениям (Zolotarev V., Uchaikin V. Stable Distributions and their Applications. VSP. M.: 1999.), или ее чисто научный русский вариант (Золотарев В.М. Устойчивые одномерные распределения. – М.: Наука, Главная редакция физико-математической литературы, 1983. – 304 с.). В этих книгах также присутствуют методы для вычисления плотности и функции распределения.
В качестве заключения могу лишь порекомендовать, при анализе статистических данных, когда наблюдается асимметрия или значения, сильно превосходящие ожидаемые, спрашивать самих себя: «правильно ли выбран закон распределения?» и «а все ли с нормальным распределением нормально?».
Распределение Гаусса – это
Общие сведения
Если величина является суммой многих случайных слабо взаимозависимых величин, каждая из которых вносит малый вклад относительно общей суммы, то центрированное и нормированное распределение такой величины при достаточно большом числе слагаемых стремится к нормальному распределению.
Это следует из центральной предельной теоремы теории вероятностей. В окружающем нас мире часто встречаются величины, значение которых определяется совокупностью многих независимых факторов. Этот факт, а также то, что распределение считалось типичным, обычным, привели к тому, что в конце XIX века стал использоваться термин «нормальное распределение». Нормальное распределение играет заметную роль во многих областях науки, например в математической статистике и статистической физике.
Случайная величина, имеющая нормальное распределение, называется нормальной, или гауссовской, случайной величиной.
Моделирование нормальных случайных величин
Использование точных методов предпочтительно, поскольку у них практически нет недостатков. В частности, преобразование Бокса — Мюллера является точным, быстрым и простым для реализации методом генерации.
Вероятность
Вероятность, что подброшенная монета упадёт орлом вверх 50%, что при броске шестигранного кубика выпадет 4 – 16,7%, что завтра на кого-нибудь упадёт метеорит – 0.00000000294%. Это простые примеры, достаточно разделить количество желаемых событий на общее количество случаев и мы получаем вероятность события, но когда результаты эксперимента могут быть не только орлом или решкой (что эквивалентно да/нет), а большим набором данных. Например, вес батона хлеба, если мы возьмём в магазине 1000 буханок хлеба и взвесим каждую, то мы узнаем, что на самом деле батон не весит 400 грамм, результаты будут варьироваться в диапазоне 384-416 грамм (допуск разброса веса предусмотрен ГОСТом).
Плотность вероятности нормального распределения
В случае таблицы Вы имеете дело с дискретными данными, т.е. для каждого веса есть определённая вероятность, но в случае графика дело немного меняется, теперь мы говорим не о 1000 буханок, которые мы взвесили, а обо всех буханках в мире сразу! Зачем? Что бы не взвешивать все буханки. Имея закон распределения, который мы получили взвесив 1000 буханок (мы могли взвесить 100, 200, 500, сколько угодно), мы можем предположить, что сколько бы мы буханок не взяли, замерив их, мы получим ту же форму колокола. Используя термины статистики, все буханки хлеба – это генеральная совокупность, 1000 замеренных буханок – выборка.
Теперь, возьмём одну буханку хлеба, какова вероятность, что её вес будет между 390г и 400г?
Вероятность события между a и b:
Распределение вероятности – это функция, в которой для каждого события Х присваивается вероятность p, что событие произойдёт
Распределение Гаусса
Нормальное распределение получило своё название абсолютно справедливо: по статистике, большинство событий происходят именно с вероятностью нормального распределения, но что это значит? Это означает, например, что когда Вы видите на упаковке хлеба обозначение “Вес: 400±16г” – вес батона имеет нормальное распределение со средним значением 400г и стандартным отклонением 16г.
Таблица нормального распределения
Таблица нормального распределения – это затабулированные значения функции нормального распределения.
Для нахождения вероятности события Z0 можно воспользоваться таблицей нормального распределения ниже. На пересечении строк (n) и столбцов (m) находится значение вероятности n+m.
Z0 | 0.00 | 0.01 | 0.02 | 0.03 | 0.04 | 0.05 | 0.06 | 0.07 | 0.08 | 0.09 |
---|---|---|---|---|---|---|---|---|---|---|
0 | 0.500 | 0.504 | 0.508 | 0.512 | 0.516 | 0.520 | 0.524 | 0.528 | 0.532 | 0.536 |
0.1 | 0.540 | 0.544 | 0.548 | 0.552 | 0.556 | 0.560 | 0.564 | 0.568 | 0.571 | 0.575 |
0.2 | 0.579 | 0.583 | 0.587 | 0.591 | 0.595 | 0.599 | 0.603 | 0.606 | 0.610 | 0.614 |
0.3 | 0.618 | 0.622 | 0.625 | 0.629 | 0.633 | 0.637 | 0.641 | 0.644 | 0.648 | 0.652 |
0.4 | 0.655 | 0.659 | 0.663 | 0.666 | 0.670 | 0.674 | 0.677 | 0.681 | 0.684 | 0.688 |
0.5 | 0.692 | 0.695 | 0.699 | 0.702 | 0.705 | 0.709 | 0.712 | 0.716 | 0.719 | 0.722 |
0.6 | 0.726 | 0.729 | 0.732 | 0.736 | 0.739 | 0.742 | 0.745 | 0.749 | 0.752 | 0.755 |
0.7 | 0.758 | 0.761 | 0.764 | 0.767 | 0.770 | 0.773 | 0.776 | 0.779 | 0.782 | 0.785 |
0.8 | 0.788 | 0.791 | 0.794 | 0.797 | 0.799 | 0.802 | 0.805 | 0.808 | 0.811 | 0.813 |
0.9 | 0.816 | 0.819 | 0.821 | 0.824 | 0.826 | 0.829 | 0.832 | 0.834 | 0.837 | 0.839 |
1 | 0.841 | 0.844 | 0.846 | 0.849 | 0.851 | 0.853 | 0.855 | 0.858 | 0.860 | 0.862 |
1.1 | 0.864 | 0.867 | 0.869 | 0.871 | 0.873 | 0.875 | 0.877 | 0.879 | 0.881 | 0.883 |
1.2 | 0.885 | 0.887 | 0.889 | 0.891 | 0.892 | 0.894 | 0.896 | 0.898 | 0.900 | 0.901 |
1.3 | 0.903 | 0.905 | 0.907 | 0.908 | 0.910 | 0.911 | 0.913 | 0.915 | 0.916 | 0.918 |
1.4 | 0.919 | 0.921 | 0.922 | 0.924 | 0.925 | 0.926 | 0.928 | 0.929 | 0.931 | 0.932 |
1.5 | 0.933 | 0.934 | 0.936 | 0.937 | 0.938 | 0.939 | 0.941 | 0.942 | 0.943 | 0.944 |
1.6 | 0.945 | 0.946 | 0.947 | 0.948 | 0.950 | 0.951 | 0.952 | 0.953 | 0.954 | 0.955 |
1.7 | 0.955 | 0.956 | 0.957 | 0.958 | 0.959 | 0.960 | 0.961 | 0.962 | 0.963 | 0.963 |
1.8 | 0.964 | 0.965 | 0.966 | 0.966 | 0.967 | 0.968 | 0.969 | 0.969 | 0.970 | 0.971 |
1.9 | 0.971 | 0.972 | 0.973 | 0.973 | 0.974 | 0.974 | 0.975 | 0.976 | 0.976 | 0.977 |
2 | 0.977 | 0.978 | 0.978 | 0.979 | 0.979 | 0.980 | 0.980 | 0.981 | 0.981 | 0.982 |
2.1 | 0.982 | 0.983 | 0.983 | 0.983 | 0.984 | 0.984 | 0.985 | 0.985 | 0.985 | 0.986 |
2.2 | 0.986 | 0.986 | 0.987 | 0.987 | 0.988 | 0.988 | 0.988 | 0.988 | 0.989 | 0.989 |
2.3 | 0.989 | 0.990 | 0.990 | 0.990 | 0.990 | 0.991 | 0.991 | 0.991 | 0.991 | 0.992 |
2.4 | 0.992 | 0.992 | 0.992 | 0.993 | 0.993 | 0.993 | 0.993 | 0.993 | 0.993 | 0.994 |
2.5 | 0.994 | 0.994 | 0.994 | 0.994 | 0.995 | 0.995 | 0.995 | 0.995 | 0.995 | 0.995 |
2.6 | 0.995 | 0.996 | 0.996 | 0.996 | 0.996 | 0.996 | 0.996 | 0.996 | 0.996 | 0.996 |
2.7 | 0.997 | 0.997 | 0.997 | 0.997 | 0.997 | 0.997 | 0.997 | 0.997 | 0.997 | 0.997 |
2.8 | 0.997 | 0.998 | 0.998 | 0.998 | 0.998 | 0.998 | 0.998 | 0.998 | 0.998 | 0.998 |
2.9 | 0.998 | 0.998 | 0.998 | 0.998 | 0.998 | 0.998 | 0.999 | 0.999 | 0.999 | 0.999 |
3 | 0.999 | 0.999 | 0.999 | 0.999 | 0.999 | 0.999 | 0.999 | 0.999 | 0.999 | 0.999 |
3.1 | 0.999 | 0.999 | 0.999 | 0.999 | 0.999 | 0.999 | 0.999 | 0.999 | 0.999 | 0.999 |
3.2 | 0.999 | 0.999 | 0.999 | 0.999 | 0.999 | 0.999 | 0.999 | 0.999 | 0.999 | 1.000 |
Таблица нормального распределения. Красным выделены часто используемые значения при выборе критической области |
Нормальное распределение. Построение графика в Excel. Концепция шести сигм
Наверное, не все знают, что в Excel есть встроенная функция для построения нормального распределения. Графики нормального распределения часто используются для демонстрации идей статистической обработки данных.
Функция НОРМРАСП имеет следующий синтаксис:
НОРМРАСП (Х; среднее; стандартное_откл; интегральная)
Х — аргумент функции; фактически НОРМРАСП можно трактовать как y=f(x); при этом функция возвращает вероятность реализации события Х
Среднее (µ) — среднее арифметическое распределения; чем дальше Х от среднего, тем ниже вероятность реализации такого события
Стандартное_откл (σ) — стандартное отклонение распределения; мера кучности; чем меньше σ, тем выше вероятность у тех Х, которые расположены ближе к среднему
Например, для µ=0 имеем:
Теперь, наверное, вам будет лучше понятен смысл выражения «качество шести сигм». Оно означает, что производство налажено таким образом, что случайная величина Х (например, диаметр вала) находясь в диапазон µ ± 6σ, всё еще удовлетворяет техническим условиям (допускам). Это достигается за счет значительного уменьшения сигмы, то есть случайная величина Х очень близка к нормативному значению µ. На графике ниже представлено три ситуации, когда границы допуска остаются неизменными, а благодаря повышению качества (уменьшению вариабельности, сужению сигма) доля брака сокращается:
На первом рисунке только 1,5σ попадают в границы допуска, то есть только 86,6% деталей являются годными. На втором рисунке уже 3σ попадают в границы допуска, то есть 99,75% являются годными. Но всё еще 25 деталей из каждых 10 000 произведенных являются браком. На третьем рисунке целых 6σ попадают в границы допуска, то есть в брак попадут только две детали на миллиард изготовленных!
Вообще-то говоря, измерение качества в терминах сигм использует не совсем нормальное распределение. Вот что пишет на эту тему Википедия:
Опыт показывает, что показатели процессов имеют тенденцию изменяться с течением времени. В результате со временем в промежуток между границами поля допуска будет входить меньше, чем было установлено первоначально. Опытным путём было установлено, что изменение параметров во времени можно учесть с помощью смещения в 1,5 сигма. Другими словами, с течением времени длина промежутка между границами поля допуска под кривой нормального распределения уменьшается до 4,5 сигма вследствие того, что среднее процесса с течением времени смещается и/или среднеквадратическое отклонение увеличивается.
Широко распространённое представление о «процессе шесть сигма» заключается в том, что такой процесс позволяет получить уровень качества 3,4 дефектных единиц на миллион готовых изделий при условии, что длина под кривой слева или справа от среднего будет соответствовать 4,5 сигма (без учёта левого или правого конца кривой за границей поля допуска). Таким образом, уровень качества 3,4 дефектных единиц на миллион готовых изделий соответствует длине промежутка 4,5 сигма, получаемых разницей между 6 сигма и сдвигом в 1,5 сигма, которое было введено, чтобы учесть изменение показателей с течением времени. Такая поправка создана для того, чтобы предупредить неправильною оценку уровня дефектности, встречающееся в реальных условиях.
С моей точки зрения, не вполне внятное объяснение. Тем не менее, во всем мире принята следующая таблица соответствия числа дефектов и уровня качества в сигмах:
Как построить график с нормальным распределением в Excel
Так как я часто имею дело с большим количеством данных, у меня время от времени возникает необходимость генерировать массивы значений для проверки моделей в Excel. К примеру, если я хочу увидеть распределение веса продукта с определенным стандартным отклонением, потребуются некоторые усилия, чтобы привести результат работы формулы СЛУЧМЕЖДУ() в нормальный вид. Дело в том, что формула СЛУЧМЕЖДУ() выдает числа с единым распределением, т.е. любое число с одинаковой долей вероятности может оказаться как у нижней, так и у верхней границы запрашиваемого диапазона. Такое положение дел не соответствует действительности, так как вероятность возникновения продукта уменьшается по мере отклонения от целевого значения. Т.е. если я произвожу продукт весом 100 грамм, вероятность, что я произведу 97-ми или 103-граммовый продукт меньше, чем 100 грамм. Вес большей части произведенной продукции будет сосредоточен рядом с целевым значением. Такое распределение называется нормальным. Если построить график, где по оси Y отложить вес продукта, а по оси X – количество произведенного продукта, график будет иметь колоколообразный вид, где наивысшая точка будет соответствовать целевому значению.
Таким образом, чтобы привести массив, выданный формулой СЛУЧМЕЖДУ(), в нормальный вид, мне приходилось ручками исправлять пограничные значения на близкие к целевым. Такое положение дел меня, естественно, не устраивало, поэтому, покопавшись в интернете, открыл интересный способ создания массива данных с нормальным распределением. В сегодняшней статье описан способ генерации массива и построения графика с нормальным распределением.
Нормальное распределение в Excel
В Excel есть несколько функций для подсчета вероятностей или обратных значений нормального распределения.
Функция НОРМ.СТ.РАСП
Функция НОРМ.СТ.РАСП предназначена для расчета плотности ϕ( z ) или вероятности Φ(z) по нормированным данным (z).
z – значение стандартизованной переменной
интегральная – если 0, то рассчитывается плотность ϕ( z ) , если 1 – значение функции Ф(z), т.е. вероятность P(Z
В реальности чаще приходится рассчитывать вероятность того, что случайная величина не выйдет за некоторые пределы от средней (в среднеквадратичных отклонениях, соответствующих переменной z), т.е. P(|Z|
Определим, чему равна вероятность попадания случайной величины в пределы ±1z, ±2z и ±3z от нуля. Потребуется формула 2Ф(z)-1, в Excel =2*НОРМ.СТ.РАСП(A2;1)-1.
На диаграмме отлично видны основные основные свойства нормального распределения, включая правило трех сигм. Функция НОРМ.СТ.РАСП – это автоматическая таблица значений функции нормального распределения в Excel.
Может стоять и обратная задача: по имеющейся вероятности P(Z
Например, при расчете доверительных интервалов задается доверительная вероятность, по которой нужно рассчитать величину z.
Учитывая то, что доверительный интервал состоит из верхней и нижней границы и то, что нормальное распределение симметрично относительно нуля, достаточно получить верхнюю границу (положительное отклонение). Нижняя граница берется с отрицательным знаком. Обозначим доверительную вероятность как γ (гамма), тогда верхняя граница доверительного интервала рассчитывается по следующей формуле.
Рассчитаем в Excel значения z (что соответствует отклонению от средней в сигмах) для нескольких вероятностей, включая те, которые наизусть знает любой статистик: 90%, 95% и 99%. В ячейке B2 укажем формулу: =НОРМ.СТ.ОБР((1+A2)/2). Меняя значение переменной (вероятности в ячейке А2) получим различные границы интервалов.
Доверительный интервал для 95% равен 1,96, то есть почти 2 среднеквадратичных отклонения. Отсюда легко даже в уме оценить возможный разброс нормальной случайной величины. В общем, доверительным вероятностям 90%, 95% и 99% соответствуют доверительные интервалы ±1,64, ±1,96 и ±2,58 σ.
В целом функции НОРМ.СТ.РАСП и НОРМ.СТ.ОБР позволяют произвести любой расчет, связанный с нормальным распределением. Но, чтобы облегчить и уменьшить количество действий, в Excel есть несколько других функций. Например, для расчета доверительных интервалов средней можно использовать ДОВЕРИТ.НОРМ. Для проверки статистической гипотезы о средней арифметической есть формула Z.ТЕСТ.
Функция НОРМ.РАСП
Функция НОРМ.РАСП отличается от НОРМ.СТ.РАСП лишь тем, что ее используют для обработки данных любого масштаба, а не только нормированных. Параметры нормального распределения указываются в синтаксисе.
x – значение (или ссылка на ячейку), для которого рассчитывается плотность или значение функции нормального распределения
среднее – математическое ожидание, используемое в качестве первого параметра модели нормального распределения
стандартное_откл – среднеквадратичное отклонение – второй параметр модели
интегральная – если 0, то рассчитывается плотность, если 1 – то значение функции, т.е. P(X
Если последний параметр поставить 1, то получим вероятность того, что нормальная случайная величина окажется меньше 15 при заданных параметрах распределения. Таким образом, вероятности можно рассчитывать напрямую по исходным данным.
Функция НОРМРАСПР в EXCEL
Щелкнем на кнопке ОК. В диапазоне А4:А16 будет сформирована последовательность значений х.
Установим курсор в ячейку В4 и выполним команду меню Вставка/Функция. В открывшемся окне Мастер функций выберем категорию Статистические, а в списке функций – НОРМРАСП.
Установим значения параметров функции НОРМРАСП: для параметра х установим ссылку на ячейку А4, для параметра Среднее – введем число 0, для параметра Стандартное_откл – число 1, для параметра Интегральное – число 0 (весовая).