По выборке построена гистограмма чему равна медиана
Медианы выборок. Доверительные интервалы и сравнение
Публикация носит характер описания тропинки, выводящей к эффективной алгоритмизации методов вычисления доверительного интервала (Confidence Interval = CI) для
Задача сугубо практическая, в глубины математики погружаться можно, но это не самоцель, да и не всегда хватает баллона, чтобы добраться до дна.
Выборки по объему большие, 10^5 — 10^7 записей, ощутимо ассимметричные, с длинными хвостами, могут иметь несколько мод. В этом случае медианы более устойчивы к выбросам.
Применение классической статистики, например, критерия Уилкоксона-Манна-Уитни, для оценки разницы медиан на таких объемах не проходит. Да и очень много чего читать надо под звездочками, чтобы правильно применять эти критерии. Ведь этот критерий проверяет отнюдь не равенство медиан, да и для медиан он работает только при одинаковых формах распределений двух выборок. И т.д. и т.п.
Хвататься за молоток бутстрапа можно, но и с ним надо думать + на симуляцию требуется время и память.
С другой стороны, очень часто математики придумывают различные аналитические упрощения при определенных допущениях, что позволяет сложные задачи решать в одну формулу. Поиски последнего подхода привели к следующим решениям (применительно к описанным выше выборкам).
CI для медиан
Отправная дискуссия на StackExchange «Confidence interval for median» выводит на статью David J. Olive «A Simple Confidence Interval for the Median», 2005 и весьма элегантный код, проще которого сложно что-то придумать:
Про применение биномиального распределения:
CI для разницы медиан
Проверяем гипотезу о статистической неразличимости медиан двух различных выборок.
Отправные дискуссии на StackExchange «How to construct a 95% confidence interval of the difference between medians?» и «Bootstrap hypothesis test for median of differences».
В последней, хоть вопрос шел об одном, но ответ приложен на нужный вопрос.
Плюс еще 2 публикации:
В чем еще существенный плюс таких приближенных вычислений? Да можно просто перенести весь этот код к данным (которых, на самом деле, на несколько порядков больше), живущих в Clickhouse. Такие алгоритмы перекладываются на SQL в два клика. При этом счет времени получения расчетных показателей в продуктиве пойдет на миллисекунды.
Эффективная оценка медианы
Итак, у Вас есть какой-то поток данных. Большой такой поток. Или уже готовый набор. И хочется определить какие-то его характеристики. Алгоритм определения минимального и максимального значения могут придумать даже не программисты. Вычисление среднего уже чуть сложнее, но тоже не представляет никаких трудностей — знай подсчитывай себе сумму да инкрементируй счетчик на каждое новое значение. Среднеквадратичное отклонение — все то же самое, только числа другие. А как насчет медианы?
Для тех, кто забыл, что это такое, напоминаю — медиана (50-й перцентиль) выборки данных — это такое значение, которое делит эту выборку пополам — данные из одной половины имеют значение не меньше медианы, а из второй — не больше. Ценность её заключается в том, что её значение не зависит от величины случайных всплесков, которые могут очень сильно повлиять на среднее.
Строго говоря, из определения следует, что для вычисления точного значения медианы нам нужно хранить всю выборку, иначе нет никаких гарантий, что мы насчитали именно то, что хотели. Но для непрерывных и больших потоков данных точное значение все равно не имеет большого смысла — сейчас оно одно, а через новых 100 отсчетов — уже другое. Поэтому эффективный метод оценки медианы, который не будет требовать много памяти и ресурсов CPU, и будет давать точность порядка одного процента или лучше — как раз то что нужно.
Сразу предупрежу — предложенный метод обладает рядом ограничений. В частности, он очень плохо работает на отсортированных выборках (но зато очень хорошо работает на более-менее равномерно распределенных). Дальше рассматривается более простой случай неотрицательных значений, для общего случая нужны дополнительные вычисления.
Идея метода состоит в том, чтобы построить такой процесс вычисления, который будет сходиться к действительному значению медианы. Если мы уже обработали какой-то обьем данных и имеем какую-то оценку медианы, то про поступлении нового обьема (с почти такой же медианой, что важно) наша оценка должна быть улучшена. Если более точно — то оценка должна быть улучшена с большей вероятностью, чем ухудшена.
Можно использовать разного рода окна вычисления медианы, например, посчитать точную медиану последних 100 значений, и усреднить с постоянно уменьшающимся весом с предыдущей оценкой. Такой метод будет хорошо работать, но есть гораздо более легкий и практически такой же точный. А именно — просто сдвигать текущую оценку медианы к новому значению на какую-то небольшую константную дельту. В случае, если предыдущая оценка была не точной, то при обработке нового объема данных она приблизится к действительному значению, т.е. станет более точной. А если оценка уже и так точная, то на обработке нового объема данных на половине значений будет сдвиг в одну сторону, а на другой половине — в другую, в итоге оценка вернется к точному значению.
Важно, что дельта должна иметь одинаковое абсолютное значение для сдвигов как в большую, так и в меньшую сторону, иначе мы получим не 50-й перцентиль. Но теперь встает проблема подбора значения дельты — слишком маленькое даст медленную сходимость, а слишком большое — получим большую погрешность, особенно если дельта сравнима с самим значением медианы. Автоматическое вычисление дельты уже лишает её звания константы, но это и неважно, если в итоге мы получим лучший результат.
Имеет смысл делать дельту постоянно уменьшающейся, чтобы улучшить сходимость. Но не слишком быстро, иначе, при неблагоприятных условиях оценка рискует никогда не догнать действительное значение медианы. Коэфициент 1/count подходит идеально — он легко вычисляется, и ряд sum(1/n) — расходящийся, так что в конце-концов оценка достигнет действительной медианы, какой бы плохой она ни была изначально.
Привязывать значение дельты к текущей оценке медианы — рискованно. В неудачных условиях слишком заниженной оценке будет сложно расти. Лучше всего вычислять дельту исходя из другой вполне устойчивой характеристики выборки — среднего значения. С коэфициентом 1/count значение дельты будет постоянно уменьшаться (за исключением немногочисленных случаев, когда текущее среднее вырастет слишком сильно по сравнению с предыдущим). Для данных, которые могут принимать не только неотрицательные значение, такой подход уже не сработает, но мы можем легко выйти из положения, если считать два средних — положительных и отрицательных значений, и использовать сумму их абсолютных значений.
Итоговый алгоритм оценки медианы почти такой же простой, как и алгоритм вычисления среднего значения:
Погрешность и скорость сходимости, по моему мнению, у него отличная — на выборке в 100 значений погрешность обычно около 10-20%, на 1000 — уже около 1-3%, и дальше погрешность уменьшается ещё больше.
Для желающих самостоятельно оценить качество работы алгоритма — небольшой скриптик на perl-е:
Статистика для разных распределений:
Медиана в EXCEL
history 23 октября 2016 г.
Начнем с медианы для выборок (т.е. для фиксированного набора значений).
Медиана выборки
Для вычисления медианы необходимо сначала отсортировать множество чисел (значения в выборке ). Например, медианой для выборки (2; 3; 3; 4 ; 5; 7; 10) будет 4. Т.к. всего в выборке 7 значений, три из них меньше, чем 4 (т.е. 2; 3; 3), а три значения больше (т.е. 5; 7; 10).
Если множество содержит четное количество чисел, то вычисляется среднее для двух чисел, находящихся в середине множества. Например, медианой для выборки (2; 3; 3 ; 6 ; 7; 10) будет 4,5, т.к. (3+6)/2=4,5.
Очевидно, что средняя зарплата (71 тыс. руб.) не отражает тот факт, что 86% сотрудников получает не более 30 тыс. руб. (т.е. 86% сотрудников получает зарплату в более, чем в 2 раза меньше средней!). В то же время медиана (15 тыс. руб.) показывает, что как минимум у половины сотрудников зарплата меньше или равна 15 тыс. руб.
Медиана непрерывного распределения
Если Функция распределения F (х) случайной величины х непрерывна, то медиана является решением уравнения F(х) =0,5.
Например, решив аналитическим способом это уравнение для Логнормального распределения lnN(μ; σ 2 ), получим, что медиана вычисляется по формуле =EXP(μ). При μ=0, медиана равна 1.
Примечание : Напомним, что интеграл от функции плотности вероятности по всей области задания случайной величины равен единице.
Поэтому, линия медианы (х=Медиана) делит площадь под графиком функции плотности вероятности на две равные части.
По выборке построена гистограмма чему равна медиана
По виду гистограммы можно преполагать, что генеральная совокупность, из которой произведена выборка, имеет распределение ________ (наберите слово)
В таблице статистического распределения, построенного по выборке, на одно число попала клякса
Это число
В таблице статистического распределения, построенного по выборке, одна цифра написана неразборчиво
Эта цифра
В таблице статистического распределения, построенного по выборке, одна цифра написана неразборчиво
Эта цифра
График плотности распределения случайной величины Х имеет вид:
Тогда М(2х + 1) = ____ (наберите число).
Дана выборка объема n = 10. Статистическое распределение этой выборки имеет вид
С помощью метода наименьших квадратов по этим точкам строится прямая регрессии. Эта прямая для прибыли в марте дает значение (Указание. Определить это значение без построения прямой регрессии)
Дано выборочное распределение
Значение полигона, построенного по данному выборочному распределению, в точке 1280 и моды равны
Дано статистическое распределение выборки объема n = 50
Эмпирическая функция распределения этого ряда имеет вид:
Дано статистическое распределение выборки объема n=50
Эмпирическая функция распределения для этого ряда имеет вид
Дано статистическое распределение выборки с числом вариант m:
Выборочное среднее находится по формуле
Дано статистическое распределение выборки с числом вариант m:
Выборочное среднее и выборочная дисперсия S2 равны
Дано статистическое распределение выборки:
Выборочное среднее и выборочная дисперсия S2 равны
Дано статистическое распределение выборки
График эмпирической функции распределения для этой выборки имеет вид
Дано статистическое распределение выборки
График эмпирической функции распределения для этой выборки имеет вид
Дано статистическое распределение выборки
Выборочное среднее и выборочная дисперсия S2 равны
Дано статистическое распределение выборки
Выборочное среднее и выборочная дисперсия S2 равны
Если график плотности распределения случайной величины х имеет вид:
,
то D(3x + 1) = …
Значение кумуляты, построенной по таблице, в точке 162 равно ______(Наберите десятичную дробь с двумя цифрами после запятой)
Значение кумуляты, построенной по таблице, в точке 162, и медианы равны
1. 0,25; 166
Значение кумуляты, построенной по таблице, в точке 170, и медианы равны
Из генеральной совокупности извлечена выборка, данные по ней сведены в таблицу
Оценка генеральной средней
Медиана выборки
равна
Наблюдения проводились над системой (х, у) 2-х величин. Результаты наблюдения записаны в таблицу
Коэффициент корреляции равен
Наблюдения проводились над системой (х, у) 2-х величин. Результаты наблюдения записаны в таблицу
Коэффициент корреляции равен
По выборке построена гистограмма
медиана равна:
По выборке построена гистограмма
медиана равна: _______ ( Наберите число )
По выборке построена гистограмма:
Медина равна ____ (наберите число)
По выборке построена гистограмма:
По виду гистограммы можно предполагать, что генеральная совокупность, из которой произведена выборка, имеет распределение __________ (наберите слово)
По выборке построена гистограмма:
Медина равна:______(наберите число)
По выборке построена гистограмма
Медиана равна
По выборке построена гистограмма
По виду гистограммы можно предполагать, что генеральная совокупность, из которой произведена выборка, имеет распределение
По выборке построена гистограмма
По виду гистограммы можно предполагать, что генеральная совокупность, из которой произведена выборка, имеет распределение
По выборке построена гистограмма
Медиана равна
По выборке построена статистическая таблица распределения
Значение выборочной медианы
Распределение выборки рабочих по времени, затраченному на обработку одной детали, приведено в таблице
Эмпирическое среднее времени, затрачиваемого на обработку одной детали,
Результаты наблюдений над системой (x, y) 2-х величин записаны в таблицу
Коэффициент корреляции равен:
Результаты наблюдений над системой (x, y) 2-х величин записаны в таблицу
Коэффициент корреляции r равен _______ (наберите число )
Результаты наблюдений над системой (x, y) двух величин записаны в таблицу
Коэффициент корреляции r равен _______(наберите число )
Эмпирический коэффициент корреляции между весом и ростом для выборки:
равен ___ (наберите число)
Эмпирический коэффициент корреляции между весом и ростом для выборки
Медиана в статистике
Центральную тенденцию данных можно рассматривать не только, как значение с нулевым суммарным отклонением (среднее арифметическое) или максимальную частоту (мода), но и как некоторую отметку (значение в совокупности), делящую ранжированные данные (отсортированные по возрастанию или убыванию) на две равные части. Половина исходных данных меньше этой отметки, а половина – больше. Это и есть медиана.
Итак, медиана в статистике – это уровень показателя, который делит набор данных на две равные половины. Значения в одной половине меньше, а в другой больше медианы. В качестве примера обратимся к набору нормально распределенных случайных чисел.
Очевидно, что при симметричном распределении середина, делящая совокупность пополам, будет находиться в самом центре – там же, где средняя арифметическая (и мода). Это, так сказать, идеальная ситуация, когда мода, медиана и средняя арифметическая совпадают и все их свойства приходятся на одну точку – максимальная частота, деление пополам, нулевая сумма отклонений – все в одном месте. Однако, жизнь не так симметрична, как нормальное распределение.
Допустим, мы имеем дело с техническими замерами отклонений от ожидаемой величины чего-нибудь (содержания элементов, расстояния, уровня, массы и т.д. и т.п.). Если все ОК, то отклонения, скорее всего, будут распределены по закону, близкому к нормальному, примерно, как на рисунке выше. Но если в процессе присутствует важный и неконтролируемый фактор, то могут появиться аномальные значения, которые в значительной мере повлияют на среднюю арифметическую, но при этом почти не затронут медиану.
Медиана выборки – это альтернатива средней арифметической, т.к. она устойчива к аномальным отклонениям (выбросам).
Математическим свойством медианы является то, что сумма абсолютных (по модулю) отклонений от медианного значения дает минимально возможное значение, если сравнивать с отклонениями от любой другой величины. Даже меньше, чем от средней арифметической, о как! Данный факт находит свое применение, например, при решении транспортных задач, когда нужно рассчитать место строительства объектов около дороги таким образом, чтобы суммарная длина рейсов до него из разных мест была минимальной (остановки, заправки, склады и т.д. и т.п.).
Формула медианы
Формула медианы в статистике для дискретных данных чем-то напоминает формулу моды. А именно тем, что формулы как таковой нет. Медианное значение выбирают из имеющихся данных и только, если это невозможно, проводят несложный расчет.
Первым делом данные ранжируют (сортируют по убыванию). Далее есть два варианта. Если количество значений нечетно, то медиана будет соответствовать центральному значению ряда, номер которого можно определить по формуле:
№Me – номер значения, соответствующего медиане,
N – количество значений в совокупности данных.
Тогда медиана обозначается, как
Это первый вариант, когда в данных есть одно центральное значение. Второй вариант наступает тогда, когда количество данных четно, то есть вместо одного есть два центральных значения. Выход прост: берется средняя арифметическая из двух центральных значений:
В интервальных данных выбрать конкретное значение не представляется возможным. Медиану рассчитывают по определенному правилу.
Для начала (после ранжирования данных) находят медианный интервал. Это такой интервал, через который проходит искомое медианное значение. Определяется с помощью накопленной доли ранжированных интервалов. Где накопленная доля впервые перевалила через 50% всех значений, там и медианный интервал.
Не знаю, кто придумал формулу медианы, но исходили явно из того предположения, что распределение данных внутри медианного интервала равномерное (т.е. 30% ширины интервала – это 30% значений, 80% ширины – 80% значений и т.д.). Отсюда, зная количество значений от начала медианного интервала до 50% всех значений совокупности (разница между половиной количества всех значений и накопленной частотой предмедианного интервала), можно найти, какую долю они занимают во всем медианном интервале. Вот эта доля аккурат переносится на ширину медианного интервала, указывая на конкретное значение, именуемое впоследствии медианой.
Обратимся к наглядной схеме.
Немного громоздко получилось, но теперь, надеюсь, все наглядно и понятно. Чтобы при расчете каждый раз не рисовать такой график, можно воспользоваться готовой формулой. Формула медианы имеет следующий вид:
где xMe — нижняя граница медианного интервала;
iMe — ширина медианного интервала;
∑f/2 — количество всех значений, деленное на 2 (два);
S(Me-1)— суммарное количество наблюдений, которое было накоплено до начала медианного интервала, т.е. накопленная частота предмедианного интервала;
fMe — число наблюдений в медианном интервале.
Как нетрудно заметить, формула медианы состоит из двух слагаемых: 1 – значение начала медианного интервала и 2 – та самая часть, которая пропорциональна недостающей накопленной доли до 50%.
Для примера рассчитаем медиану по следующим данным.
Требуется найти медианную цену, то есть ту цену, дешевле и дороже которой по половине количества товаров. Для начала произведем вспомогательные расчеты накопленной частоты, накопленной доли, общего количества товаров.
По последней колонке «Накопленная доля» определяем медианный интервал – 300-400 руб (накопленная доля впервые более 50%). Ширина интервала – 100 руб. Теперь остается подставить данные в приведенную выше формулу и рассчитать медиану.
То есть у одной половины товаров цена ниже, чем 350 руб., у другой половины – выше. Все просто. Средняя арифметическая, рассчитанная по этим же данным, равна 355 руб. Отличие не значительное, но оно есть.
Расчет медианы в Excel
Медиану для числовых данных легко найти, используя функцию Excel, которая так и называется — МЕДИАНА. Другое дело интервальные данные. Соответствующей функции в Excel нет. Поэтому нужно задействовать приведенную выше формулу. Что поделаешь? Но это не очень трагично, так как расчет медианы по интервальным данным – редкий случай. Можно и на калькуляторе разок посчитать.
Напоследок предлагаю задачку. Имеется набор данных. 15, 5, 20, 5, 10. Каково среднее значение? Четыре варианта:
Мода, медиана и среднее значение выборки – это разный способ определить центральную тенденцию в выборке.
Ниже видеоролик о том, как рассчитать медиану в Excel.