Имя боттичелли. Сандро Боттичелли – биография и картины художника в жанре Раннее Возрождение – Art Challenge

Несмотря на экзотические названия, распространённые распределения связаны друг с другом достаточно интуитивными и интересными способами, позволяющими легко их вспоминать и уверенно о них рассуждать. Некоторые естественно следуют, например, из распределения Бернулли. Время показать карту этих связей.

Каждое распределение иллюстрируется примером её функции плотности распределения (ФПР). Эта статья только о тех распределениях, у которых исходы – одиночные числа. Поэтому, горизонтальная ось каждого графика – набор возможных чисел-исходов. Вертикальная – вероятность каждого исхода. Некоторые распределения дискретны - у них исходы должны быть целыми числами, типа 0 или 5. Таковые обозначаются редкими линиями, по одной на каждый исход, с высотой, соответствующей вероятности данного исхода. Некоторые – непрерывны, у них исходы могут принять любое численное значение, типа -1.32 или 0.005. Эти показаны плотными кривыми с областями под секциями кривой, которые дают вероятности. Сумма высот линий и областей под кривыми - всегда 1.

Распечатайте, отрежьте по пунктирной линии и носите с собой в кошельке. Это - ваш путеводитель в стране распределений и их родственников.

Бернулли и равномерное

Вы уже встретились с распределением Бернулли выше, с двумя исходами – орлом или решкой. Представьте его теперь как распределение над 0 и 1, 0 – орёл, 1 – решка. Как уже понятно, оба исхода равновероятны, и это отражено на диаграмме. ФПР Бернулли содержит две линии одинаковой высоты, представляющие 2 равновероятных исхода: 0 и 1 соответственно.

Распределение Бернулли может представлять и неравновероятные исходы, типа броска неправильной монетки. Тогда вероятность орла будет не 0.5, а какая-то другая величина p, а вероятность решки – 1-p. Как и многие другие распределения, это на самом деле целое семейство распределений, задаваемых определёнными параметрами, как p выше. Когда будете думать «Бернулли » – думайте про «бросок (возможно, неправильной) монетки».

Отсюда весьма небольшой шаг до того, чтобы представить распределение поверх нескольких равновероятных исходов: равномерное распределение , характеризуемое плоской ФПР. Представьте правильный игральный кубик. Его исходы 1-6 равновероятны. Его можно задать для любого количества исходов n, и даже в виде непрерывного распределения.

Думайте о равномерном распределении как о «правильном игральном кубике».

Биномиальное и гипергеометрическое

Биномиальное распределение можно представить как сумму исходов тех вещей, которые следуют распределению Бернулли.

Киньте честную монету два раза – сколько раз будет орёл? Это число, подчиняющееся биномиальному распределению. Его параметры – n, число испытаний, и p – вероятность «успеха» (в нашем случае – орла или 1). Каждый бросок – распределённый по Бернулли исход, или испытание . Используйте биномиальное распределение, когда считаете количество успехов в вещах типа броска монеты, где каждый бросок не зависит от других и имеет одинаковую вероятность успеха.

Или представьте урну с одинаковым количество белых и чёрных шаров. Закройте глаза, вытащите шар, запишите его цвет и верните назад. Повторите. Сколько раз вытащился чёрный шар? Это число также подчиняется биномиальному распределению.

Эту странную ситуацию мы представили, чтобы было легче понять смысл гипергеометрического распределения . Это распределение того же числа, но в ситуации если бы мы не возвращали шары обратно. Оно, безусловно, двоюродный брат биномиального распределения, но не такое же, так как вероятность успеха изменяется с каждым вытащенным шаром. Если количество шаров достаточно велико по сравнению с количеством вытаскиваний – то эти распределения практически одинаковы, так как шанс успеха изменяется с каждым вытаскиванием крайне незначительно.

Когда где-то говорят о вытаскивании шаров из урн без возврата, практически всегда безопасно ввернуть «да, гипергеометрическое распределение», потому что в жизни я ещё не встречал никого, кто реально наполнял бы урны шарами и потом вытаскивал их и возвращал, или наоборот. У меня даже знакомых нет с урнами. Ещё чаще это распределение должно всплывать при выборе значимого подмножества некоторой генеральной совокупности в качестве выборки.

Прим. перев.

Тут может быть не очень понятно, а раз туториал и экспресс-курс для новичков - надо бы разъяснить. Генеральная совокупность - есть нечто, что мы хотим статистически оценить. Для оценки мы выбираем некоторую часть (подмножество) и производим требуемую оценку на ней (тогда это подмножество называется выборкой), предполагая, что для всей совокупности оценка будет похожей. Но чтобы это было верно, часто требуются дополнительные ограничения на определение подмножества выборки (или наоборот, по известной выборке нам надо оценить, описывает ли она достаточно точно совокупность).

Практический пример - нам нужно выбрать от компании в 100 человек представителей для поездки на E3. Известно, что в ней 10 человек уже ездили в прошлом году (но никто не признаётся). Сколько минимум нужно взять, чтобы в группе с большой вероятностью оказался хотя бы один опытный товарищ? В данном случае генеральная совокупность - 100, выборка - 10, требования к выборке - хотя бы один, уже ездивший на E3.

В википедии есть менее забавный, но более практичный пример про бракованные детали в партии.

Пуассон

Что насчёт количества заказчиков, звонящих по горячей линии в техподдержку каждую минуту? Это исход, чьё распределение на первый взгляд биномиальное, если считать каждую секунду как испытание Бернулли, в течение которой заказчик либо не позвонит (0), либо позвонит (1). Но электроснабжающие организации прекрасно знают: когда выключают электричество – за секунду могут позвонить двое или даже больше сотни людей. Представить это как 60000 миллисекундных испытаний тоже не поможет – испытаний больше, вероятность звонка в миллисекунду меньше, даже если не учитывать двух и более одновременно, но, технически – это всё ещё не испытание Бернулли. Тем не менее, срабатывает логическое рассуждение с переходом к бесконечности. Пусть n стремится к бесконечности, а p – к 0, и так, чтобы np было постоянным. Это как делить на всё более малые доли времени со всё менее малой вероятностью звонка. В пределе мы получим распределение Пуассона .

Так же, как и биномиальное, распределение Пуассона – это распределение количества: количества раз того, как что-то произойдёт. Оно параметризуется не вероятностью p и количеством испытаний n, но средней интенсивностью λ, что, в аналогии с биномиальным, просто постоянное значение np. Распределение Пуассона – то, о чём надо вспоминать, когда идёт речь о подсчёте событий за определённое время при постоянной заданной интенсивности.

Когда есть что-то, типа прихода пакетов на роутер или появления покупателей в магазине или что-то, ожидающее в очереди – думайте «Пуассон ».

Геометрическое и отрицательное биномиальное

Из простых испытаний Бернулли появляется другое распределение. Сколько раз монетка выпадет решкой, прежде, чем выпасть орлом? Число решек подчиняется геометрическому распределению . Как и распределение Бернулли, оно параметризуется вероятностью успешного исхода, p. Оно не параметризуется числом n, количеством бросков-испытаний, потому что число неудачных испытаний как раз и есть исход.

Если биномиальное распределение это «сколько успехов», то геометрическое это «Сколько неудач до успеха?».

Отрицательное биномиальное распределение – простое обобщение предыдущего. Это количество неудач до того, как будет r, а не 1, успехов. Поэтому оно дополнительно параметризуется этим r. Иногда его описывают как число успехов до r неудач. Но, как говорит мой лайф-коуч: «Ты сам решаешь, что есть успех, а что - неудача», так что это тоже самое, если при этом не забыть, что вероятность p тоже должна правильной вероятностью успеха или неудачи соответственно.

Если нужна будет шутка для снятия напряжения, можно упомянуть, что биномиальное и гипергеометрическое распределение – это очевидная пара, но и геометрическое и отрицательное биномиальное так же весьма похожи, после чего заявить «Ну и кто же так их все называет, а?»

Экспоненциальное и Вейбула

Снова о звонках в техподдержку: сколько пройдёт до следующего звонка? Распределение этого времени ожидания как будто бы геометрическое, потому что каждая секунда, пока никто не звонит – это как неуспех, до секунды, пока, наконец, звонок не произойдёт. Количество неудач –это как количество секунд, пока никто не звонил, и это практически время до следующего звонка, но «практически» нам недостаточно. Суть в том, что это время будет суммой целых секунд, и, таким образом, не получится посчитать ожидание внутри этой секунды до непосредственно звонка.

Ну и, как и раньше, переходим в геометрическом распределении к пределу, относительно временных долей – и вуаля. Получаем экспоненциальное распределение , которое точно описывает время до звонка. Это непрерывное распределение, первое такое у нас, потому что исход не обязательно в целых секундах. Как и распределение Пуассона, оно параметризуется интенсивностью λ.

Повторяя связь биномиального с геометрическим, Пуассоновское «сколько событий за время?» связано с экспоненциальным «сколько до события?». Если есть события, количество которых на единицу времени подчиняется распределению Пуассона, то время между ними подчиняется экспоненциальному распределению с тем же параметром λ. Это соответствие между двумя распределениями необходимо отмечать, когда обсуждается любое из них.

Экспоненциальное распределение должно приходить на ум при размышлении о «времени до события», возможно, «времени до отказа». По факту, это такая важная ситуация, что существуют более обобщённые распределения чтобы описать наработку-на-отказ, типа распределения Вейбула . В то время, как экспоненциальное распределение подходит, когда интенсивность - износа, или отказов, например – постоянна, распределение Вейбула может моделировать увеличивающуюся (или уменьшающуюся) со временем интенсивность отказов. Экспоненциальное, в общем-то, частный случай.

Думайте «Вейбул » когда разговор заходит о наработке-на-отказ.

Нормальное, логнормальное, Стьюдента и хи-квадрат

Нормальное , или гауссово , распределение, наверное, одно из важнейших. Его колоколообразная форма узнаётся сразу. Как и , это особенно любопытная сущность, которая проявляется везде, даже из внешне самых простых источников. Возьмите набор значений, подчиняющихся одному распределению – любому! – и сложите их. Распределение их суммы подчиняется (приблизительно) нормальному распределению. Чем больше вещей суммируется – тем ближе их сумма соответствует нормальному распределению (подвох: распределение слагаемых должно быть предсказуемым, быть независимым, оно стремится только к нормальному). То, что это так, несмотря на исходное распределение – это потрясающе.

Прим. перев.

Меня удивило, что автор не пишет про необходимость сопоставимого масштаба суммируемых распределений: если одно существенно доминирует надо остальными - сходиться будет крайне плохо. И, в общем-то, абсолютная взаимная независимость необязательна, достаточна слабая зависимость.

Ну сойдёт, наверное, для вечеринок, как он написал.


Это называется «центральная предельная теорема », и надо знать, что это, почему так названо и что означает, иначе моментально засмеют.

В её разрезе, нормальное связано со всеми распределениями. Хотя, в основном, его связывают с распределениями всяких сумм. Сумма испытаний Бернулли следует биномиальному распределению и, с увеличением количества испытаний, это биномиальное распределение становится всё ближе в нормальному распределению. Аналогично и его двоюродный брат – гипергеометрическое распределение. Распределение Пуассона – предельная форма биномиального – так же приближается к нормальному с увеличением параметра интенсивности.

Исходы, которые подчиняются логнормальному распределению , дают значения, логарифм которых нормально распределён. Или по-другому: экспонента нормально распределённого значения логнормально распределена. Если суммы – нормально распределены, то запомните так же, что произведения распределены логнормально.

t-Распределение Стьюдента – это основа t-теста , который многие нестатистики изучают в других областях. Оно используется для предположений о среднем нормального распределения и так же стремится к нормальному распределению с увеличением своего параметра. Отличительная особенность t-распределения – его хвосты, которые толще, чем у нормального распределения.

Если толстохвостый анекдот недостаточно раскачал вашего соседа – переходите в довольно забавной байке про пиво. Больше 100 лет назад Гиннесс использовал статистику, чтобы улучшить свой стаут. Тогда Вильям Сили Госсет и изобрёл полностью новую статистическую теорию для улучшенного выращивания ячменя. Госсет убедил босса, что другие пивовары не поймут, как использовать его идеи, и получил разрешение на публикацию, но под псевдонимом «Стьюдент». Самое известное достижение Госсета – как раз это самое t-распределение, которое, можно сказать, названо в честь него.

Наконец, распределение хи-квадрат – распределение сумм квадратов нормально-распределенных величин. На этом распределении построен тест хи-квадрат , который сам основан на сумме квадратов разниц, которые должны быть нормально распределены.

Гамма и бета

В этом месте, если вы уже заговорили о чём-то хи-квадратном, разговор начинается всерьёз. Вы уже, возможно, говорите с настоящими статистиками, и, наверное, стоит уже откланиваться, поскольку могут всплыть вещи типа гамма-распределения . Это обобщение и экспоненциального, и хи-квадрат распределения. Как и экспоненциальное распределение, оно используется для сложных моделей времен ожидания. Например, гамма-распределение появляется, когда моделируется время до следующих n событий. Оно появляется в машинном обучении как «сопряжённое априорное распределение » к парочке других распределений.

Не вступайте в разговор об этих сопряжённых распределениях, но если всё-таки придётся, не забудьте сказать о бета-распределении , потому что оно сопряжённое априорное к большинству упомянутых здесь распределений. Data-scientist-ы уверены, что оно именно для этого и сделано. Упомяните об этом ненароком и идите к двери.

Начало мудрости

Распределения вероятности - это то, о чём нельзя знать слишком много. По настоящему заинтересованные могут обратиться к этой супердетализированной карте всех распределений вероятности Добавить метки

Теория вероятностей – это раздел математики, изучающий закономерности случайных явлений: случайные события, случайные величины, их свойства и операции над ними.

Долгое время теория вероятностей не имела четкого определения. Оно было сформулировано лишь в 1929 году. Возникновение теории вероятностей как науки относят к средним векам и первым попыткам математического анализа азартных игр (орлянка, кости, рулетка). Французские математики XVII века Блез Паскаль и Пьер Ферма, исследуя прогнозирование выигрыша в азартных играх, открыли первые вероятностные закономерности, возникающие при бросании костей.

Теория вероятности возникла как наука из убеждения, что в основе массовых случайных событий лежат определенные закономерности. Теория вероятности изучает данные закономерности.

Теория вероятностей занимается изучением событий, наступление которых достоверно неизвестно. Она позволяет судить о степени вероятности наступления одних событий по сравнению с другими.

Например: определить однозначно результат выпадения «орла» или «решки» в результате подбрасывания монеты нельзя, но при многократном подбрасывании выпадает примерно одинаковое число «орлов» и «решек», что означает, что вероятность того, что выпадет «орел» или «решка», равна 50%.

Испытанием в этом случае называется реализация определенного комплекса условий, то есть в данном случае подбрасывание монеты. Испытание может воспроизводиться неограниченное количество раз. При этом комплекс условий включает в себя случайные факторы.

Результатом испытания является событие . Событие бывает:

  1. Достоверное (всегда происходит в результате испытания).
  2. Невозможное (никогда не происходит).
  3. Случайное (может произойти или не произойти в результате испытания).

Например, при подбрасывании монеты невозможное событие - монета станет на ребро, случайное событие - выпадение «орла» или «решки». Конкретный результат испытания называется элементарным событием . В результате испытания происходят только элементарные события. Совокупность всех возможных, различных, конкретных исходов испытаний называется пространством элементарных событий .

Основные понятия теории

Вероятность - степень возможности происхождения события. Когда основания для того, чтобы какое-нибудь возможное событие произошло в действительности, перевешивают противоположные основания, то это событие называют вероятным, в противном случае - маловероятным или невероятным.

Случайная величина - это величина, которая в результате испытания может принять то или иное значение, причем неизвестно заранее, какое именно. Например: число на пожарную станцию за сутки, число попадания при 10 выстрелах и т.д.

Случайные величины можно разделить на две категории.

  1. Дискретной случайной величиной называется такая величина, которая в результате испытания может принимать определенные значения с определенной вероятностью, образующие счетное множество (множество, элементы которого могут быть занумерованы). Это множество может быть как конечным, так и бесконечным. Например, количество выстрелов до первого попадания в цель является дискретной случайной величиной, т.к. эта величина может принимать и бесконечное, хотя и счетное количество значений.
  2. Непрерывной случайной величиной называется такая величина, которая может принимать любые значения из некоторого конечного или бесконечного промежутка. Очевидно, что количество возможных значений непрерывной случайной величины бесконечно.

Вероятностное пространство - понятие, введенное А.Н. Колмогоровым в 30-х годах XX века для формализации понятия вероятности, которое дало начало бурному развитию теории вероятностей как строгой математической дисциплине.

Вероятностное пространство - это тройка (иногда обрамляемая угловыми скобками: , где

Это произвольное множество, элементы которого называются элементарными событиями, исходами или точками;
- сигма-алгебра подмножеств , называемых (случайными) событиями;
- вероятностная мера или вероятность, т.е. сигма-аддитивная конечная мера, такая что .

Теорема Муавра-Лапласа - одна из предельных теорем теории вероятностей, установлена Лапласом в 1812 году. Она утверждает, что число успехов при многократном повторении одного и того же случайного эксперимента с двумя возможными исходами приблизительно имеет нормальное распределение. Она позволяет найти приближенное значение вероятности.

Если при каждом из независимых испытаний вероятность появления некоторого случайного события равна () и - число испытаний, в которых фактически наступает, то вероятность справедливости неравенства близка (при больших ) к значению интеграла Лапласа.

Функция распределения в теории вероятностей - функция, характеризующая распределение случайной величины или случайного вектора; вероятность того, что случайная величина X примет значение, меньшее или равное х, где х - произвольное действительное число. При соблюдении известных условий полностью определяет случайную величину.

Математическое ожидание - среднее значение случайной величины (это распределение вероятностей случайной величины, рассматривается в теории вероятностей). В англоязычной литературе обозначается через , в русской - . В статистике часто используют обозначение .

Пусть задано вероятностное пространство и определенная на нем случайная величина . То есть, по определению, - измеримая функция. Тогда, если существует интеграл Лебега от по пространству , то он называется математическим ожиданием, или средним значением и обозначается .

Дисперсия случайной величины - мера разброса данной случайной величины, т. е. ее отклонения от математического ожидания. Обозначается в русской литературе и в зарубежной. В статистике часто употребляется обозначение или . Квадратный корень из дисперсии называется среднеквадратичным отклонением, стандартным отклонением или стандартным разбросом.

Пусть - случайная величина, определенная на некотором вероятностном пространстве. Тогда

где символ обозначает математическое ожидание.

В теории вероятностей два случайных события называются независимыми , если наступление одного из них не изменяет вероятность наступления другого. Аналогично, две случайные величины называют зависимыми , если значение одной из них влияет на вероятность значений другой.

Простейшая форма закона больших чисел – это теорема Бернулли, утверждающая, что если вероятность события одинакова во всех испытаниях, то с увеличением числа испытаний частота события стремится к вероятности события и перестает быть случайной.

Закон больших чисел в теории вероятностей утверждает, что среднее арифметическое конечной выборки из фиксированного распределения близко к теоретическому среднему математическому ожиданию этого распределения. В зависимости от вида сходимости различают слабый закон больших чисел, когда имеет место сходимость по вероятности, и усиленный закон больших чисел, когда имеет место сходимость почти наверняка.

Общий смысл закона больших чисел - совместное действие большого числа одинаковых и независимых случайных факторов приводит к результату, в пределе не зависящему от случая.

На этом свойстве основаны методы оценки вероятности на основе анализа конечной выборки. Наглядным примером является прогноз результатов выборов на основе опроса выборки избирателей.

Центральные предельные теоремы - класс теорем в теории вероятностей, утверждающих, что сумма достаточно большого количества слабо зависимых случайных величин, имеющих примерно одинаковые масштабы (ни одно из слагаемых не доминирует, не вносит в сумму определяющего вклада), имеет распределение, близкое к нормальному.

Так как многие случайные величины в приложениях формируются под влиянием нескольких слабо зависимых случайных факторов, их распределение считают нормальным. При этом должно соблюдаться условие, что ни один из факторов не является доминирующим. Центральные предельные теоремы в этих случаях обосновывают применение нормального распределения.

Распределение вероятностей - вероятностная мера на измеримом пространстве.

Пусть W - непустое множество произвольной природы и Ƒ -s- алгебра на W, то есть совокупность подмножеств W, содержащая само W, пустое множество Æ, и замкнутая относительно не более, чем счетного множества теоретико-множественных операций (это означает, что для любого A Î Ƒ множество = W\A вновь принадлежит Ƒ и если A 1 , A 2 ,…Î Ƒ , то Ƒ и Ƒ ). Пара (W,Ƒ ) называется измеримым пространством. Неотрицательная функция P(A ), определенная для всех A Î Ƒ , называется вероятностной мерой, вероятностью, Р. вероятностей или просто Р., если P(W) = 1 и P является счетно-аддитивной, то есть для любой последовательности A 1 , A 2 ,…Î Ƒ такой, что A i A j = Æ для всех i ¹ j , справедливо равенство P() = P(A i ). Тройка (W, Ƒ , P) называется вероятностным пространством. Вероятностное пространство является исходным понятием аксиоматической теории вероятностей , предложенной А.Н. Колмогоровым в начале 1930 гг.

На каждом вероятностном пространстве можно рассматривать (действительные) измеримые функции X = X (w), wÎW, то есть такие функции, что {w: X (w) Î B } Î Ƒ для любого борелевского подмножества B действительной прямой R . Измеримость функции X эквивалентна тому, что {w: X (w) < x } Î Ƒ для любого действительного x . Измеримые функции называются случайными величинами. Каждая случайная величина X , опреде-ленная на вероятностном пространстве (W, Ƒ , P), порождает Р. вероятностей

P X (B ) = P(X ÎB ) = P({w: X (w) Î B }), B ÎƁ ,
на измеримом пространстве (R , Ɓ ), где Ɓ R , и функцию распределения

F X (x ) = P(X < x ) = P({w: X (w) < x }), -¥ < x <¥,
которые называются Р. вероятностей и функцией распределения случайной величины X .

Функция распределения F любой случайной величины обладает свойствами

1. F (x ) неубывает,

2. F (- ¥) = 0, F (¥) = 1,

3. F (x ) непрерывна слева в каждой точке x .

Иногда в определении функции распределения неравенство < заменяется неравенством £; в этом случае функция распределения является непрерывной справа. В содержательных утверждениях теории вероятностей не важно, непрерывна функция распределения слева или справа, важны лишь положения ее точек разрыва x (если они есть) и величины приращений F (x +0) - F (x -0) в этих точках; если F X , то это приращение есть P(X = x ).

Любая функция F , обладающая свойствами 1. - 3. называется функцией распреде-ления. Соответствие между распределениями на (R , Ɓ ) и функциями распределения взаимно однозначно. Для любого Р. P на (R , Ɓ ) его функция распределения определяется равенством F (x ) = P ((-¥, x )), -¥ < x <¥, а для любой функции распределения F соответствующее ей Р. P определяется на алгебре £ множеств, состоящей из объединений конечного числа непересекающихся промежутков функция F 1 (x ) линейно возрастает от 0 до 1. Для построения функции F 2 (x ) отрезок разбиваеся на отрезок , интервал (1/3, 2/3) и отрезок . Функция F 2 (x ) на интервале (1/3, 2/3) равна 1/2 и линейно возрастает от 0 до 1/2 и от 1/2 до 1 на отрезках и соответственно. Этот процесс продолжается и функция F n +1 получается с помощью следующего преобразования функции F n , n ³ 2. На интервалах, где функция F n (x ) постоянна, F n +1 (x ) совпадает с F n (x ). Каждый отрезок , где функция F n (x ) линейно возрастает от a до b , разбивается на отрезок , интервал (a + (a - b)/3, a + 2(b - a)/3) и отрезок . На указанном интервале F n +1 (x ) равна (a + b )/2, а на указанных отрезках F n +1 (x ) линейно возрастает от a до (a + b )/2и от (a + b )/2 до b соответственно. Для каждого 0 £ x £ 1 последовательность F n (x ), n = 1, 2,..., сходится к некоторому числу F (x ). Последо-вательность функций распределения F n , n = 1, 2,..., равностепенно непрерывна, поэтому предельная функция распределения F (x ) является непрерывной. Эта функция постоянна на счетном множестве интервалов (значения функции на разных интервалах различны), на которых нет ее точек роста, а суммарная длина этих интервалов равна 1. Поэтому мера Лебега множества supp F равна нулю, то есть F сингулярна.

Каждая функция распределения может быть представлена в виде

F (x ) = p ac F ac (x ) + p d F d (x ) + p s F s (x ),
где F ac , F d и F s абсолютно непрерывная, дискретная и сингулярная функции распреде-ления, а сумма неотрицательных чисел p ac , p d и p s равна единице. Это представление называется разложением Лебега, а функции F ac , F d и F s - компонентами разложения.

Функция распределения называется симметричной, если F (-x ) = 1 - F (x + 0) для
x > 0. Если симметричная функция распределения абсолютно непрерывна, то ее плотность - четная функция. Если случайная величина X имеет симметричное распределение, то случайные величины X и -X одинаково распределены. Если симметричная функция распределения F (x ) непрерывна в нуле, то F (0) = 1/2.

Среди часто используемых в теории вероятностей абсолютно непрерывных Р. - равномерное Р., нормальное Р. (Р. Гаусса), экспоненциальное Р. и Р. Коши.

Р. называется равномерным на интервале (a , b ) (или на отрезке [a , b ], или на промежутках [a , b ) и (a , b ]), если его плотность постоянна (и равна 1/(b - a )) на (a , b ) и равна нулю вне (a , b ). Чаще всего используется равномерное Р. на (0, 1), его функция распределения F (x ) равна нулю при x £ 0, равна единице при x >1 и F (x ) = x при 0 < x £ 1. Равномерное Р. на (0, 1) имеет случайная величина X (w) = w на вероятностном прост-ранстве, состоящем из интервала (0, 1), совокупности борелевских подмножеств этого интервала и меры Лебега. Это вероятностное пространство соответствует эксперименту «бросание точки w наудачу на интервал (0, 1)», где слово «наудачу» означает равноправие («равновозможность») всех точек из (0, 1). Если на вероятностном пространстве (W, Ƒ , P) существует случайная величина X с равномерным Р. на (0, 1), то на нем для любой функ-ции распределения F существует случайная величина Y , для которой функция распределе-ния F Y совпадает с F . Например, функция распределения случайной величины Y = F -1 (X ) совпадает с F . Здесь F -1 (y ) = inf{x : F (x ) > y }, 0 < y < 1; если функция F (x ) непрерывна и строго монотонна на всей действительной прямой, то F -1 - функция, обратная F .

Нормальным Р. с параметрами (a , s 2), -¥ < a < ¥, s 2 > 0, называется Р. с плотностью, -¥ < x < ¥. Чаще всего используется нормальное Р. с параметрами a = 0 и s 2 = 1, которое называется стандартным нормальным Р., его функция распределения F(x ) через суперпозиции элементарные функций не выражается и приходится использовать ее интегральное представление F(x ) =, -¥ < x < ¥. Для фунции распределения F(x ) составлены подробные таблицы, которые были необходимы до того как появилась современная вычислительная техника (значения функции F(x ) можно получать и с помощью таблиц спец. функции erf(x )), значения F(x ) для x > 0 можно получать с помощью суммы ряда

,
а для x < 0 можно воспользоваться симметричностью F(x ). Значения нормальной функции распределения с параметрами a и s 2 можно получать, пользуясь тем, что она совпадает с F((x - a )/s). Если X 1 и X 2 независимые нормально распределенные с параметрами a 1 , s 1 2 и a 2 , s 2 2 случайные величины, то распределение их суммы X 1 + X 2 также нормально с параметрами a = a 1 + a 2 и s 2 = s 1 2 + s 2 2 . Верно и утверждение, в некотором смысле, обратное: если случайная величина X нормально распределена с параметрами a и s 2 , и
Х = X 1 + X 2 , где X 1 и X 2 - независимые случайные величины, отличные от постоянных, то X 1 и X 2 имеют нормальные распределения (теорема Крамера). Параметры a 1 , s 1 2 и a 2 , s 2 2 распределений нормальных случайных величин X 1 и X 2 связаны с a и s 2 равенствами, приведенными выше. Стандартное нормальное распределение является предельным в центральной предельной теореме .

Экспоненциальным Р. называется распределение с плотностью p (x ) = 0 при x < 0 и p (x ) = le - lx при x ³ 0, где l > 0 - параметр, его функция распределения F (x ) = 0 при x £ 0 и F (x ) = 1 - e - lx при x > 0 (иногда используются экспоненциальные Р., отличающиеся от указанного сдвигом по действительной оси). Это Р. обладает свойством, которое называ-ется отсутствием последействия: если X - случайная величина с экспоненциальным Р., то для любых положительных x и t

P(X > x + t | X > x ) = P(X > t ).
Если X - время работы некоторого прибора до отказа, то отсутствие последействия озна-чает, что вероятность того, что прибор, включенный в момент времени 0, не откажет до момента x + t при условии, что он не отказал до момента x , не зависит от x . Это свойство интерпретируется как отсутствие «старения». Отсутствие последействия является харак-теризационным свойством экспоненциального Р.: в классе абсолютно непрерывных распределений указанное выше равенство справедливо только для экспоненциального Р. (с некоторым параметром l > 0). Экспоненциальное Р. появляется как предельное Р. в схеме минимума. Пусть X 1 , X 2 ,… - неотрицательные независимые одинаково распреде-ленные случайны величины и для их общей функция распределения F точка 0 является точкой роста. Тогда при n ®¥ распределения случайных величин Y n = min(X 1 ,…, X n ) слабо сходятся к вырожденному распределению с единственной точкой роста 0 (это - аналог закона больших чисел). Если дополнительно предположить, что для некоторого e > 0 функция распределения F (x ) на интервале (0, e) допускает представление и p (u )®l при u ¯ 0, то функции распределения случайных величин Z n = n min(X 1 ,…, X n ) при n ®¥ равномерно по -¥ < x < ¥ сходятся к экспоненциальной функции распределения с параметром l (это - аналог центральной предельной теоремы).

Р. Коши называется Р. с плотностью p (x ) = 1/(p(1 + x 2)), -¥ < x < ¥, его функция рас-пределения F (x ) = (arctg x + p/2)/p. Это Р. появилось в работе С.Пуассона в 1832 г. в связи с решением следующей задачи: существуют ли независимые одинаково распределенные случайные величины X 1 , X 2 ,… такие, что средние арифметические (X 1 + … + X n )/n при каждом n имеют то же Р., что и каждая из случайных величин X 1 , X 2 ,…? С. Пуассон обна-ружил, что таким свойством обладают случайные величины с указанной плотностью. Для этих случайных величин не выполняется утверждение закона больших чисел, в котором средние арифметические (X 1 +…+ X n )/n при росте n вырождаются. Однако, это не проти-воречит закону больших чисел, поскольку в нем на распределения исходных случайных величин налагаются ограничения, которые для указанного распределения не выполнены (для этого распределения существуют абсолютные моменты всех положительных поряд-ков, меньших единицы, но математическое ожидание не существует). В работах О.Коши Р., носящее его имя, появилось в 1853 г. Р. Коши имеет отношение X /Y независимых случайных величин со стандартным нормальным Р.

Среди часто используемых в теории вероятностей дискретных Р. - Р. Бернулли, биномиальное Р. и Р. Пуассона.

Р. Бернулли называется любое распределение с двумя точками роста. Чаще всего используется Р. случайной величины X , принимающей значения 0 и 1 с вероятностями
q = 1 - p и p соответственно, где 0 < p < 1 - параметр. Первые формы закона больших чисел и центральной предельной теоремы были получены для случайных величин, имею-щих Р. Бернулли. Если на вероятностном пространстве (W, Ƒ , P) существует последова-тельность X 1 , X 2 ,… независимых случайных величин, принимающих значения 0 и 1 с вероятностями 1/2 каждое, то на этом вероятностном пространстве существует слчайная величина с равномерным Р. на (0, 1). В частности, случайная величина имеет равномерное распределение на (0, 1).

Биномиальным Р. с параметрами n и p , n - натуральное, 0 < p < 1, называется Р., с точками роста 0, 1,..., n , в которых сосредоточены вероятности C n k p k q n -k , k = 0, 1,…, n ,
q = 1 - p . Оно является Р. суммы n независимых случайных величин, имеющих Р. Бернулли с точками роста 0 и 1, в которых сосредоточены вероятности q и p . Изучение этого распределения привело Я.Бернулли к открытию закона больших чисел, а А.Муавра - к открытию центральной предельной теоремы.

Р. Пуассона называется Р., носитель которого - последовательность точек 0, 1,..., в которых сосредоточены вероятности l k e - l /k !, k = 0, 1,…, где l > 0 - параметр. Сумма двух независимых случайных величин, имеющих Р. Пуассона с параметрами l и m вновь имеет Р. Пуассона с параметром l + m. Р. Пуассона является предельным для Р. Бернулли с пара-метрами n и p = p (n ) при n ®¥, если n и p связаны соотношением np ®l при n ®¥ (теорема Пуассона). Если последовательность 0 < T 1 < T 2 < T 3 <… есть последовательность моментов времени, в которые происходят некоторые события (так. наз поток событий) и величины T 1 , T 2 -T 1 , T 3 - T 2 ,… являются независимыми одинаково распределенными случайными величинами и их общее Р. - экспоненциальное с параметром l > 0, то случайная величина X t , равная числу событий, наступивших на интервале (0, t ), имеет Р. Пуассона с параметром.lt (такой поток называется пуассоновским).

Понятие Р. имеет многочисленные обобщения, в частности, оно распространяется на многомерный случай и на алгебраические структуры.

Биномиальное распределение - одно из важнейших распределений вероятностей дискретно изменяющейся случайной величины. Биномиальным распределением называется распределение вероятностей числа m наступления события А в n взаимно независимых наблюдениях . Часто событие А называют "успехом" наблюдения, а противоположное ему событие - "неуспехом", но это обозначение весьма условное.

Условия биномиального распределения :

  • в общей сложности проведено n испытаний, в которых событие А может наступить или не наступить;
  • событие А в каждом из испытаний может наступить с одной и той же вероятностью p ;
  • испытания являются взаимно независимыми.

Вероятность того, что в n испытаниях событие А наступит именно m раз, можно вычислить по формуле Бернулли:

,

где p - вероятность наступления события А ;

q = 1 - p - вероятность наступления противоположного события .

Разберёмся, почему биномиальное распределение описанным выше образом связано с формулой Бернулли . Событие - число успехов при n испытаниях распадается на ряд вариантов, в каждом из которых успех достигается в m испытаниях, а неуспех - в n - m испытаниях. Рассмотрим один из таких вариантов - B 1 . По правилу сложения вероятностей умножаем вероятности противоположных событий:

,

а если обозначим q = 1 - p , то

.

Такую же вероятность будет иметь любой другой вариант, в котором m успехов и n - m неуспехов. Число таких вариантов равно - числу способов, которыми можно из n испытаний получить m успехов.

Сумма вероятностей всех m чисел наступления события А (чисел от 0 до n ) равна единице:

где каждое слагаемое представляет собой слагаемое бинома Ньютона. Поэтому рассматриваемое распределение и называется биномиальным распределением.

На практике часто необходимо вычислять вероятности "не более m успехов в n испытаниях" или "не менее m успехов в n испытаниях". Для этого используются следующие формулы.

Интегральную функцию, то есть вероятность F (m ) того, что в n наблюдениях событие А наступит не более m раз , можно вычислить по формуле:

В свою очередь вероятность F (≥m ) того, что в n наблюдениях событие А наступит не менее m раз , вычисляется по формуле:

Иногда бывает удобнее вычислять вероятность того, что в n наблюдениях событие А наступит не более m раз, через вероятность противоположного события:

.

Какой из формул пользоваться, зависит от того, в какой из них сумма содержит меньше слагаемых.

Характеристики биномиального распределения вычисляются по следующим формулам .

Математическое ожидание: .

Дисперсия: .

Среднеквадратичное отклонение: .

Биномиальное распределение и расчёты в MS Excel

Вероятность биномиального распределения P n (m ) и значения интегральной функции F (m ) можно вычислить при помощи функции MS Excel БИНОМ.РАСП. Окно для соответствующего расчёта показано ниже (для увеличения нажать левой кнопкой мыши).


MS Excel требует ввести следующие данные:

  • число успехов;
  • число испытаний;
  • вероятность успеха;
  • интегральная - логическое значение: 0 - если нужно вычислить вероятность P n (m ) и 1 - если вероятность F (m ).

Пример 1. Менеджер фирмы обобщил информацию о числе проданных в течение последних 100 дней фотокамер. В таблице обобщена информация и рассчитаны вероятности того, что в день будет продано определённое число фотокамер.

День завершён с прибылью, если продано 13 или более фотокамер. Вероятность, что день будет отработан с прибылью:

Вероятность того, что день будет отработан без прибыли:

Пусть вероятность того, что день отработан с прибылью, является постоянной и равна 0,61, и число проданных в день фотокамер не зависит от дня. Тогда можно использовать биномиальное распределение, где событие А - день будет отработан с прибылью, - без прибыли.

Вероятность того, что из 6 дней все будут отработаны с прибылью:

.

Тот же результат получим, используя функцию MS Excel БИНОМ.РАСП (значение интегральной величины - 0):

P 6 (6 ) = БИНОМ.РАСП(6; 6; 0,61; 0) = 0,052.

Вероятность того, что из 6 дней 4 и больше дней будут отработаны с прибылью:

где ,

,

Используя функцию MS Excel БИНОМ.РАСП, вычислим вероятность того, что из 6 дней не более 3 дней будут завершены с прибылью (значение интегральной величины - 1):

P 6 (≤3 ) = БИНОМ.РАСП(3; 6; 0,61; 1) = 0,435.

Вероятность того, что из 6 дней все будут отработаны с убытками:

,

Тот же показатель вычислим, используя функцию MS Excel БИНОМ.РАСП:

P 6 (0 ) = БИНОМ.РАСП(0; 6; 0,61; 0) = 0,0035.

Решить задачу самостоятельно, а затем посмотреть решение

Пример 2. В урне 2 белых шара и 3 чёрных. Из урны вынимают шар, устанавливают цвет и кладут обратно. Попытку повторяют 5 раз. Число появления белых шаров - дискретная случайная величина X , распределённая по биномиальному закону. Составить закон распределения случайной величины. Определить моду, математическое ожидание и дисперсию.

Продолжаем решать задачи вместе

Пример 3. Из курьерской службы отправились на объекты n = 5 курьеров. Каждый курьер с вероятностью p = 0,3 независимо от других опаздывает на объект. Дискретная случайная величина X - число опоздавших курьеров. Построить ряд распределения это случайной величины. Найти её математическое ожидание, дисперсию, среднее квадратическое отклонение. Найти вероятность того, что на объекты опоздают не менее двух курьеров.

Назначение сервиса . Онлайн-калькулятор используется для построения таблицы распределения случайной величины X – числа произведенных опытов и вычисления всех характеристик ряда: математического ожидания, дисперсии и среднеквадратического отклонения. Отчет с решением оформляется в формате Word .
Пример 1 . В урне белых и черных шара. Шары наудачу достают из урны без возвращения до тех пор, пока не появится белый шар. Как только это произойдет, процесс прекращается.
Данный тип заданий относится к задаче построения геометрического распределения .

Пример 2 . Два Три стрелка делают по одному выстрелу в мишень. Вероятность попадания в нее первым стрелком равна , вторым – . Составить закон распределения случайной величины Х – числа попаданий в мишень.

Пример 2a . Стрелок делает по два три четыре выстрела. Вероятность попадания при соответствующем выстреле равна , . При первом промахе стрелок в дальнейших состязаниях не участвует. Составить закон распределения случайной величины Х - число попаданий в мишень.

Пример 3 . В партии из деталей бракованных стандартных. Контролер наудачу достает детали. Составить закон распределения случайной величины Х – числа бракованных годных деталей в выборке.
Аналогичное задание : В корзине m красных и n синих шаров. Наудачу вынимают k шаров. Составить закон распределения ДСВ X – появление синих шаров.
см. другие примеры решений .

Пример 4 . Вероятность появления события в одном испытании равна . Производится испытаний. Составить закон распределения случайной величины Х – числа появлений события.
Аналогичные задания для этого вида распределения :
1. Составить закон распределения случайной величины Х числа попаданий при четырех выстрелах, если вероятность попадания в цель при одном выстреле равна 0.8 .
2. Монету подбрасывают 7 раз. Найти математическое ожидание и дисперсию числа появлений герба. Составить таблицу распределения Х – числа появлений герба.

Пример №1 . Бросаются три монеты. Вероятность выпадения герба при одном бросании равна 0.5. Составьте закон распределения случайной величины X - числа выпавших гербов.
Решение.
Вероятность того, что не выпало ни одного герба: P(0) = 0,5*0,5*0,5= 0,125
P(1) = 0,5 *0,5*0,5 + 0,5*0,5 *0,5 + 0,5*0,5*0,5 = 3*0,125=0,375
P(2) = 0,5 *0,5 *0,5 + 0,5 *0,5*0,5 + 0,5*0,5 *0,5 = 3*0,125=0,375
Вероятность того, что выпало три герба: P(3) = 0,5*0,5*0,5 = 0,125

Закон распределения случайной величины X:

X 0 1 2 3
P 0,125 0,375 0,375 0,125
Проверка: P = P(0) + P(1) + P(2) + P(3) = 0,125 + 0,375 + 0,375 + 0,125 = 1

Пример №2 . Вероятность попадания в мишень одного стрелка при одном выстреле для первого стрелка равна 0.8, для второго стрелка – 0.85. Стрелки произвели по одному выстрелу в мишень. Считая попадание в цель для отдельных стрелков событиями независимыми, найти вероятность события А – ровно одно попадание в цель.
Решение.
Рассмотрим событие A - одно попадание в цель. Возможные варианты наступления этого события следующие:

  1. Попал первый стрелок, второй стрелок промахнулся: P(A/H1)=p 1 *(1-p 2)=0.8*(1-0.85)=0.12
  2. Первый стрелок промахнулся, второй стрелок попал в мишень: P(A/H2)=(1-p 1)*p 2 =(1-0.8)*0.85=0.17
  3. Первый и второй стрелки независимо друг от друга попали в мишень: P(A/H1H2)=p 1 *p 2 =0.8*0.85=0.68
Тогда вероятность события А – ровно одно попадание в цель, будет равна: P(A) = 0.12+0.17+0.68 = 0.97


Top