Закон больших чисел

Электромонтаж Ремонт и отделка Укладка напольных покрытий, теплые полы Тепловодоснабжение

Закон больших чисел

24.11.2021

Закон больших чисел (ЗБЧ) в теории вероятностей — принцип, описывающий результат выполнения одного и того же эксперимента много раз. Согласно закону, среднее значение конечной выборки из фиксированного распределения близко к математическому ожиданию этого распределения.

Закон больших чисел важен, поскольку он гарантирует устойчивость для средних значений некоторых случайных событий при достаточно длинной серии экспериментов.

Важно помнить, что закон применим только тогда, когда рассматривается большое количество испытаний.

Примеры

Например, рассмотрим бросок шестигранной игральной кости, на которой с равной вероятностью может выпасть одно из чисел 1, 2, 3, 4, 5 или 6. Следовательно, математическое ожидание одного броска равно

1 + 2 + 3 + 4 + 5 + 6 6 = 3 , 5. {displaystyle {frac {1+2+3+4+5+6}{6}}=3{,}5.}

Согласно закону больших чисел, при большом количестве бросков их среднее значение, вероятно, будет близким к 3,5, при этом точность будет возрастать по мере увеличения числа бросков.

Из закона больших чисел следует, что эмпирическая вероятность успеха в серии испытаний Бернулли сходится к теоретической вероятности. Для случайной величины Бернулли математическое ожидание представляет собой теоретическую вероятность успеха, а среднее значение n {displaystyle n} таких переменных (если они независимы и одинаково распределены) является относительной частотой.

Например, бросок правильной монеты — это испытание Бернулли. При одном броске теоретическая вероятность выпадения «орла» равна 1 / 2 {displaystyle 1/2} . Поэтому, согласно закону больших чисел, доля «орлов» при большом количестве испытаний «должна быть» примерно 1 / 2 {displaystyle 1/2} . В частности, доля «орлов» после n {displaystyle n} бросков сходится к 1 / 2 {displaystyle 1/2} , при n → ∞ {displaystyle n o infty } .

Хотя доля орлов (и решек) стремится к 1 / 2 {displaystyle 1/2} , почти наверное модуль разности количества орлов и решек станет большим, когда число бросков будет неограниченно возрастать. То есть при увеличении числа бросков вероятность того, что модуль разницы будет невелик, идёт к нулю, а отношение модуля разницы к общему числу бросков почти наверное стремится к нулю:

| n о − n р | ↛ 0 , | n о − n р | n → 0. {displaystyle |n_{ ext{о}}-n_{ ext{р}}| ot o 0,quad {frac {|n_{ ext{о}}-n_{ ext{р}}|}{n}} o 0.}

История

Итальянский математик Джероламо Кардано (1501—1576) был страстным любителем азартных игр. «Побочным продуктом» его любви к игре в кости стала книга «Об азартных играх» (итал. De Ludo alea, 1563), содержащая формулировку закона больших чисел. В ней Кардано заявил, что точность эмпирической статистики, как правило, улучшается с количеством испытаний.

В 1713 году Якоб Бернулли изложил правила подсчёта вероятности для сложных событий и дал первый вариант «закона больших чисел», разъясняющего, почему частота события в серии испытаний не меняется хаотично, а в некотором смысле стремится к своему предельному теоретическому значению (то есть вероятности).

Следует также отметить работы С. Д. Пуассона (1781—1840), доказавшего более общую, чем у Якоба Бернулли, форму закона больших чисел.

П. Л. Чебышёв получил общую формулировку закона больших чисел: если математические ожидания серии случайных величин и квадраты этих математических ожиданий ограничены в совокупности, то среднее арифметическое этих величин с ростом сходится по вероятности к среднему арифметическому для их математических ожиданий.

А. А. Марков доказал вариант закона больших чисел для некоторых распространённых типов зависимых величин.

В XX веке исследования Чебышёва и Маркова продолжили А. Я. Хинчин и А. Н. Колмогоров. Они показали, что если случайные величины не только независимы, но и одинаково распределены, то существование у них математического ожидания является необходимым и достаточным условием для применимости закона больших чисел.

Варианты

Рассмотрим последовательность независимых в совокупности случайных величин X 1 , X 2 , … {displaystyle X_{1},X_{2},dots } , интегрируемых по Лебегу, которые имеют одинаковые распределения, следовательно, и одинаковые математические ожидания E ( X 1 ) = E ( X 2 ) = … = μ {displaystyle mathbb {E} (X_{1})=mathbb {E} (X_{2})=ldots =mu } .

Обозначим через X ¯ n {displaystyle {overline {X}}_{n}} среднее арифметическое рассматриваемых случайных величин:

X ¯ n = 1 n ( X 1 + … + X n ) . {displaystyle {overline {X}}_{n}={frac {1}{n}}(X_{1}+ldots +X_{n}).}

Оно сходится к математическому ожиданию:

X ¯ n → μ {displaystyle {overline {X}}_{n} o mu } при n → ∞ . {displaystyle n o infty .}

Независимость в совокупности случайных величин может быть заменена попарной независимостью в обоих вариантах закона.

Ниже описаны два различных варианта закона больших чисел. Их называют усиленным законом больших чисел и слабым законом больших чисел. Разница между усиленной и слабой формой связана с выбором способа сходимости.

Слабый закон

Слабый закон больших чисел гласит, что среднее значение выборки сходится по вероятности к математическому ожиданию:

X ¯ n → P μ {displaystyle {overline {X}}_{n}xrightarrow {P} mu } при n → ∞ . {displaystyle n o infty .}

То есть ∀ ε > 0 {displaystyle forall varepsilon >0} выполняется

lim n → ∞ P ( | X ¯ n − μ | > ε ) = 0. {displaystyle lim _{n o infty }P{ig (}|{overline {X}}_{n}-mu |>varepsilon {ig )}=0.}

Интерпретируя данный результат, получаем, что слабый закон утверждает, что для любых ненулевых указанных границ, независимо от того, насколько они малы, при достаточно большой выборке вероятность того, что среднее значение выборки будет близко к математическому ожиданию, очень высока в пределах этих границ.

Как говорилось ранее, слабый закон применим в случае независимых одинаково распределенных случайных величин, имеющих математическое ожидание. Однако он может применяться и в некоторых других случаях. Например, дисперсия может быть разной для каждой случайной величины в выборке, а математическое ожидание оставаться константой. Если дисперсии ограничены, то закон также применим, как показал Чебышёв ещё в 1867 году. Доказательство Чебышёва работает до тех пор, пока дисперсия среднего числа первых n {displaystyle n} значений не стремится к нулю при n → ∞ {displaystyle n o infty } .

Усиленный закон

Усиленный закон больших чисел утверждает, что при определённых условиях с вероятностью единица происходит неограниченное сближение средних арифметических последовательности случайных величин с некоторыми постоянными величинами.

Пусть X 1 , X 2 , … {displaystyle X_{1},X_{2},dots } — последовательность случайных величин и X ¯ n = 1 n ( X 1 + … + X n ) {displaystyle {overline {X}}_{n}={frac {1}{n}}(X_{1}+ldots +X_{n})} .

Говорят, что последовательность X 1 , X 2 , … {displaystyle X_{1},X_{2},dots } удовлетворяет усиленному закону больших чисел, если существует такая последовательность μ n {displaystyle mu _{n}} , что вероятность соотношения: X ¯ n − μ n → 0 {displaystyle {overline {X}}_{n}-mu _{n} o 0} , при n → ∞ {displaystyle n o infty } равна 1.

Другая формулировка, равносильная предыдущей, такова: последовательность X 1 , X 2 , … {displaystyle X_{1},X_{2},dots } удовлетворяет усиленному закону больших чисел, если ∀ ε > 0 {displaystyle forall varepsilon >0} вероятность одновременного выполнения всех неравенств

| X ¯ n − μ n | ⩽ ε , {displaystyle |{overline {X}}_{n}-mu _{n}|leqslant varepsilon ,} | X ¯ n + 1 − μ n + 1 | ⩽ ε , {displaystyle |{overline {X}}_{n+1}-mu _{n+1}|leqslant varepsilon ,} … {displaystyle dots }

стремится к 1 при n → ∞ {displaystyle n o infty } .

Таким образом, здесь рассматривается поведение всей последовательности сумм в целом, в то время как в обычном законе больших чисел речь идет лишь об отдельных суммах.

Если последовательность X 1 , X 2 , … {displaystyle X_{1},X_{2},dots } удовлетворяет усиленному закону больших чисел, то она удовлетворяет и обычному закону больших чисел с теми же самыми μ n {displaystyle mu _{n}} , то есть P ( | X ¯ n − μ n | ⩽ ε ) → 1 {displaystyle P{ig (}|{ar {X}}_{n}-mu _{n}|leqslant varepsilon {ig )} o 1} , при n → ∞ {displaystyle n o infty } , ∀ ε > 0 {displaystyle forall varepsilon >0} .

Обратное может быть неверно. Например, если случайные величины X 1 , X 2 , … {displaystyle X_{1},X_{2},dots } независимы и принимают при n ⩾ 16 {displaystyle ngeqslant 16} два значения ± n / log ⁡ log ⁡ log ⁡ n {displaystyle pm {sqrt {n/log log log n}}} с вероятностью 1 / 2 {displaystyle 1/2} каждое, то для них выполняется обычный закон больших чисел с μ n = 0 {displaystyle mu _{n}=0} , но ни при каких μ n {displaystyle mu _{n}} не выполняется усиленный закон больших чисел.

Теорема Колмогорова

В случае независимых слагаемых наиболее известными являются условия приложимости усиленного закона больших чисел, установленные А. Н. Колмогоровым: достаточное — для величин с конечными дисперсиями, и необходимое и достаточное — для одинаково распределённых величин (заключающееся в существовании математического ожидания величин X i {displaystyle X_{i}} ). Теорема Колмогорова для случайных величин с конечными дисперсиями утверждает, что из условия

вытекает приложимость к последовательности X 1 , X 2 , … {displaystyle X_{1},X_{2},dots } усиленного закона больших чисел с A n = E ( X ¯ n ) {displaystyle A_{n}=mathbb {E} ({overline {X}}_{n})} . В терминах дисперсий условие (1) оказывается наилучшим в том смысле, что для любой последовательности положительных чисел b n {displaystyle b_{n}} с расходящимся рядом ∑ b n / n 2 {displaystyle sum b_{n}/n^{2}} можно построить последовательность независимых случайных величин X n {displaystyle X_{n}} с D X n = b n {displaystyle DX_{n}=b_{n}} , не удовлетворяющую усиленному закону больших чисел.

Различия между слабым законом и усиленным законом

Слабый закон утверждает, что для заданного большого n {displaystyle n} среднее значение X ¯ n {displaystyle {overline {X}}_{n}} , вероятно, будет близко к μ {displaystyle mu } . Таким образом, | X ¯ n − μ | > ε {displaystyle |{overline {X}}_{n}-mu |>varepsilon } может происходить бесконечно много раз, хотя и сколь угодно редко. (Для всех n {displaystyle n} не обязательно выполняется | X ¯ n − μ | ≠ 0 {displaystyle |{overline {X}}_{n}-mu | eq 0} ).

Усиленный закон показывает, что | X ¯ n − μ | > ε {displaystyle |{overline {X}}_{n}-mu |>varepsilon } почти наверное не произойдёт. Это означает, что с вероятностью 1 мы имеем, что ∀ ε > 0 {displaystyle forall varepsilon >0} выполняется неравенство | X ¯ n − μ | < ε {displaystyle |{overline {X}}_{n}-mu |<varepsilon } для достаточно больших n {displaystyle n} .

Ниже приведены три примера симметричных распределений, в каждом примере математического ожидания эти распределения не имеют, усиленный закон больших чисел (сходимость почти всюду) не имеет места, но слабый закон выполнен: среднее случайных величин сходится по вероятности к константе, центру симметрии их распределения.

  • Пусть x {displaystyle x} — экспоненциально распределённая случайная величина с параметром 1. Случайная величина sin ⁡ ( x ) e x x {displaystyle {frac {sin(x)e^{x}}{x}}} не имеет математического ожидания, задаваемого интегралом Лебега, но используя условную сходимость и интерпретацию интеграла как интеграла Дирихле, являющегося несобственным интегралом Римана, можно сказать: E ( sin ⁡ ( x ) e x x ) = ∫ 0 ∞ sin ⁡ ( x ) e x x e − x d x = π 2 . {displaystyle mathbb {E} left({frac {sin(x)e^{x}}{x}} ight)=int _{0}^{infty }{frac {sin(x)e^{x}}{x}}e^{-x},dx={frac {pi }{2}}.}
  • Пусть x {displaystyle x} — геометрическое распределение с вероятностью 0 , 5 {displaystyle 0{,}5} . Случайная величина 2 x ( − 1 ) x x {displaystyle {frac {2^{x}(-1)^{x}}{x}}} не имеет математического ожидания в обычном смысле, поскольку бесконечный ряд не является абсолютно сходящимся, но используя условную сходимость можно сказать: E ( 2 x ( − 1 ) x x ) = ∑ 1 ∞ 2 x ( − 1 ) x x 2 − x = − ln ⁡ ( 2 ) . {displaystyle mathbb {E} left({frac {2^{x}(-1)^{x}}{x}} ight)=sum _{1}^{infty }{frac {2^{x}(-1)^{x}}{x}}2^{-x}=-ln(2).}
  • Если функция распределения случайной величины равна 1 − F ( x ) = e 2 x ln ⁡ ( x ) , x ⩾ e , {displaystyle 1-F(x)={frac {e}{2xln(x)}},quad xgeqslant e,} F ( x ) = e − 2 x ln ⁡ ( − x ) , x ⩽ − e , {displaystyle F(x)={frac {e}{-2xln(-x)}},quad xleqslant -e,} то она не имеет математического ожидания, но слабый закон выполняется.
  • Равномерный закон больших чисел

    Пусть f ( x , θ ) {displaystyle f(x, heta )} — некоторая функция, которая определена и непрерывна по переменной θ ∈ Θ {displaystyle heta in Theta } . Тогда для любого фиксированного θ {displaystyle heta } последовательность { f ( X 1 , θ ) , f ( X 2 , θ ) , … } {displaystyle {f(X_{1}, heta ),f(X_{2}, heta ),dots }} будет последовательностью независимых и одинаково распределённых случайных величин, такой, что выборочное среднее этой последовательности сходится по вероятности к E [ f ( X , θ ) ] {displaystyle mathbb {E} [f(X, heta )]} .

    Равномерный закон больших чисел описывает условия, при которых сходимость равномерна по θ {displaystyle heta } .

    Если:

  • Θ {displaystyle Theta } компактно,
  • f ( x , θ ) {displaystyle f(x, heta )} непрерывна при каждом θ ∈ Θ {displaystyle heta in Theta } для почти всех x {displaystyle x} и измеримой функции от x {displaystyle x} в каждом θ {displaystyle heta } ,
  • существует доминирующая функция d ( x ) {displaystyle d(x)} такая, что E [ d ( X ) ] < ∞ {displaystyle mathbb {E} [d(X)]<infty } и ‖ f ( x , θ ) ‖ ⩽ d ( x ) {displaystyle |f(x, heta )|leqslant d(x)} для всех θ ∈ Θ {displaystyle heta in Theta } ,
  • тогда E [ f ( X , θ ) ] {displaystyle mathbb {E} [f(X, heta )]} непрерывна в θ {displaystyle heta } и

    sup θ ∈ Θ ‖ 1 n ∑ i = 1 n f ( X i , θ ) − E [ f ( X , θ ) ] ‖ → п. н. 0. {displaystyle sup _{ heta in Theta }left|{frac {1}{n}}sum _{i=1}^{n}f(X_{i}, heta )-mathbb {E} [f(X, heta )] ight|xrightarrow { ext{п. н.}} 0.}

    Борелевский закон больших чисел

    Борелевский закон больших чисел, названный в честь Эмиля Бореля, гласит, что если эксперимент повторяется много раз независимо при одинаковых условиях, то доля раз, когда любое указанное событие происходит, приблизительно равна вероятности появления события в каком-либо конкретном испытании; чем больше число повторений, тем лучше приближение. Точнее, если E {displaystyle E} обозначает событие, о котором идет речь, p {displaystyle p} — вероятность его появления, а N n ( E ) {displaystyle N_{n}(E)} — число раз, когда E {displaystyle E} встречается в первых n {displaystyle n} испытаниях, тогда с вероятностью 1

    N n ( E ) n → p , n → ∞ . {displaystyle {frac {N_{n}(E)}{n}} o p,quad n o infty .}

    Неравенство Чебышёва

    Пусть X {displaystyle X} — случайная величина с конечным математическим ожиданием μ {displaystyle mu } и конечной ненулевой дисперсией σ 2 {displaystyle sigma ^{2}} . Тогда для любого действительного числа k > 0 {displaystyle k>0} выполняется

    P ( | X − μ | ⩾ k σ ) ⩽ 1 k 2 . {displaystyle P{ig (}|X-mu |geqslant ksigma {ig )}leqslant {frac {1}{k^{2}}}.}

    Доказательство слабого закона

    Рассмотрим бесконечную последовательность X 1 , X 2 , … {displaystyle X_{1},X_{2},dots } независимых и одинаково распределённых случайных величин с конечным математическим ожиданием E ( X 1 ) = E ( X 2 ) = … = μ < ∞ {displaystyle mathbb {E} (X_{1})=mathbb {E} (X_{2})=ldots =mu <infty } . Нас интересует сходимость по вероятности

    X ¯ n = 1 n ( X 1 + … + X n ) . {displaystyle {overline {X}}_{n}={frac {1}{n}}(X_{1}+ldots +X_{n}).} Теорема X ¯ n → P μ {displaystyle {overline {X}}_{n}xrightarrow {P} mu } при n → ∞ . {displaystyle n o infty .}

    Доказательство с использованием неравенства Чебышёва, предполагающего конечную дисперсию

    Предположение о конечной дисперсии D ( X 1 ) = D ( X 2 ) = … = σ 2 < ∞ {displaystyle D(X_{1})=D(X_{2})=ldots =sigma ^{2}<infty } не является обязательным. Большая или бесконечная дисперсия замедляет сходимость, но ЗБЧ выполняется в любом случае.

    Это доказательство использует предположение о конечной дисперсии D ⁡ ( X i ) = σ 2 {displaystyle operatorname {D} (X_{i})=sigma ^{2}} (для всех i {displaystyle i} ). Независимость случайных величин не предполагает корреляции между ними, мы имеем

    D ⁡ ( X ¯ n ) = D ⁡ ( 1 n ( X 1 + … + X n ) ) = 1 n 2 D ⁡ ( X 1 + … + X n ) = n σ 2 n 2 = σ 2 n . {displaystyle operatorname {D} ({overline {X}}_{n})=operatorname {D} {ig (}{ frac {1}{n}}(X_{1}+ldots +X_{n}){ig )}={frac {1}{n^{2}}}operatorname {D} (X_{1}+ldots +X_{n})={frac {nsigma ^{2}}{n^{2}}}={frac {sigma ^{2}}{n}}.}

    Математическое ожидание последовательности μ {displaystyle mu } представляет собой среднее значение выборочного среднего:

    E ( X ¯ n ) = μ . {displaystyle mathbb {E} ({overline {X}}_{n})=mu .}

    Используя неравенство Чебышёва для X ¯ n {displaystyle {overline {X}}_{n}} , получаем

    P ⁡ ( | X ¯ n − μ | ⩾ ε ) ⩽ σ 2 n ε 2 . {displaystyle operatorname {P} {ig (}|{overline {X}}_{n}-mu |geqslant varepsilon {ig )}leqslant {frac {sigma ^{2}}{nvarepsilon ^{2}}}.}

    Это неравенство используем для получения следующего:

    P ⁡ ( | X ¯ n − μ | < ε ) = 1 − P ⁡ ( | X ¯ n − μ ⩾ ε ) ⩾ 1 − σ 2 n ε 2 . {displaystyle operatorname {P} {ig (}|{overline {X}}_{n}-mu |<varepsilon {ig )}=1-operatorname {P} {ig (}|{overline {X}}_{n}-mu geqslant varepsilon {ig )}geqslant 1-{frac {sigma ^{2}}{nvarepsilon ^{2}}}.}

    При n → ∞ {displaystyle n o infty } выражение стремится к 1.

    Теперь по определению сходимости по вероятности мы получим:

    X ¯ n → P μ {displaystyle {overline {X}}_{n}xrightarrow {P} mu } при n → ∞ {displaystyle n o infty } .

    Доказательство с использованием сходимости характеристических функций

    По теореме Тейлора для комплексных функций, характеристическая функция любой случайной величины X {displaystyle X} с конечным средним μ {displaystyle mu } может быть записана как

    φ X ( t ) = 1 + i t μ + o ( t ) , t → 0. {displaystyle varphi _{X}(t)=1+itmu +o(t),quad t o 0.}

    Все X 1 , X 2 , … {displaystyle X_{1},X_{2},dots } имеют одну и ту же характеристическую функцию, обозначим её как φ X {displaystyle varphi _{X}} .

    Среди основных свойств характеристических функций выделим два свойства:

    φ 1 n X ( t ) = φ X ( t n ) , {displaystyle varphi _{{frac {1}{n}}X}(t)=varphi _{X}{ig (}{ frac {t}{n}}{ig )},} φ X + Y ( t ) = φ X ( t ) φ Y ( t ) , {displaystyle varphi _{X+Y}(t)=varphi _{X}(t),varphi _{Y}(t),}

    где X {displaystyle X} и Y {displaystyle Y} независимы.

    Эти правила могут быть использованы для вычисления характеристической функции X ¯ n {displaystyle {overline {X}}_{n}} в терминах φ X {displaystyle varphi _{X}} :

    φ X ¯ n ( t ) = [ φ X ( t n ) ] n = [ 1 + i μ t n + o ( t n ) ] n → e i t μ {displaystyle varphi _{{overline {X}}_{n}}(t)=left[varphi _{X}left({frac {t}{n}} ight) ight]^{n}=left[1+imu {frac {t}{n}}+oleft({frac {t}{n}} ight) ight]^{n} o e^{itmu }} при n → ∞ . {displaystyle n o infty .}

    Предел e i t μ {displaystyle e^{itmu }} является характеристической функцией константы μ {displaystyle mu } и, следовательно, по теореме непрерывности Леви, X ¯ n {displaystyle {overline {X}}_{n}} сходится по распределению к μ {displaystyle mu } :

    X ¯ n → D μ {displaystyle {overline {X}}_{n}xrightarrow {mathcal {D}} mu } при n → ∞ . {displaystyle n o infty .}

    Поскольку μ {displaystyle mu } — константа, то отсюда следует, что сходимость по распределению к μ {displaystyle mu } и сходимость по вероятности к μ {displaystyle mu } эквивалентны. Поэтому

    X ¯ n → P μ {displaystyle {overline {X}}_{n}xrightarrow {mathcal {P}} mu } при n → ∞ . {displaystyle n o infty .}

    Это показывает, что среднее значение выборки по вероятности сходится к производной характеристической функции в начале координат, если она существует.


    Имя:*
    E-Mail:
    Комментарий: