2. Probabilidade, distribuições e os teoremas fundamentais
Source:vignettes/v02-probabilidade.Rmd
v02-probabilidade.RmdEm engenharia, a probabilidade modela a incerteza de falhas, defeitos e variações de processo (Montgomery and Runger 2021). Esta vinheta vai dos fundamentos — axiomas, probabilidade condicional, Teorema de Bayes — às distribuições mais usadas em confiabilidade e controle de qualidade, fechando com os teoremas-limite.
Axiomas e regras
Um experimento aleatório tem um espaço amostral . A probabilidade de um evento satisfaz os axiomas de Kolmogorov:
A probabilidade condicional e a regra da multiplicação são
Dois eventos são independentes quando .
Aplicação: confiabilidade de sistemas
Considere dois componentes independentes, cada um com confiabilidade . Em um sistema em série, ambos precisam funcionar; em paralelo (redundância), basta um:
A redundância eleva a confiabilidade de 0,81 para 0,99 — o cálculo direto da independência justifica decisões de projeto.
Probabilidade total e Teorema de Bayes
Quando o espaço se particiona em causas , a probabilidade total de um evento é , e o Teorema de Bayes inverte a relação:
Exemplo clássico de manufatura: três máquinas produzem 20%, 30% e 50% das peças, com taxas de defeito de 5%, 3% e 1%. Uma peça saiu defeituosa — de qual máquina ela provavelmente veio?
rnp_bayes(
priori = c(M1 = 0.20, M2 = 0.30, M3 = 0.50),
verossimilhanca = c(0.05, 0.03, 0.01)
)
#> # A tibble: 3 × 5
#> hipotese priori verossimilhanca conjunta posteriori
#> <chr> <dbl> <dbl> <dbl> <dbl>
#> 1 M1 0.2 0.05 0.01 0.417
#> 2 M2 0.3 0.03 0.009 0.375
#> 3 M3 0.5 0.01 0.005 0.208A probabilidade total de defeito é
(a soma da coluna conjunta). Dado o defeito, a máquina
M1 é a origem mais provável (42%), apesar de produzir
só 20% das peças — porque sua taxa de defeito é a maior. Bayes rastreia
o defeito até a fonte.
Distribuições para contagens: Poisson
O número de defeitos por unidade de produto (falhas num fio, partículas num wafer) segue tipicamente a Poisson, com e a propriedade marcante .
rnp_esperanca_var("pois", lambda = 4)
#> # A tibble: 1 × 4
#> distribuicao esperanca variancia desvio
#> <chr> <dbl> <dbl> <dbl>
#> 1 pois 4 4 2Para um processo com defeitos por unidade, a probabilidade de no máximo 2 defeitos e de pelo menos 1 são:
rnp_distribuicao_poisson("p", q = 2, lambda = 4) # P(X <= 2)
#> [1] 0.2381033
1 - rnp_distribuicao_poisson("p", q = 0, lambda = 4) # P(X >= 1)
#> [1] 0.9816844Apenas 24% das unidades têm 2 defeitos ou menos, e 98% têm ao menos um — um processo que precisa de melhoria.
Distribuições para tempo de vida: exponencial e Weibull
O tempo até a falha de um componente costuma ser modelado pela exponencial, cuja densidade é e a confiabilidade . Para um tempo médio entre falhas (MTBF) de 1000 h, :
1 - rnp_distribuicao_exponencial("p", q = 1500, taxa = 1/1000) # P(T > 1500)
#> [1] 0.2231302Há 22% de chance de o componente ultrapassar 1500 h. A exponencial é sem memória (): um componente “não envelhece”, hipótese válida apenas para falhas puramente aleatórias.
Para modelar desgaste, a Weibull é mais realista, pois sua taxa de falha varia no tempo: . Com forma (taxa de falha crescente, típica de desgaste) e escala :
1 - rnp_distribuicao_weibull("p", q = 800, forma = 2, escala = 1000) # R(800)
#> [1] 0.5272924A confiabilidade em 800 h é de 53%. O parâmetro de forma distingue os regimes: (mortalidade infantil), (falhas aleatórias, equivale à exponencial) e (desgaste) — a “curva da banheira” da confiabilidade.
rnp_grafico_distribuicao("weibull", shape = 2, scale = 1000)
Lei dos Grandes Números
Estimativas de engenharia melhoram com mais dados. A LGN garante que a média amostral converge para a média verdadeira, :
rnp_lei_grandes_numeros(function(n) rexp(n, rate = 1/1000), media_teorica = 1000)
A vida média estimada de uma amostra de componentes estabiliza em torno do MTBF verdadeiro conforme o número de ensaios cresce.
Teorema Central do Limite
O TCL é a razão de a Normal aparecer em tantos contextos de engenharia: a média de muitas medições (ou a soma de muitos erros pequenos) é aproximadamente Normal, qualquer que seja a distribuição de origem,
rnp_tcl_simulacao(function(n) rexp(n), n = 30, n_amostras = 2000)
Partindo de tempos de falha exponenciais (fortemente assimétricos), o histograma das médias adere à Normal. É esse resultado que sustenta os intervalos de confiança e as cartas de controle da próxima vinheta.
Da probabilidade à inferência
Os teoremas-limite abrem a porta da inferência: usar
uma amostra para estimar parâmetros desconhecidos da população (Montgomery and Runger 2021). Retomamos as 100
medições de Michelson (morley).
v <- morley$Speed # velocidade da luz - 299000 (km/s)Estimação pontual
Um estimador é uma função da amostra que aponta um valor para o parâmetro. Um bom estimador é não-viesado () e eficiente (variância mínima). O método de máxima verossimilhança escolhe os parâmetros que tornam os dados observados mais prováveis:
ll <- function(th) sum(dnorm(v, th[1], th[2], log = TRUE))
rnp_emv(ll, inicio = c(800, 80), nomes = c("media", "desvio"))$estimativas
#> # A tibble: 2 × 6
#> parametro estimativa erro_padrao z ic_inf ic_sup
#> <chr> <dbl> <dbl> <dbl> <dbl> <dbl>
#> 1 media 852. 7.86 108. 837. 868.
#> 2 desvio 78.6 5.56 14.1 67.7 89.5A média e o desvio estimados (, ) vêm com seus erros-padrão, obtidos da informação de Fisher.
Intervalos de confiança
Uma estimativa pontual não comunica a incerteza; o intervalo de confiança sim. Para a média de uma Normal com variância desconhecida (usando a distribuição ):
rnp_ic_media(v)
#> # A tibble: 1 × 7
#> media erro_padrao limite_inferior limite_superior n nivel_confianca
#> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
#> 1 852. 7.90 837. 868. 100 0.95
#> # ℹ 1 more variable: distribuicao <chr>O IC de 95% é km/s (acima de 299000). O valor moderno, codificado, é — fora do intervalo, o que já sinaliza um erro sistemático. Há ICs para outros parâmetros:
rnp_ic_variancia(v) # variância (qui-quadrado)
#> # A tibble: 1 × 5
#> variancia limite_inferior limite_superior n gl
#> <dbl> <dbl> <dbl> <int> <int>
#> 1 6243. 4812. 8424. 100 99
rnp_ic_proporcao(12, 200, method = "wilson") # proporção: 12 defeitos em 200
#> # A tibble: 1 × 5
#> proporcao limite_inferior limite_superior metodo n
#> <dbl> <dbl> <dbl> <chr> <dbl>
#> 1 0.06 0.0347 0.102 wilson 200Testes de hipóteses
Um teste confronta uma afirmação () com os dados. O procedimento de Montgomery: formular e , calcular uma estatística de teste, e decidir pelo p-valor, ciente dos erros tipo I (, rejeitar verdadeira) e tipo II (). Michelson estava enviesado? Testamos (o valor moderno) com a estatística :
rnp_teste_t(v, mu = 792.458)
#> # A tibble: 1 × 10
#> estatistica gl p_valor media_x media_y diff ic_inf ic_sup hipotese_nula
#> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
#> 1 7.59 99 0 852. NA 59.9 837. 868. 792.
#> # ℹ 1 more variable: alternativa <chr>Com e , rejeita-se : as medições de 1879 tinham um viés sistemático de ~60 km/s — um erro de exatidão, não de acaso. Para proporções (uma linha que produz 6% de defeitos atende à meta de no máximo 10%?):
rnp_teste_z_proporcao(12, 200, p0 = 0.10)
#> # A tibble: 1 × 9
#> estatistica p_valor proporcao p0 erro_padrao ic_inf ic_sup n
#> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
#> 1 -1.89 0.0593 0.06 0.1 0.0212 0.0271 0.0929 200
#> # ℹ 1 more variable: alternativa <chr>O p-valor de não permite, a 5%, concluir que a taxa real está abaixo de 10% — a amostra é pequena demais para essa decisão.
Planejamento: poder e tamanho de amostra
Quantas medições seriam necessárias para detectar um efeito médio () com 80% de poder? Planejar isso antes de coletar evita estudos inconclusivos:
rnp_tamanho_amostra_teste(efeito = 0.5, poder = 0.8, tipo = "uma")
#> # A tibble: 1 × 5
#> efeito poder_alvo alpha n poder_obtido
#> <dbl> <dbl> <dbl> <int> <dbl>
#> 1 0.5 0.8 0.05 34 0.808Síntese
| Fenômeno / objetivo | Ferramenta rnp
|
Conceito |
|---|---|---|
| Defeitos por unidade | rnp_distribuicao_poisson |
Poisson |
| Tempo de vida | rnp_distribuicao_exponencial/_weibull |
confiabilidade |
| Estimar parâmetro | rnp_emv |
máxima verossimilhança |
| Quantificar incerteza | rnp_ic_media/_variancia/_proporcao |
intervalo de confiança |
| Decidir sobre afirmação |
rnp_teste_t, rnp_teste_z_proporcao
|
teste de hipótese |
| Planejar o estudo | rnp_tamanho_amostra_teste |
poder |
Da probabilidade que descreve o mecanismo à inferência que decide a partir de dados, o caminho é contínuo — e os teoremas-limite são a ponte.
Exercícios
Resolva computacionalmente com o rnp. Use os conjuntos
indicados (morley, mtcars, trees,
faithful).
- Calcule
e o quantil
da Normal padrão (
rnp_distribuicao_normal). - Em 10 ensaios com
,
obtenha
e
(
rnp_distribuicao_binomial). - Para uma Poisson com
,
calcule
(
rnp_distribuicao_poisson). - Um sistema tem 3 componentes independentes com . Calcule a confiabilidade em série e em paralelo (regra da multiplicação).
- Dois fornecedores entregam 60% e 40% das peças, com 2% e 5% de
defeito. Dada uma peça defeituosa, qual a probabilidade de cada
fornecedor? (
rnp_bayes). - Um componente tem MTBF de 500 h (exponencial). Calcule
e verifique a propriedade sem memória
(
rnp_distribuicao_exponencial). - Para uma Weibull com forma
e escala
,
obtenha a confiabilidade
(
rnp_distribuicao_weibull). - Obtenha
e
de uma Poisson com
(
rnp_esperanca_var). - Demonstre o TCL partindo de uma distribuição uniforme
(
rnp_tcl_simulacao). - Construa o IC de 95% para a média de
mtcars$mpg(rnp_ic_media). - Teste se a média de
mtcars$mpgdifere de 22 km/L (rnp_teste_t). - Calcule o IC de 95% para a variância de
mtcars$wt(rnp_ic_variancia). - Estime o IC para a proporção de 18 defeituosos em 250 peças
(
rnp_ic_proporcao, método de Wilson). - Teste se a proporção 18/250 difere de 10%
(
rnp_teste_z_proporcao). - Ajuste uma distribuição exponencial a
faithful$eruptionse avalie o ajuste (rnp_ajuste_distribuicao). - Determine o tamanho de amostra para detectar
com poder de 0,90 (
rnp_tamanho_amostra_teste). - Estime
por Monte Carlo (
rnp_monte_carlo). - Aplique o Teorema de Bayes (forma de partição) a um teste
diagnóstico com prevalência 2%, sensibilidade 95% e especificidade 90%
(
rnp_bayes).