Este repositório documenta a resolução do Exercício 5: Estatística - Teste de Hipóteses proposto no bootcamp de Análise de Dados da WoMakersCode. O objetivo é demonstrar a aplicação prática de diversas técnicas estatísticas para analisar dados e extrair insights.
- Python
- Pandas
- Jupyter Notebook
- Matplotlib & Seaborn
- SciPy
- Statsmodels
Análise realizada para avaliar a performance de diferentes cenários de um experimento.
- Análise de Conversão: Identificação do cenário com a maior taxa de conversão.
- Cálculo de Tamanho de Amostra: Determinação do tamanho de amostra necessário para um novo Teste A/B, seguindo os critérios abaixo:
- Cenário A como base de comparação.
- Nível de confiança de 95% (significância de 5%).
- Poder estatístico de 80% para capturar o efeito.
- Objetivo de detectar um aumento para 10% na conversão.
Análises realizadas sobre uma base de dados fictícia de um hospital com pacientes cardíacos. A base foi considerada como a população para os testes.
-
Teste-T para Uma Amostra:
- Pergunta: A idade média das pessoas com problemas cardíacos é maior que 50 anos?
- Critérios: Utilizada uma amostra de 45 pacientes e um nível de significância de 5%.
-
Classificação de Amostras:
- Pergunta: Ao dividir os pacientes entre os que têm e os que não têm condições de saúde adicionais, as amostras são dependentes ou independentes?
-
Teste-T para Amostras Independentes:
- Pergunta: A pressão arterial média para pacientes com condições de saúde adicionais é igual à de pacientes sem condições adicionais?
- Critérios: Utilizada uma amostra aleatória e um nível de significância de 6%.
-
ANOVA (Análise de Variância):
- Pergunta: Existe uma diferença significativa na pressão arterial média entre diferentes grupos étnicos?
-
Hipóteses:
$H_0$ : A pressão arterial média é a mesma em todos os grupos étnicos.$H_1$ : A média é diferente em pelo menos dois grupos. - Critérios: Nível de significância de 5%.
-
Teste Qui-Quadrado de Associação:
- Pergunta: Existe uma relação entre o sexo do paciente e a presença de condições de saúde adicionais?
-
Teste de Correlação/Independência:
- Pergunta: Existe uma associação entre a idade dos pacientes e sua pressão arterial?
-
Hipóteses:
$H_0$ : A pressão arterial é independente da idade.$H_1$ : A pressão arterial está associada à idade.
-
Cálculo de Intervalo de Confiança:
- Pergunta: Qual é o intervalo de confiança para a média da pressão arterial entre os pacientes com condições de saúde adicionais?
- Critérios: Nível de confiança de 95%.
-
Teste de Normalidade (Shapiro-Wilk):
- Pergunta: A distribuição da pressão arterial na população segue uma distribuição normal?
-
Hipóteses:
$H_0$ : A distribuição segue uma normal.$H_1$ : A distribuição não segue uma normal.
A análise detalhada, presente no notebook, revelou diversos insights importantes sobre os dados dos pacientes:
Perfil Etário dos Pacientes: A análise confirmou com 95% de confiança que a idade média dos pacientes cardíacos na amostra é significativamente superior a 50 anos (p < 0.05), reforçando o perfil de risco associado a idades mais avançadas.
Impacto de Condições Adicionais: Foi encontrada uma diferença estatisticamente significativa na pressão arterial média entre os pacientes que possuem condições de saúde adicionais e os que não possuem (p < 0.06), sugerindo que comorbidades influenciam diretamente nos níveis de pressão.
Fator Etnia vs. Pressão Arterial: O teste ANOVA não encontrou uma diferença estatisticamente significativa na pressão arterial média entre os diferentes grupos étnicos analisados (p > 0.05), indicando que, para esta população, a etnia não foi um fator determinante.
Correlação Idade vs. Pressão Arterial: Surpreendentemente, não foi encontrada uma correlação linear significativa entre a idade dos pacientes e sua pressão arterial nesta amostra (p > 0.05), o que sugere que outros fatores podem ter uma influência maior.
Para ver a análise completa, os valores exatos e os cálculos que suportam estas conclusões, por favor, consulte o notebook do projeto.
- Clone este repositório.
- Crie um ambiente virtual e instale as dependências:
pip install -r requirements.txt
- Navegue até o notebook principal e execute as células.