
Audio Transcript Auto-generated
- 00:01 - 00:04
lá bem vindos essa segunda parte da aula sobre a
- 00:04 - 00:05
regressão múltipla.
- 00:06 - 00:10
Na parte inicial, falamos sobre o conceito de regressão.
- 00:11 - 00:15
Como o acréscimo de outras variáveis explicativas nos leva intuitivamente,
- 00:17 - 00:21
acredita que podemos dessa forma, melhorar a estimativa de uma
- 00:22 - 00:22
variável resposta?
- 00:24 - 00:27
Vimos ali rapidamente Como o método de um dos quadrados
- 00:29 - 00:36
matematicamente nos permite determinar os coeficientes, delinearam interceptou nos coeficientes
- 00:37 - 00:41
de inclinação o coeficiente de milhares de cada variável explicativa,
- 00:43 - 00:49
e agora na sequência, falaremos sobre a avaliação do modelo
- 00:50 - 00:50
de regressão.
- 00:51 - 00:57
E como ainda podemos avaliar se há um acréscimoà
- 00:57 - 01:03
diminuição de variáveis explicativas, ajuda a melhorar a qualidade do
- 01:03 - 01:04
desempenho desse modelo.
- 01:05 - 01:12
Vamos a isso, então aí o conceito de regressão que
- 01:12 - 01:16
já discutimos anteriormente, vamos agora ao modelo de regressão logística.
- 01:17 - 01:20
Como eu disse antes, apresentamos a definição.
- 01:21 - 01:25
Colocamosé que se trata de uma extensão natural da
- 01:25 - 01:26
regressão linear simples.
- 01:27 - 01:31
Vimos um exemplo onde nós temos a correlação entre a
- 01:31 - 01:35
sua conferência na cabeça e o peso ao nascer cem
- 01:35 - 01:36
gramas de recém nascidos.
- 01:38 - 01:42
E vamos então que na regressão múltipla temos ali várias
- 01:42 - 01:45
variáveis explicativas do usou mais.
- 01:47 - 01:51
A determinação dos coeficientesé feita através de uma amostragem
- 01:52 - 01:53
aleatória da população.
- 01:54 - 02:00
portanto, usando valores conhecidos de variáveis resposta de variáveis cativas,
- 02:01 - 02:05
destacando queé preciso considerar que essa mostra siga uma
- 02:05 - 02:11
distribuição ao menos proximamente normal, o que, independentemente da distribuição
- 02:12 - 02:16
regional dos dados, pode ser considerada gol ciana quando a
- 02:16 - 02:19
mostraé suficientemente grande para tal.
- 02:19 - 02:25
Isso pelo teorema central do limite aí ao equacionamento por
- 02:25 - 02:27
mínimos quadrados para determinação dos coeficientes.
- 02:29 - 02:35
E aqui uma exposição teórica de aspectos analíticos relacionados o
- 02:37 - 02:40
modelo de regressão quando eleé baseado em apenas uma
- 02:41 - 02:41
variável explicativa.
- 02:42 - 02:42
Portanto, uma regra.
- 02:43 - 02:50
Desculpe uma carreta, um plano quando considerado consideradas duas variáveis
- 02:51 - 02:55
um volume um espaço quando são consideradas as três variáveis
- 02:55 - 03:00
e o hiper plano para variáveis explicativas dimensionais.
- 03:02 - 03:06
Tudo isso falando rapidamente e já abordamos na parte inicial
- 03:07 - 03:11
a avaliação do modelo de regressão múltipla, assim como fazemos
- 03:12 - 03:15
fora, o modelo de regressão linearé baseada no chamado
- 03:16 - 03:21
coeficiente de determinação que matematicamente corresponde ao quadrado do coeficiente
- 03:22 - 03:23
de correlação.
- 03:25 - 03:27
Daí então essa simbologiaé enquadrado.
- 03:29 - 03:31
A diferençaé que lá temos o erro quadrado e
- 03:31 - 03:35
aqui temos o chamadoé enquadrado ajustado o enquadrado ajustado.
- 03:37 - 03:41
Ele se diferencia pelo fato de que ele aumenta ou
- 03:41 - 03:45
diminui na medida em que acrescentamos novas variáveis explicativas.
- 03:47 - 03:49
De um modo geral, o desempenho do modelo ele pode
- 03:50 - 03:56
ser medida comparando se algum a evolução dos valores cearense
- 03:58 - 04:05
observados e evolução conjunta ou não com os valores calculados.
- 04:06 - 04:13
Estimados, portanto,é uma capacidade,é uma medida de capacidade
- 04:14 - 04:15
ou de desempenho do modelo.
- 04:16 - 04:24
Preveem estimar corretamente os valores da variável resposta o quadrado,
- 04:25 - 04:30
ou seja, o conceito de determinação e nunca diminui e,
- 04:30 - 04:35
portanto, essa versão chamada ajustadaé uma adequação para que
- 04:35 - 04:40
possamos identificar por meio de uma eventual redução nesse valor,
- 04:41 - 04:46
que o acréscimo de uma determinada variável explicativa ajuda a
- 04:46 - 04:51
melhorar ou a piorar o desempenho do modelo, sendo que
- 04:52 - 04:57
teoricamente, quandoé reajustado, diminui, significa dizer que o acréscimo
- 04:57 - 05:01
da nova variável ela não contribui para a melhora da
- 05:01 - 05:06
estimativa. Pelo contrário, ela prejudica o desempenho, sendo portanto um
- 05:06 - 05:08
ruído e dessa maneira não incluída.
- 05:10 - 05:16
Assim comparando oé enquadrado ajustado de vários modelos.
- 05:17 - 05:23
Podemos dessa maneira determinar qual entre eles proporciona uma melhor
- 05:24 - 05:30
alternativa diante de várias alternativas consideradas.
- 05:31 - 05:36
Lembrando que o coeficiente de correlação varia entre menos um
- 05:37 - 05:37
e um.
- 05:38 - 05:42
Sendo o coeficiente determinação um valor ao quadrado dessa correlação,
- 05:44 - 05:47
ele vai variar de zero até um, sendo que quanto
- 05:47 - 05:50
mais próximo de um melhor desempenho do modelo.
- 05:51 - 06:01
Avaliar outra característica importanteé a denominação das chamadas variáveis
- 06:01 - 06:07
indicadoras. Temos chamado até aqui as variáveis explicativas e variáveis
- 06:08 - 06:13
exploratórios. Em outras palavras, quando essas variáveis explana horas ou
- 06:13 - 06:19
explicativos, tem um alto poder explicativo, ou seja, elas são
- 06:19 - 06:22
relevantes e temos de contribuir para a estimativa da variável
- 06:23 - 06:28
resposta. Elas podem ainda ser chamadas variáveis indicadoras, ou seja,
- 06:29 - 06:29
variáveis indicadoras.
- 06:30 - 06:34
Em poucas palavras são as variáveis aleatórias com bom poder
- 06:34 - 06:39
explicativo, lembrando que elas podem ser numéricas do tipo continuo
- 06:40 - 06:46
discreto e ainda variáveis nominais, ou seja, com valores categóricos,
- 06:47 - 06:49
caso em que essa variável indicadoré chamada de Dame.
- 06:51 - 06:56
No entanto, para a determinação dos coeficientes, assim como para
- 06:56 - 07:00
a estimativa dos valores,é necessário que essas variáveis sejam
- 07:01 - 07:06
a princípio submetidas a uma transformação categórico numérica.
- 07:07 - 07:10
Por exemplo, se eu tenho uma variável dicotômica que determina
- 07:11 - 07:14
a existência ou não de uma determinada doença, por exemplo,
- 07:16 - 07:20
eu posso substituir presença por um e ausência por zero
- 07:21 - 07:23
ocorrência por um e não ocorrência por zero.
- 07:24 - 07:30
Então eu faço essa instituição do valor categórico nominal para
- 07:30 - 07:33
o valor numérico para que eu possa dessa maneira proceder
- 07:34 - 07:38
com a estimativa dos coeficientes e no valor das variáveis
- 07:38 - 07:38
com esportes.
- 07:40 - 07:42
Aqui, eu tenho um exemplo do que seria uma variável
- 07:43 - 07:50
categórica dicotômica, que seria a toxemia, uma doença que pode
- 07:50 - 07:54
acometer as mães durante o período de gravidez.
- 07:56 - 07:59
Eu tenho que outras duas variáveis que são justamente a
- 07:59 - 08:01
estimativa da sua preferência da cabeça.
- 08:02 - 08:06
Incentivo que recebem o site e a idade gestacional poderia
- 08:06 - 08:11
ter uma terceira dimensão aqui, que seria o peso ao
- 08:11 - 08:17
nascer e a variável dicotômica categórica que a ocorrência ou
- 08:17 - 08:22
não da glicemia representadas numericamente por um zero a ocorrência
- 08:23 - 08:28
e não ocorrência, respectivamente, graficamente simbolizados pela sua conferência, no
- 08:28 - 08:33
caso de ocorrentes por um, criando no caso de não
- 08:33 - 08:36
ocorrer, essaé está mais abaixo.
- 08:37 - 08:41
É estimada baseando se apenas nos valores de não ocorrer
- 08:42 - 08:50
mais acima, essa segunda reta estimada para os casos apenas
- 08:51 - 08:53
de a ocorrência da toxemia.
- 08:55 - 09:00
Portanto, podemos verificar que, quando presente, a toxemia leva a
- 09:00 - 09:03
um aumento da circunferência da cabeça para os mesmos valores
- 09:04 - 09:04
de idade gestacional.
- 09:06 - 09:10
Chegamos aqui vinte e quatro meses na reta inferior de
- 09:10 - 09:11
não ocorrência da glicemia.
- 09:12 - 09:16
Acho que oferece menor quando comparado com valores da reta
- 09:16 - 09:17
logo acima a ela.
- 09:18 - 09:23
Portanto, dessa maneira verificando que a toxemiaé uma variável
- 09:24 - 09:27
indicador importante, já que ela tem um forte efeito significativo
- 09:28 - 09:39
no valor da variável resposta e assim determinando a importância
- 09:40 - 09:44
de se incluir a ser avaliado no modelo bom, além
- 09:45 - 09:51
de o acréscimo de variáveis, poder e influência a precisão,
- 09:51 - 09:55
o desempenho do modeloÉ preciso ainda considerar que muitas
- 09:55 - 10:00
vezes o efeito de uma variável sóé percebido na
- 10:00 - 10:04
presença de uma outra variável, ou seja, às vezes o
- 10:04 - 10:09
efeito de uma variada só se manifesta na presença um
- 10:11 - 10:15
em determinados valores de uma outra variável, ou seja, como
- 10:15 - 10:19
se o comportamento de uma variável ela dependência do comportamento
- 10:20 - 10:22
de uma única variável e a influência delas sobre uma
- 10:23 - 10:27
terceira também dependendo da existência ou não da influência de
- 10:27 - 10:28
uma outra variável.
- 10:29 - 10:32
Fator explicativo bastante interessante.
- 10:34 - 10:39
Filosoficamente falando até considerar que consuma variável mais tímida na
- 10:39 - 10:44
presença ou ausência de uma terceira varia, mas discutiremos isso,
- 10:44 - 10:48
o próximo, obrigado e até lá