Inferència en regressions lineals, les visites i els enllaços

extrapolating

L’estadística és molt necessària en l’optimització del màrqueting online i l’analítica digital. Per exemple, quan fas tests A/B no pots informar només del increment en els precentatges de conversió. En CRO cal informar dels marges d’error per tenir clars els intervals de confiança i l’efecte produït.

Cesar Aparicio s’ha plantejat a mode didàctic un exercici de regressió lineal. Es pregunta en el post: ¿Qué número de backlinks necesito para alcanzar un tráfico de 2 millones de visitas?

Em plantejo una altre pregunta: Quin nombre d’enllaços explicarien 2 millons de visites en un 95% dels casos?

M’ho plantejo a mode didàctic, ja que primer caldria tenir dades obtingudes de forma aleatòria i no serà el cas.

En aquest cas, partim d’aquestes dades de tràfic de Semrush i d’enllaços de Majestic:

id,trafic,links
2,10.8,7.99
3,14.5,13.19
4,2.70,4.48
5,0.478,1.43
6,0.779,2.18
7,4.50,1.86
8,10.8,11.16
9,0.641,1.45
10,1.80,3.54
11,2.10,3.33
12,2.50,3.62

Utilitzant R-studio, veiem que amb aquestes dades tenim un 77% de les visites explicades pel nombre d’enllaços.

trafico_links_1

En canvi, si traiem el valor més elevat, el 88% de les visites estarien explicades pel nombre d’enllaços.

trafic_links_2

            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  -1.0119     0.8071  -1.254    0.242    
links         1.1567     0.1289   8.976 8.73e-06 ***

Partir d’aquestes 11 observacions, estimo l’interval amb un 95% de confiança:

Estimate ci = (Estimate avg - t statistic * SE, Estimate + t statistic * SE)
t statistic = qt(0.025, df=11-2) = 2.262157
1.1567+2.262157*0.1289=1.448292 
1.1567-2.262157*0.1289=0.865108
Estimate ci = (0.865108,1.448292)

Ara calculo l’interval d’enllaços necessaris per obtenir 2 milions de visites en funció de l’estimació anterior.

trafic = intercept + estimate*links
(trafic - intercept)/estimate =  links
(2000000 + 1.0119)/0.865108 = 2311851
(2000000 + 1.0119)/1.448292 = 1380938
(1380938,2311851)

Per tant, amb un model que explica el 88% de les visites podem saber que necessitarem entre 1,3 milions  i 2,3 milions d’enllaços en el 95% dels casos.

Evidentment, si tornem a fer aquest estudi amb dades diferents tindrem intervals diferents. L’interessant aquí es veure la gran amplitud de l’interval de confiança (Llibre recomanat: “Understanding The New Statistics” de Geoff Cumming).

Podria haver entrat més en detall, però l’objectiu del post era el de conscienciar sobre els intervals de confiança.

Si voleu més detall o voleu un anàlisi com aquest. Comenteu el post,  escriviu-me a twittercontacteu amb mi.