Gregor Gorjanc (gg): Beta koeficient iz asociacijske študije

2010-05-29

Beta koeficient iz asociacijske študije

Od Matjaža Stanonika sem prejel sledeče vprašanje:

Interpretirati moram rezultate članka, ki so podani v beta koeficientu. Če sem prav ugotovil je to v slovenščini standardizirani koeficient korelacije. Vendar pa si kljub temu ne znam praktično razložiti rezultatov. Primer iz članka: nek SNP vpliva na nivo LDL-ja v telesu. Na določeni populaciji so ugotovili, da je beta koeficient za ta SNP 0,10. Sedaj pa ne vem, kaj praktično pomeni ta številka.

Moj odgovor:

Predvidevam, da je govora o vrednostih+ v tabeli 3. Vzemimo SNP rs646776c (prvi v tabeli). Ocena za beta koeficient za ta SNP znaša −0.16 s standardno napako (v oklepaju) 0.01.

Kaj je beta koeficient v tem primeru? Pod tabelo je napisano: "Beta-coefficient (β) represents the proportion of 1 s.d. change in standardized LDL cholesterol residual (mean = 0, s.d. = 1 after adjustment for age, age2, gender, and diabetes status) per copy of the allele modeled".

Če prav razumem so naredili sledeče. Izmerili so holesterol vrste LDL (fenotip) in najprej te vrednosti korigirali za vpliv starosti (kot kvadratno regresijo), spol in status diabetesa - predidevam, da so vse vplive vključili v statistični model, ki ga lahko zapišemo kot y = m + x + x^2 + s + d + e, kjer je y - fenotip, m - srednja vrednost populacije, x - starost, s - spol (1 - moški, 2 - ženski), d - diabetes (0 - ne, 1 - da) in e - nepojasnjeni ostanek. Vrednosti (e v enačbi), ki so jih dobili iz korekcije so standardizirali, tako da je bilo povprečje 0 in standardni odklon 1. To pomeni, da lahko po analogiji normalne porazdelitve pričakujemo minimum pri ~ -3 in maksimum pri ~ +3.

Beta koeficient je tako ocena vpliva zamenjave enega SNP allela na povprečje korigiranih vrednostih. Če ima nek osebek genotiip A1A1 nekdo drugi pa A1A2, potem pričakujemo, da se bosta ta dva osebka v povprečju razlikovala za -0.16+-0.01 standardne deviacije holesterola LDL - standardna napaka je praktično zanemarljivo majhna. Pri osebku z genotipom A2A2 pa 2*-0.16+-0.01 standardne deviacije holesterola LDL. Tole s standardno deviacijo je malo zapleteno. Recimo, da je v neki populaciji (vrednosti si bom izmislil!!!) povprečje za holesterol LDL 100 enot in standardna deviacija 10 enot. Potem bi razlika med A1A1 in A1A2 bila -0.16 * 10 enot = -1.6 enot.

4 comments:

Gabor Meszaros said...: Hi Gregor! Interesting hypothesis at the end of the post. You are going to simulate data to prove this? ( In R? :) )

Gabor; 31 May 2010 at 17:02
Gorjanc Gregor said...: Gabor, I think that you have misunderstood me. What I wrote in the post follows by analogy. The R code for the example would be:

## --- Population parameters ---
## Mean
mu <- 100
## Standard deviation
sigma <- 10
## Probability of allele 1
p <- 0.5
## Average allele substitution effect
alpha <- -0.16 * sigma
## Number of subjects
n <- 1000

## --- Simulate some data ---
## Genotypes
g <- rep(x=c(-1, 0, 1), times=round(c(p^2, 2*p*(1-p), (1-p)^2) * n))
## Phenotypes
y <- mu + g * alpha + rnorm(n=n, mean=0, sd=sigma)

## --- Estimate --
## On scaled data
yS <- y / sigma
fit1 <- lm(yS ~ g)
summary(fit1)

## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 10.01950 0.03092 324.001 < 2e-16 ***
## g -0.14051 0.04373 -3.213 0.00136 **

## On original data
fit2 <- lm(y ~ g)
summary(fit2)

## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 100.1950 0.3092 324.001 < 2e-16 ***
## g -1.4051 0.4373 -3.213 0.00136 **; 31 May 2010 at 18:58
Gabor Meszaros said...: Hi again! Thank you for the clarification!

btw. No wonder about the misunderstanding since I read it through Google Translate :) It is way better than nothing, but still sometimes bumpy; 31 May 2010 at 19:27
Gorjanc Gregor said...: I agree!; 31 May 2010 at 20:29