Menu

統計學上的「多變量」一詞:該使用Multivariate 還是 Multivariable?

2016 / 9 / 2

73134

0 將此網站加入您的書簽

根據《韋氏大字典》的解釋,multivariate和multivariable 二字屬同義詞,兩者皆表示:包含多個變數,唯一的差異在於multivariable屬一般字彙,而multivariate則具有強烈的統計意涵。因此,我們在編修論文時則遵循這樣的定義為基準,也經常將這兩個字交互使用。

但是,有一位使用我們編修服務的論文作者並不同意我們的做法,且寫信告訴我們multivariate這一字之所以具有強烈的統計意涵是因為它代表多個y的存在,即一項包含多個y的分析。然而,該作者的論文內並沒有使用到此分析方式,且其論文內所提到的多變量僅包含多個x(多個干擾變數)。簡言之,他的論文僅分析了x,並沒分析y,因此該作者認為multivariate這一字並不適用於他的論文。

為此,我們的編修團隊進行了一連串的研究與討論,主要探討:多變項迴歸應該是Multivariate Regression 還是 Multivariable Regression?

討論過程中我們發現在Hidalgo和Goodman的研究中有提到:
大多數迴歸模式的描述是根據結果變數(outcome variable)的模式而定: 線性迴歸(linear regression)是連續性的結果變數、羅吉斯迴歸(logistic regression)具有二分式结果(dichotomous outcome),而存活分析(survival analysis)包含時間結果預測(time to event outcome)。就統計學觀點而言, multivariate analysis指的是具有兩個或以上的依變數或結果變數的統計模式,而multivariable analysis指的是具有多個自變數或反應變數(response variable)的統計模式。

一個multivariable model 可以視為一項多變數出現在方程式右邊的模式。這類的統計模式可以用來評估數個變數間的關係。一邊評估它們的獨立關係時,也可以調整潛在性的混雜因素(confounder)。

一項簡單的線性迴歸模式包含一個連續結果和一個預測因子;而一個多元迴歸(multiple regression)或多變項線性迴歸(multivariable linear regression)模式則包含一個連續結果和多個預測因子。

線性迴歸的情況也相同。羅吉斯迴歸和比例風險迴歸模型(proportional hazards regression model)可屬簡單或多變量的模式,且這些模式結構都具有一個結果變數和一個或以上的自變數或預測變數。

相較之下,multivariate指的多變量通常源自於縱貫性研究(longitudinal study);其中,同一個個體的測量(重複測量)於多個時間點上進行。或者,multivariate指的是套疊/鑲嵌(clustered/nested)資料,其每一個集群包含著多個個體。

Hidalgo和Goodman的研究採用系統性方式來統計詞彙multivariate的使用廣泛性。這兩位學者使用PubMed圖書庫及關鍵字multivariate來檢閱2010年12月–2011年11月期間刊登在《American Journal of Public Health》的期刊論文。這兩位學者發現其中有30篇論文裡所提到的統計方法用了multivariate一字。每一篇的論文皆分別檢閱,以評估被定義為multivariate的分析模式種類。

在這30篇論文裡,其中的5篇使用了multivariate model;且這5篇中,又有4篇的分析模式源自於縱向資料,而1篇的分析模式來自鑲嵌資料。至於剩下的25篇論文,皆使用multivariable analyses;其中,羅吉斯迴歸(30篇中的21 篇,相當於70%)是最常被使用的模式,依序為線性迴歸模式(30篇中的3篇,相當於10%)。有趣的是,30篇論文中有2 篇出現了multivariate和multivariable此二字交互使用的情況。此現象說明了這兩個統計用字需要具一致性。

雖然有些人會認為multivariate和multivariable的互用性僅僅牽涉語意上含意,但我們編修團隊認為區分二者的差異是相當重要的。一般而言,研究中所使用的模式應該屬simple或multivariable模式,以表示預測因子的數量和結果種類(如:連續、二分式、重複測量和時間結果預測),以及表示線性、羅吉斯、多變量或比例風險模式。

此研究指出了多變量需要更精確的應用和闡述。這相當重要,許多作者仍然持續使用multivariate來描述統計,不論multivariate是否關乎結果或解釋變數。我們不只要避免讀者搞混,也要讓所有研究人員了解正確的使用方式。

我們編修團隊相當感謝這位作者所提出的問題,他讓我們注意到我們所不曾注意到的差異。
未來,我們也將對於multivariate和multivariable 的使用更加謹慎。

Reference:
1. Hidalgo B, Goodman M. Multivariate or multivariable regression? Am J Public Health. 2013;103(1):39–40 [ PMC free article] [ PubMed]

Critique、Evaluate、Criticize、Justify、Elaborate及相關單字的差異性為何?
東、西、南、北的首字母是否該大寫?