缺失数据(英語:missing data或missing values)指在统计调查的过程中,由于受访者对问题的遗漏、拒绝,或是调查员与调查问卷本身的一些疏忽,使得经常会出现缺失数据问题。此外,经济学社会学政治学研究中,政府或私人机构可能选择不报告或无法报告关键的统计数据,也会导致缺失数据。[1]数据收集不当或录入错误等研究者自身的原因也会造成缺失值。[2]几乎所有标准统计方法都假设每个单独个案有可用于分析的所有变量信息,因此缺失数据就成为统计研究或问卷调查的工作人员必须解决的问题。

缺失数据
上级分类数据、​統計值 编辑
话题方面数据缺口 编辑

Paul D. Allison英语Paul D. Allison在其2001年出版的Missing Data一书中提到许多解决缺失数据问题的方案,而它们各有利弊。[3]

相关概念[4]

编辑

介绍缺失数据的解决方案前須明白几个相关的統計概念:

完全隨機缺失(missing completely at random, MCAR)

编辑

假设一个特殊变量Y有缺失数据。如果Y缺失数据的概率与Y本身的值或在该数据组中任何其他变量的值都无关的话,那么Y的数据就是完全随机缺失的(MCAR)。

随机缺失(missing at random, MAR)

编辑

如果在分析中控制了其他变量后,Y缺失数据的概率与Y值无关,则称Y的数据为随机缺失(MAR)的,即:

Pr(Y missing|Y,X)=Pr(Y missing|X)。

不隨機缺失(missing not at random, MNAR)

编辑

缺失資料發生的原因與缺失資料本身的有相關。是不可忽略的缺失。

可忽略的

编辑

如果数据為MAR且管制缺失数据过程的参数与要估计的参数无关,则缺失数据的机制是可忽略的。在某些情况下,MAR和可忽略性可以视为相等的条件。

不可忽略的

编辑

如果數据不是MCAR或MAR,则说缺失数据机制是不可忽略的。

缺失数据解决方案

编辑

解决缺失数据问题的方法主要有成列删除、成对删除、虚拟变量调整、插补、多重插补和最大似然

成列删除

编辑

成列删除的思想是:在分析中当某个案的任何变量有缺失数据时,便简单地将该个案从分析中排除。也称为个案删除。

成列删除方法的优点有:

  1. 可用于任何类型的统计分析。
  2. 不需特别的运算方法。
  3. 如果数据是MCAR,则减少的样本将会是原样本的一个随机次样本
  4. 如果任何因变量缺失数据的概率不取决于自变量的值,则使用成列删除的回归估计值将会是无偏误的。

成列删除方法的缺点有:

  1. 标准误通常较大。
  2. 如果数据不是MCAR而只是MAR,那么成列删除可能会产生有偏误的估计值。

成对删除

编辑

成对删除的原理是:通过所有可得的个案来计算这些描述统计的每一个。成对删除又称可得个案分析。

成对删除方法的优点是:如果数据为MCAR,成对删除就产生一致的参数估计值(在大样本中接近无偏误),且有比成列删除更少的抽样变异(较小的真实标准误),而当变量间相关性普遍较低时,成对删除会产生更有效的估计值。

成对删除方法的缺点有:

  1. 如果数据是MAR但不是随机被观察到的,估计值可能会严重偏误。
  2. 由统计软件所产生的标准误和检验统计量估计时偏误的。
  3. 在小样本中,建构的协方差或相关矩阵可能不是“正定的”。

虚拟变量调整

编辑

虚拟变量调整或缺失指标方法:假设某变量X有一些缺失数据,X为回归分析中数个自变量的其中一个,那么可以建立一个虚拟变量D,如果X存在数据缺失则D=1,否则D=0。同时建立一个变量X',使得当不存在数据缺失时X'=X,否则X'等于一个任意常数c。回归因变量Y于X'、D及其他在预设模型中的所有变量。

虚拟变量调整方法的优点是:它使用了所有可用的关于缺失数据的信息。

虚拟变量调整方法的缺点是:它通常会产生有偏误的系数估计值。

插补

编辑

插补(imputation)方法的基本原理是:以某些合理的猜测插补或替代缺失值,然后再接着按没有缺失数据的情况分析。鲁宾(Rubin, 1987)指出,即使仅重复插补数次(五次或更少),也能大幅提升估计质量。[5]按照完整数据的情况分析插补数据会低估标准误、高估检验统计量。[6]

多重插补

编辑

多重插补法(multiple imputation, MI)具有与最大似然法相同的最适特性,但却排除了某些局限性。特别是当数据为MAR时,正确使用多重插补会产生一致的、渐近有效且渐近正态的估计值。多重插补的另一个优势是,它几乎可以被任何一种数据或模型所使用,且分析可用未修改的、传统的软件执行。不过,多重插补也有缺点:执行可能很麻烦也很易出错,且对多重插补方法存在一些误解。[7]

最大似然

编辑

最大似然是一个有效且实用的处理随机缺失数据的方法,且对于大样本来说是最合适的,但它有一个限制条件:它需要包含所有缺失变量的联合概率的模型。因此比较适合于线性模型和对数线性模型。

  1. 当缺失数据是MAR时,可以简单地通过加总所有缺失数据可能值的一般似然来获得似然,原来的问题就变成了寻找尽可能使这个似然值最大化的参数值。
  2. 当缺失数据服从某一单调形态时,可以将似然因子化运用到用传统软件估计的条件式及边际分布中,但是这一方法不容易得到好的标准误及检验统计量的估计值。
  3. 一般缺失数据模式可用“期望最大化(EM)”的算法来处理,其优点有:容易使用且在很多商业的或免费的软件中都可以执行,缺点为:由线性模型化所报告的软件标准误和检验统计量并不正确,且对于过度识别模型,估计值不是全然有效的。

不可忽略的缺失数据

编辑

任何有关不可忽略的缺失数据的方法都应伴随一个敏感度分析,因为根据假设的模型,结果可能变化很大,故试验一貌似有理范围的模型并看它们是否产生相同的结果是很重要的。

參考文獻

编辑
  1. ^ Messner, S. F. Exploring the Consequences of Erratic Data Reporting for Cross-National Research on Homicide. Journal of Quantitative Criminology. 1992, 8 (2): 155–173. S2CID 133325281. doi:10.1007/bf01066742 (英语). 
  2. ^ Hand, David J.; Adèr, Herman J.; Mellenbergh, Gideon J. Advising on Research Methods: A Consultant's Companion. Johannes van Kessel. 2008: 305–332. ISBN 978-90-79418-01-5 (英语). 
  3. ^ Allison, Paul D. Missing Data. SAGE Publications. 2001. ISBN 9780761916727 (英语). 
  4. ^ 缺失資料在因素分析上的處理方法之研究 (PDF). 缺失資料在因素分析上的處理方法之研究. [2022-09-26]. (原始内容存档 (PDF)于2022-09-26). 
  5. ^ Rubin, Donald B. Multiple Imputation for Nonresponse in Surveys. Wiley Series in Probability and Statistics. Wiley. 1987. ISBN 9780471087052. doi:10.1002/9780470316696 (英语). 
  6. ^ van Buuren, S. Flexible Imputation of Missing Data 2nd. CRC Press. 2018 (英语). 
  7. ^ van Ginkel, Joost R.; Linting, Marielle; Rippe, Ralph C. A.; van der Voort, Anja. Rebutting Existing Misconceptions About Multiple Imputation as a Method for Handling Missing Data. Journal of Personality Assessment. 2020, 102 (3): 297–308. PMID 30657714. S2CID 58580667. doi:10.1080/00223891.2018.1530680. hdl:1887/138825 (英语). 

📚 Artikel Terkait di Wikipedia

Pandas

(原始内容存档于2024-04-21).  Intro to data structures — Data alignment and arithmetic. [2023-12-22]. (原始内容存档于2022-09-01).  Working with missing data. [2023-12-22]. (原始内容存档于2024-05-16)

马来西亚航空370号班机空难

Crash: Malaysia B772 over Gulf of Thailand on Mar 8th 2014, aircraft missing, data indicate flight MH-370 ended west of Australia. The Aviation Herald

COBOL

SYSPUNCH DD STATEMENT MISSING 19.52.48 JOB 3 IEC130I SYSLIB DD STATEMENT MISSING 19.52.48 JOB 3 IEC130I SYSPUNCH DD STATEMENT MISSING 19.52.48 JOB 3 IEFACTRT

低钠饮食

Marcus, Adam. Heart pulls sodium meta-analysis over duplicated, and now missing, data. Retraction Watch. 2 May 2013 [2013-09-29]. (原始内容存档于2023-05-10).  NIH

埃及航空804号班机空难

Oil Slick from Missing EgyptAir Plane. 欧洲航天局. [2016-05-20]. (原始内容存档于2019-06-15).  EgyptAir: Submarine searches for missing flight data recorders. BBC

伊朗戰爭 (2026年)

星島日報. 2026-04-04 [2026-04-04] (中文(香港)).  US Forces have rescued missing crew member of F-15E jet downed by Iran in daring mission, intense fighting

IT狗

20:30 夫妻的世界 特務阿珠媽 教場 法外搜查 P牌女議員 愛麗斯時空旅人 回到18歲 延遲的正義 The Penthouse 上流戰爭 日與夜 Missing:他們存在過 哲仁王后 21:30 如實陳述 太平紋身店# 戰毒 上司實習生 無限斜棟有限公司# 優雅的朋友們 大叔的愛# 逆轉時機 超感應學園#

菜鳥伙房兵

[2026-05-13] (韩语).  GoodData(英语:GoodData). 2026年5月第1週韓國電視-OTT原創節目熱門話題影響力TOP10. 2026-05-13 [2026-05-18] –通过Instagram.  GoodData(英语:GoodData). 2026年5月第2週韓國電視-OTT原創節目熱門話題影響力TOP10