Tag: 缺失数据

报告data.frame中缺失值的优雅方式: 这是我写的一段代码，用于从数据框中报告具有缺失值的variables。我试图想到一个更优雅的方式来做到这一点，可能会返回一个data.frame，但我卡住了： for (Var in names(airquality)) { missing <- sum(is.na(airquality[,Var])) if (missing > 0) { print(c(Var,missing)) } } 编辑：我正在处理与数十到数百个variables的data.frames，所以关键是我们只报告缺less值的variables。

如何在缺失（NA）值的情况下在R中构build随机森林？: 我想适应一个随机的森林模型，但是当我打电话 library(randomForest) cars$speed[1] <- NA # to simulate missing value model <- randomForest(speed ~., data=cars) 我得到以下错误 Error in na.fail.default(list(speed = c(NA, 4, 7, 7, 8, 9, 10, 10, 10, : missing values in object

插入缺失date/时间的行: 我是R新手，但已经转向它来解决我正在尝试处理的大型数据集的问题。目前我有4列的数据（Y值）设置对分钟间隔时间戳（月/日/年小时：分钟）（X值）如下： timestamp tr tt sr st 1 9/1/01 0:00 1.018269e+02 -312.8622 -1959.393 4959.828 2 9/1/01 0:01 1.023567e+02 -313.0002 -1957.755 4958.935 3 9/1/01 0:02 1.018857e+02 -313.9406 -1956.799 4959.938 4 9/1/01 0:03 1.025463e+02 -310.9261 -1957.347 4961.095 5 9/1/01 0:04 1.010228e+02 -311.5469 -1957.786 4959.078 我遇到的问题是缺less一些时间戳值 – 例如，9/1/01 0:13和9/1/01 0:27之间可能有差距，并通过数据集这种差距是不规则的。我需要将这些系列中的几个放到同一个数据库中，并且因为每个系列的缺失值不同，所以date目前不在每一行上alignment。我想为这些缺less的时间戳生成行，并填充空白值（没有数据，不是零）的Y列，以便我有一个连续的时间序列。我真的不太确定从哪里开始（在我学习之前，并没有真正使用过R），但是任何帮助都是值得赞赏的。我迄今为止安装了chron和动物园，因为它似乎可能是有用的。谢谢！

从vector中删除NA值: 如何从vector中删除NA值？我有一个巨大的向量，有一些NA值，我试图find该向量中的最大值（vector是所有数字），但我不能这样做，因为NA值。如何删除NA值，以便我可以计算最大值？

读取多个文件并根据用户input计算平均值: 我想在R中写一个函数，它需要3个input：目录污染物 ID 我的电脑上有一个目录，里面装满了CSV文件，比如300多个。这个函数的function如下： pollutantmean <- function(directory, pollutant, id = 1:332) { ## 'directory' is a character vector of length 1 indicating ## the location of the CSV files ## 'pollutant' is a character vector of length 1 indicating ## the name of the pollutant for which we will calculate the ## mean; either […]