Tag: 缺失数据

报告data.frame中缺失值的优雅方式

这是我写的一段代码,用于从数据框中报告具有缺失值的variables。 我试图想到一个更优雅的方式来做到这一点,可能会返回一个data.frame,但我卡住了: for (Var in names(airquality)) { missing <- sum(is.na(airquality[,Var])) if (missing > 0) { print(c(Var,missing)) } } 编辑:我正在处理与数十到数百个variables的data.frames,所以关键是我们只报告缺less值的variables。

如何在缺失(NA)值的情况下在R中构build随机森林?

我想适应一个随机的森林模型,但是当我打电话 library(randomForest) cars$speed[1] <- NA # to simulate missing value model <- randomForest(speed ~., data=cars) 我得到以下错误 Error in na.fail.default(list(speed = c(NA, 4, 7, 7, 8, 9, 10, 10, 10, : missing values in object

插入缺失date/时间的行

我是R新手,但已经转向它来解决我正在尝试处理的大型数据集的问题。 目前我有4列的数据(Y值)设置对分钟间隔时间戳(月/日/年小时:分钟)(X值)如下: timestamp tr tt sr st 1 9/1/01 0:00 1.018269e+02 -312.8622 -1959.393 4959.828 2 9/1/01 0:01 1.023567e+02 -313.0002 -1957.755 4958.935 3 9/1/01 0:02 1.018857e+02 -313.9406 -1956.799 4959.938 4 9/1/01 0:03 1.025463e+02 -310.9261 -1957.347 4961.095 5 9/1/01 0:04 1.010228e+02 -311.5469 -1957.786 4959.078 我遇到的问题是缺less一些时间戳值 – 例如,9/1/01 0:13和9/1/01 0:27之间可能有差距,并通过数据集这种差距是不规则的。 我需要将这些系列中的几个放到同一个数据库中,并且因为每个系列的缺失值不同,所以date目前不在每一行上alignment。 我想为这些缺less的时间戳生成行,并填充空白值(没有数据,不是零)的Y列,以便我有一个连续的时间序列。 我真的不太确定从哪里开始(在我学习之前,并没有真正使用过R),但是任何帮助都是值得赞赏的。 我迄今为止安装了chron和动物园,因为它似乎可能是有用的。 谢谢!

从vector中删除NA值

如何从vector中删除NA值? 我有一个巨大的向量,有一些NA值,我试图find该向量中的最大值(vector是所有数字),但我不能这样做,因为NA值。 如何删除NA值,以便我可以计算最大值?

读取多个文件并根据用户input计算平均值

我想在R中写一个函数,它需要3个input: 目录 污染物 ID 我的电脑上有一个目录,里面装满了CSV文件,比如300多个。这个函数的function如下: pollutantmean <- function(directory, pollutant, id = 1:332) { ## 'directory' is a character vector of length 1 indicating ## the location of the CSV files ## 'pollutant' is a character vector of length 1 indicating ## the name of the pollutant for which we will calculate the ## mean; either […]