我有一些非常大的分隔数据文件, 我只想处理R中的某些列,而不需要花费时间和内存为整个文件创build一个data.frame 。 我所知道的唯一select是read.table ,当我只想要几列或者scan ,这太浪费了。 有没有更好的select,无论是纯R或可能呼吁其他shell脚本进行列提取,然后使用扫描或read.table输出? (这导致了如何调用shell脚本并在R中捕获其输出的问题)。
我正在尝试从github读取一个CSV到R: latent.growth.data <- read.csv("https://github.com/aronlindberg/latent_growth_classes/blob/master/LGC_data.csv") 但是,这给了我: Error in file(file, "rt") : cannot open the connection In addition: Warning message: In file(file, "rt") : unsupported URL scheme 我试过了?read.csv , ?download.file , getURL (它只返回奇怪的HTML),还有数据导入手册 ,但还是不明白如何使它工作。 我究竟做错了什么?
在我对大型数据存储解决scheme进行研究后,我几乎登上了Cassandra。 但一般来说,Hbase是更好的大规模数据处理和分析解决scheme。 虽然两者都是相同的键/值存储,并且都可以运行(Cassandra最近的)Hadoop层,那么当需要在大数据上进行处理/分析时,Hadoop是一个更好的select。 我也在http://ria101.wordpress.com/2010/02/24/hbase-vs-cassandra-why-we-moved/上find了关于这两方面的很好的细节。 但我仍然在寻找Hbase的具体优势。 虽然我对Cassandra更加确信,因为它增加了节点和无缝复制的简单性以及无故障function。 而且它也保留了二级索引function,所以它是一个很好的补充。
让我们假设我们有一个数据集,可能会给大概 import numpy as np x = np.linspace(0,2*np.pi,100) y = np.sin(x) + np.random.random(100) * 0.2 因此,我们有20%的数据集的变化。 我的第一个想法是使用scipy的UnivariateSpline函数,但问题是这并没有考虑到小噪声的好处。 如果考虑频率,背景比信号小得多,所以只有截止的样条可能是一个想法,但是这涉及到来回傅里叶变换,这可能导致不良行为。 另一种方式是移动平均线,但这也需要正确的延迟select。 任何提示/书籍或链接如何解决这个问题?