我做了很多统计工作,并使用Python作为我的主要语言。 我使用的一些数据集可能需要20GB的内存,这使得在numpy,scipy和PyIMSL中使用内存中的函数几乎不可能。 统计分析语言SAS在这方面具有很大的优势,它可以对硬盘数据进行操作,而不是严格按照内存处理。 但是,我想避免在SAS中编写大量代码(出于各种原因),因此我正试图确定我有哪些Python选项(除了购买更多的硬件和内存)。 我应该澄清,像map-reduce这样的方法在我的大部分工作中都没有帮助,因为我需要对整套数据进行操作(例如计算分位数或拟合逻辑回归模型)。 最近我开始玩h5py,并认为这是我发现允许Python像SAS一样操作并通过磁盘(通过hdf5文件)操作数据的最佳select,同时仍然可以利用numpy / scipy / matplotlib等。想听听有没有人在类似的环境中使用Python和h5py,以及他们发现了什么。 有没有人能够在迄今为止由SAS主导的“大数据”设置中使用Python? 编辑:购买更多的硬件/内存当然可以提供帮助,但从IT的angular度来看,我很难将Python卖给需要分析庞大数据集的组织,当Python(或R或MATLAB等)需要将数据保存在内存。 SAS在这里仍然有很强的卖点,因为虽然基于磁盘的分析可能会比较慢,但您可以自信地处理大量的数据集。 所以,我希望Stackoverflower能够帮助我找出如何减less使用Python作为主要的大数据分析语言的感知风险。
运行诸如PROC REG或PROC GLM类的复杂过程,除了使用OUT或OUTPUT选项生成的输出数据集之外,还经常在输出窗口中生成描述回归结果的表格。 我怎样才能将这些表格输出到SAS数据集? 例如,给定PROC REG中的第一个SAS示例(在文档页面上 ),如何输出适合度统计的优点(例如R平方)?
我在这里是新来的,在R我是初学者。我在Windows7上使用最新的R 3.0.1。 我仍然在学习如何将SAS代码翻译成R,并得到警告。 我需要明白我犯的错误。 我想做的是创造一个总结和区分一个人口的大陆,海外,外国人的变数。 我有一个数据库与2个variables: id国籍: idnat (法语,外国人), 如果idnat是法语的话: id出生地: idbp (大陆,殖民地,海外) 我想将idnat和idbp的信息idbp到一个名为idnat2的新variables中: 状态:k(大陆,海外,外国人) 所有这些variables都使用“字符types”。 列idnat2中的预期结果: idnat idbp idnat2 1 french mainland mainland 2 french colony overseas 3 french overseas overseas 4 foreign foreign foreign 这是我想要在R中翻译的SAS代码: if idnat = "french" then do; if idbp in ("overseas","colony") then idnat2 = "overseas"; else idnat2 = "mainland"; […]