是否有人对与自定义报表编写相关的数据分析工作流有任何见解?用例基本上是这样的:
客户委托使用数据分析的报告,例如人口估计和水区的相关地图。
分析员下载一些数据,修改数据并保存结果(例如,为每个单位的人口添加一列,或者根据地区边界对数据进行子集)。
分析师分析(2)中创建的数据,接近她的目标,但是看到需要更多的数据,所以回到(1)。
清洗重复,直到表格和图形满足 QA/QC 和满足客户。
编写包含表格和图形的报告。
明年,快乐的客户回来了,想要一个更新。这应该是一样简单的更新上游数据通过一个新的下载(例如获得建设许可从去年) ,并按一个“重新计算”按钮,除非规格变化。
目前,我只是启动一个目录,然后尽可能地对其进行特别处理。我想要一个更系统的方法,所以我希望有人已经解决了这个问题... 我使用了电子表格,SQL,ARCGIS,R 和 Unix 工具的混合。
谢谢!
附注:
下面是一个基本的 Makefile,它检查对各种中间数据集(w/.RData
后缀)和脚本(.R
后缀)的依赖性。Make 使用时间戳来检查依赖项,因此如果使用 touch ss07por.csv
,它将看到这个文件比依赖于它的所有文件/目标都要新,并执行给定的脚本以相应地更新它们。这仍然是一个正在进行的工作,包括一个放入 SQL 数据库的步骤,以及一个像 sweave 这样的模板语言的步骤。请注意,Make 依赖于其语法中的制表符,因此在剪切和粘贴之前请阅读手册。享受并给予反馈!
Http://www.gnu.org/software/make/manual/html_node/index.html#top
R=/home/wsprague/R-2.9.2/bin/R persondata.RData : ImportData.R ../../DATA/ss07por.csv Functions.R $R --slave -f ImportData.R persondata.Munged.RData : MungeData.R persondata.RData Functions.R $R --slave -f MungeData.R report.txt: TabulateAndGraph.R persondata.Munged.RData Functions.R $R --slave -f TabulateAndGraph.R > report.txt