我们已经更新了隐私政策为了更清楚我们如何使用您的个人数据。

我们使用cookie为您提供更好的体验。你可以阅读我们的饼干政策这里。

广告
组织数据:7个提示和技巧
如何指导

组织数据:7个提示和技巧

组织数据:7个提示和技巧
如何指导

组织数据:7个提示和技巧

收集数据时,大多数人会在单个Excel工作表中输入它们,然后清洁它们并在同一工作表中处理它们。这确实不是一个好主意。如果您选择一列数据并进行查找和替换操作,那么Excel将仅在该列中进行您的要求并替换项目,或者它将在整个工作表中运行?你确定吗?真的,真的确定吗?您需要成为,因为如果Excel做一些与您期望的事情不同的事情,那么您可能会在整个数据集中输入错误。更糟糕的是,Excel的某些操作没有“撤消”,因此纠正您刚刚引入的错误可以迅速引导您进入兔子洞。不,处理数据的方法是进行组织,并使用多个工作表向您的数据处理和清洁介绍按时间顺序排列,这就是我们在这里学习的内容。

收集和存储您的数据


收集数据时,应该将它们存储在一个Excel工作表中。这些数据是您在数据收集中使用的基于纸质表单的副本(如果您在纸上收集了数据)。当它们进入后,应将其命名为“原始数据”,然后应保持不变。当然,这些数据可能包含需要您注意的错误,错别字和其他问题,但是此表是您的起点。在这里,您将使用其他工作表来组织并建立流程的流程。

制作副本 - 清洁数据


从这里,您可以制作“原始数据”的副本,并将其命名为“正在进行的”,您将要清理数据。因此,现在您有两个工作表相同,您可以安全地找到/替换操作而没有输入错误的风险,不是吗?反对!您永远不会在存储数据的工作表中进行数据清洁操作。取而代之的是,您提取要清洁的数据(即单列),清洁并在单独的工作表中处理并处理它,然后一旦确定这些数据完全清洁,就可以将其复制回您的进度工作表中。此过程称为提取转换载荷或简称ETL,并确保您永远不会在数据中引入新的错误。当您对数据完全干净感到满意时,您可以将“正在进行的”工作表重命名为“清洁数据”。

您想把它读为PDF吗?
在这里下载



制作副本 - 进行计算


现在,您有两个工作表,其中包含您的数据在不同的准备阶段 - 一个带有脏数据,另一个带有干净的数据。当您移至下一阶段时,您会创建“清洁数据”工作表的副本,并将其命名为“计算数据”。收集了一些数据,例如出生日期,而其他数据需要计算,例如年龄 - 通常是日期之间的差异。这是您创建,计算和添加这些新数据的地方。您是否明白为什么在对它们进行计算之前清理数据?如果您以相反的方式执行此操作,那么您正在对包含错误的数据进行计算。清洁错误后,您将不得不重新进行计算。

了解您的数据 - 描述性统计数据


因此,现在您有三个工作表,我希望现在您开始了解如何为数据清洁流程引入时间顺序排列。When you discover an error – and you will – you can go back through your worksheets to see when, where and how the errors were introduced, and this gives you an opportunity to improve your data collection, cleaning and processing practices so that you’ll have fewer errors in future. Talking about errors, computing descriptive statistics on each column of data is where you start to get a real understanding of your data and find errors that you didn’t know existed. The descriptive stats you’ll need to compute are different for categorical data and numerical data, but these are the most useful measures:

对于数值列:

计数
  • 所有条目
  • 所有积极的条目
  • 所有负面条目
  • 所有的条目为零
  • 所有的空细胞
  • 最小值
  • 最大值


对于分类列:

计数

  • 所有条目
  • 每个类别中的所有条目
  • 所有的空细胞


检查这些结果将突出显示数据中最明显的错误。例如,是否存在负数或零的年龄?不应该有。条目数量正确吗?有缺少的数据点吗?最小值和最大值是否明智?如果您使用Excel,请学习如何使用公式计数,最小值,最大值和平均值的数值条目。对于分类条目,Countif可以告诉您您在变量中有多少个类别的条目。对于空单元,CountBlank是一个非常有用的公式。每当您发现错误时,都会通过工作表追踪它,直到到达错误源为止。 I guarantee you’ll feel a flush of satisfaction when you realize that your new-found data organizational skills have just saved you!

保留“代码”表


一些统计程序不接受文本数据,因此有时将分类数据作为整数[1、2、3]而不是[小,中,大]很有用。因此,如果您将类别编码为整数,您会记得它们所表示的吗?您不需要记住,这就是为什么我们保留代码表的原因。您需要记住,您可能不是唯一使用这些数据的人。您希望那些追随您的人对您说的好话,而不是对自己的混乱感到抱怨,因此请记下代码不仅对您有帮助,而且还可以帮助他人。而且,也不要忘记记下此表中的测量单元!

保留“笔记”表


在您的项目期间,您将做出很多决定,在某个时候,您需要向其他人描述和解释。保留笔记表可以记录有关学习的所有内容。There’s nothing wrong with writing notes in your lab book, but if someone else needs access to your data you’re unlikely to hand this over to someone else or make a photocopy of it, so I recommend that you keep notes in a separate worksheet – that way your notes will remain with your data. If, at some point later, you need to hand your dataset over to a statistician for analysis, you’ll be glad you kept a notes sheet – it will save you hours of explanations!

业力银行


如果您的数据是从部门数据库中提取的,则最好将所有错误报告回原始来源。不过,您不仅对他人有好处 - 您对自己有好处。可能在将来的某个时候您需要再次提取相同或相似的数据。只有这次,您不必浪费时间清洁以前清洁错误。


概括


Identifying errors and cleaning data might not be your idea of a good time (trust me, it’s not mine either), but if you get yourself organized and learn a few simple, repeatable processes, your time spent cleaning and preparing your data for analysis can be shorter – and less painful – than you expect. Learning – even before you’ve begun collecting data – how to set up your Excel workbook to utilize multiple worksheets and introduce “flow” into your data will help you reach the story of your data much quicker, and that usually goes down well with the boss!
认识作者
广告