我们已经更新了我们的隐私政策要更清楚,我们如何使用您的个人数据。

我们使用cookie为您提供更好的体验。你可以读我们的Cookie政策这里。

广告
组织您的数据:7个提示和技巧
如何指导

组织您的数据:7个提示和技巧

组织您的数据:7个提示和技巧
如何指导

组织您的数据:7个提示和技巧

收集数据时,大多数人在单个Excel工作表中输入它们,然后清理它们并在同一工作表中处理它们。这真的不是一个非常好的主意。如果选择单个数据列并进行查找和替换操作,则Excel会执行您在该列中申请和替换物品,或者它会在整个工作表中运行吗?你确定吗?真的,真的肯定吗?您需要是,因为如果Excel与您希望在整个数据集中输入错误的东西。更糟糕的是,一些Excel的运营没有“撤消”,因此纠正您刚才引入的错误可以快速引导您沿着兔子洞。不,处理数据的方法是组织的,并使用多个工作表来引入时间顺序流到数据处理和清洁,这就是我们将在这里学习的。

收集并存储您的数据


收集数据时,应将它们存储在一个Excel工作表中。这些数据是您在数据收集中使用的纸质形式的副本(如果您在纸上收集数据)。当他们输入时,此表应命名为“原始数据”,然后应保持未缓解。当然,这些数据可能包含错误,拼写错误和其他需要注意的问题,但此表是您的起点。从这里,您将使用其他工作表进行组织并建立进程中的流程。

制作副本 - 清洁数据


从这里开始副本“原始数据”,并将其命名为“正在进行中”,在那里您将要清洁您的数据。所以现在你有两个相同的工作表,你可以安全地找到/替换操作而没有进入错误的风险,不是吗?Au对比!您永远不会在存储数据的工作表中进行数据清理操作。相反,您提取要清除的数据(即单个列),在单独的工作表中清除和处理它,然后一旦您确定这些数据完全清洁,您将其复制回您的进度工作表。此过程称为提取 - 变换负载,或短暂的ETL,并确保您从未将新错误引入您的数据。当您对您的数据完美干净时,您可以将“正在进行”的工作表重命名为“清洁数据”。

你更喜欢把它读为pdf吗?
在这里下载



制作副本 - 执行计算


现在,您有两个工作表,包含在准备的不同阶段的数据 - 一个带有脏数据的数据,另一个具有清洁数据。当您移动到下一阶段时,您可以创建“清洁数据”工作表的副本,并将其命名为“计算数据”。一些数据是收集的,如出生日期,而其他需要计算,例如年龄 - 通常是日期之间的区别。以下是您在这些新数据中创建,计算和添加的位置。在对它们进行计算之前,您是否明白为您清洁数据?如果您以另一种方式执行此操作,则您正在计算包​​含错误的数据。一旦您清理了错误,您将必须再次完成计算。

了解您的数据 - 描述性统计数据


所以现在你有三个工作表,我希望现在你开始了解你如何为数据清洁过程引入时间顺序流程。When you discover an error – and you will – you can go back through your worksheets to see when, where and how the errors were introduced, and this gives you an opportunity to improve your data collection, cleaning and processing practices so that you’ll have fewer errors in future. Talking about errors, computing descriptive statistics on each column of data is where you start to get a real understanding of your data and find errors that you didn’t know existed. The descriptive stats you’ll need to compute are different for categorical data and numerical data, but these are the most useful measures:

对于数字列:

罪行
  • 所有条目
  • 所有的积极参赛作品
  • 所有的否定条目
  • 所有零的条目
  • 所有空细胞
  • 最小值
  • 最大值


对于分类列:

罪行

  • 所有条目
  • 每个类别中的所有条目
  • 所有空细胞


通过这些结果检查将突出显示数据中最明显的错误。例如,有阴性或零的年龄?不应该有任何。正确执行条目数量吗?有没有缺少的数据点?是最小和最大值的最大值吗?如果您正在使用Excel,请了解如何使用商用条目的公式计数,min,max和平均值。对于分类条目,Countif可以告诉您变量中每个类别的条目有多少。对于空细胞,CountBlank是用于使用的非常有用的公式。每当您发现错误时,将通过工作表追溯,直到达到错误源。 I guarantee you’ll feel a flush of satisfaction when you realize that your new-found data organizational skills have just saved you!

保持“代码”纸


一些统计程序不接受文本数据,因此有时可以将分类数据存储为整数[1,2,3]而不是[小,中,大]。因此,如果您已将类别编码为整数,您会记住它们表示的内容吗?你不应该记住,这就是我们保留代码表的原因。您需要记住,您可能不是唯一使用这些数据的人。你想要那些跟你来说有关于你的好东西,而不是呻吟你的诅咒,所以保留一个代码的说明不仅可以帮助你,但它也有助于他人。并且别忘了在这张纸上保持测量单位的注意事项!

保留“笔记”表


在项目期间,您将提出很多决策,并且在某些时候,您需要描述并向别人解释它们。保留笔记表允许您记录关于您的学习的一切。There’s nothing wrong with writing notes in your lab book, but if someone else needs access to your data you’re unlikely to hand this over to someone else or make a photocopy of it, so I recommend that you keep notes in a separate worksheet – that way your notes will remain with your data. If, at some point later, you need to hand your dataset over to a statistician for analysis, you’ll be glad you kept a notes sheet – it will save you hours of explanations!

业力银行业


如果从部门数据库中提取数据,则良好的做法是将所有错误返回到原始源。然而,你不仅对别人善良,你对自己很好。可能是在未来的某些时候,您需要再次提取相同或相似的数据。只有这段时间,你不必浪费时间清洁错误你之前已经清洁过的。


概括


Identifying errors and cleaning data might not be your idea of a good time (trust me, it’s not mine either), but if you get yourself organized and learn a few simple, repeatable processes, your time spent cleaning and preparing your data for analysis can be shorter – and less painful – than you expect. Learning – even before you’ve begun collecting data – how to set up your Excel workbook to utilize multiple worksheets and introduce “flow” into your data will help you reach the story of your data much quicker, and that usually goes down well with the boss!
遇见作者
广告