我们已经更新了隐私政策为了更清楚我们如何使用您的个人数据。

我们使用cookie为您提供更好的体验。你可以阅读我们的饼干政策这里。

广告

采用本体论来创建更公平的科学数据的十个指南

学分:Pixabay

在一个上一篇文章,我研究了本体论如何通过熟悉数据来帮助解决一些生命科学的大数据挑战,从而使其可找到,易于访问,可互操作和可重复使用。本体(人类生成的机器可读模型)的本体论可以帮助使数据从创建点开始公平和可用。这减少了科学家花费在寻找信息,避免重复的实验工作的时间,并使数据“机器准备”为AI和机器学习项目供电。

但是,决定将本体论实施到您的数据管理实践中可能令人生畏。由于投资回报率通常不是立即的,因此这也可能很难向业务利益相关者出售。在本文中,我概述了挑战,并提供了10个指南,以启动您的本体旅程。

商业,文化和科学挑战

实施任何本体论是一项专业任务。成功这样做需要从许多来源整理的数据才能始终如一地格式化,结构化和协调。在任何数据繁多的字段中,这都是一个挑战。但是在生命科学中,这一挑战尤其严重 - 数据源包括已发表的文献,实验数据以及患者和临床记录,其中包含图形和表格,生物医学图像,社交媒体数据和语音记录。

生命科学组织还必须考虑业务和监管要求。公司希望确保任何本体学都符合严格的治理流程,并具有强大的版本控制以提供可见的审计跟踪,同时还需要一个足够敏捷的系统以轻松进行更改。建立一个可以同时允许这些灵活性和控制水平的本体网络是困难且耗时的。

此外,通过允许整个企业中的一系列用户为其发展做出贡献,对本体论的需求越来越大。这扩大了为本体论提供的知识池,因此它更准确并反映了用户的需求。但是,这需要改变文化心态- 不再是“这是我的实验室和我的数据”;而是“这是公司的数据及其公平”。

最终,最重要的挑战是证明对利益相关者的本体和公平项目的价值。与任何大规模,复杂的项目一样,ROI是中等到较长的任期,本体论项目在短期内可能面临风险。因此,为了最大化您的本体学项目的成功,这是要牢记的10件事:


1。 发现已经到位的

在计划新项目之前,数据团队应确定其组织内已经使用了哪些本体论 - 是在内部创建的公共本体或定制术语。在现有工作的基础上加速了进步,并为利益相关者提供了早期的胜利。

  1. 重建,再利用,回收

    生命科学本体的工作已经进行了数十年,这意味着有一个现有的开源框架可以借鉴。公共本体论,例如来自NIH是一个很棒的起点。将已经可用的内容作为您自己的本体论的基础是实现切实进步的一种简单方法。

    1. 找到你的公平冠军

      我认识的最成功的公司是那些拥有“公平冠军”的人,他们了解上面讨论的挑战。公平的冠军不必是语义或数据科学方面的专家,他们必须顽强,致力于该项目,并能够使利益相关者围绕目标和里程碑。

      4。创建URI策略


      统一资源标识符(URI)应在任何本体论之旅开始时建立。URI提供了一种在网络上找到和检索资源的方法 - 类似于Web地址URL。乌里斯(Uris)一旦到位,就很难改变,因为它们为实体表示独特的ID。从一开始,一种常见的URI策略减少了错误的机会,并增加了整个业务的标准化。

      1. 谨慎地图

        映射本体是一项耗时且无休止的任务,随着本体论的理解,本体论的不断发展的目标是发展的。尝试通过限制每个域的少数本体(理想的是一个!),而不会引入或创建一个新的本体,在该区域已使用或创建新的本体中,请尝试限制可能的映射。

        6。简化您的本体选择

        最小化所使用的本体数量会减轻必须保持同步或绘制它们之间的负担。选择公共本体进一步简化了公共和私人数据的集成。例如,如果您的领域是疾病,则可以使用蒙多病本体减少工作量。

        1. 从小开始迭代

          您无法一次解决所有数据。看到回报花费的时间太长了,此外,这可能是不可能的。从一个用例开始时间 - 原型观察什么有效,并使用这些学习来迭代。数据输入项目(例如测定注册)是一个很好的起点,因为它们已经具有特定的结构。从输入自由文本到从您选择的域本体论中的分析列表中进行选择,这可能是一个简单的交换。这使数据从一开始就公平;标准列表确保信息始终记录,可互操作并促进未来的重复使用。

          1. 不要让问题的规模使您失望

            在开始一个本体学项目之前,组织不需要整个策略的模型。如前所述,迭代成功是关键。例如,整合条款列表并将其集中上载在人们可以贡献的地方,或者从您知道已经具有相对良好的数据管理的区域开始,可以构建可以快速显示价值。

            1. 找到业务价值

              任何数据管理承诺的挑战之一是业务价值是中长期的。为了赢得资金并确保项目向前发展,请找到短期影响并将其与业务成果联系起来。例如,证明将本体论应用于生物测定创建已经减少了搜索数据的时间x小时数。或表明使用本体学使重复使用以前被孤立的有价值的数据集成为可能。切实的结果必须尽早与商业领导者分享。

              1. 授权主题专家

                赋予和信任您的主题专家至关重要。这包括您的数据科学家和您的领域专家,他们可以为您提供适当发展本体的领域的关系和知识。给他们正确的工具来完成这项工作,并为交付的现实时间范围。


                推动未来的创新

                在数据管理中使用本体学是推动未来创新的基础。变革型生命科学领导者正在花费时间和资源来嵌入强大的数据实践。他们知道,当科学家能够有效利用正在生产的数据时,新发现的途径就会加速。错误的开始,死胡同或在错误的轨道上比他们需要的更普遍。这可能令人沮丧和沮丧。

                缩短药物发现生命周期不仅在股东比利时罗马尼亚比分直播价值和对患者的利益方面都有价值,还将提高团队生产率。当科学家确信自己追求的道路最终将取得成功或“快速失败”时,他们就会更加参与。有了正确的策略和专业知识,组织可以使用本体来确保它们处于新突破的最前沿。

                广告