文章

什么是本体论，它们如何为生命科学创造更公平的未来？

出版：2022年7月29日

| 简·洛马克斯（Jane Lomax）博士，Scibite - Elsevier Company

文章

什么是本体论，它们如何为生命科学创造更公平的未来？

出版：2022年7月29日

| 简·洛马克斯（Jane Lomax）博士，Scibite - Elsevier Company

学分：Pixabay

阅读时间：

想要本文的免费PDF版本吗？

填写下面的表格，我们将向您发送PDF版本的电子邮件“什么是本体，它们如何为生命科学创造更公平的未来？”

名*

姓*

电子邮件地址*

国家*

公司类型*

工作职能*

您想从技术网络接收进一步的电子邮件通信吗？捷克葡萄牙直播

捷克葡萄牙直播技术网络有限公司需要您提供给我们的联系信息，以与您联系有关我们的产品和服务。您可以随时退订这些通信。有关如何取消订阅以及我们的隐私惯例和保护隐私的承诺的信息，请查看我们隐私政策

想要免费访问此音频文章吗？

填写以下表格以解锁对本音频文章的访问：“什么是本体，它们如何为生命科学创造更公平的未来？”

近年来，当我们进入利基 - 暴力药比利时罗马尼亚比分直播物的年龄（即针对服务不足的疾病亚种群）和个性化医学时，药物发现已为有针对性的精确疗法制定了新的方案。像这样的倡议100,000个基因组项目和精密医学倡议对有针对性的方法如何提高患者的结果以及提高我们对人类生物学的整体理解，从而令人兴奋地了解。同时，这些项目强调了精密医学的成功将取决于能够利用大量数据和各种数据的公司，包括已发表的文献，专有和实验数据，以及患者和医疗保健记录。

人工智能（AI）为生命科学公司提供了一种从复杂和各种数据中提取知识的有吸引力的选择，许多人正在探索技术如何加速其研究计划。但是有一个重要的警告 - 很多今天可用的数据中根本没有准备就绪。数据被孤立并以多种格式存储，元数据不足，因此很难检索，分析和共享。这意味着许多是如果数据馈送AI模型不是高质量，可信赖的和机器可读的，则设置自己的故障。因此，AI的关键先决条件是使数据公平（可找到，可访问，可互操作，可重复使用）。这是本体论进入图片的地方。

什么是本体论？

本体是人类生成的，可读的知识描述，并且可以成为使数据公平的大数据挑战中的关键工具。但是，除了专家界之外，对科学和商业价值的本体论所能带来的，甚至意识到它们的存在，这可能会阻碍数据项目的成功。

从广义上讲，本体论描述了事物的“类型”（也称为阶级）及其之间的关系。例如，“鸡蛋”是一种“食物”。然后，我们可能会根据如何制成鸡蛋的方式来制作亚型 - 例如炸，炒，偷猎。这些类可能具有文本定义，人类可以用来了解课程所包含的内容，以及与其他类的同义词和关系。例如，“母鸡蛋”源自“母鸡”。同义词对于理解可以表示由本体论代表的事物的不同方式可以用来表示。在生命科学中，一个例子是指代基因的不同方法，例如PSEN1，也可以PSNL1要么Presenilin-1。

本体论努力成为社区共识的观点，该领域正在不断发展，并随着我们对世界的最新理解而更新。生物医学领域中存在的许多本体论已由社区公开可用和维护，例如人类表型本体论（HPO）或基因本体论（GO）。因此，如果是一个新的同义词PSEN1被确定，该领域的专家 - 遗传学家 - 更新本体论以纳入它。在生命科学的背景下，领域的专业知识是必不可少的，因为人类生物学比我们的鸡蛋类比要复杂得多。生物医学本体论将为跨药物发现和分娩的算法提供动力，这将为诊断或患者应接受的药物做出重要决定，因此至关重要。比利时罗马尼亚比分直播

本体学如何公平克服大数据挑战？

生命科学公司目前面临着一个两管齐的挑战：阐明其旧数据并确保生成的新数据也很公平。使用特定领域的本体策划数据有助于通过以勾选公平框来构造数据来克服这些挑战。

非结构化的遗产数据既构成了组织的持续成本，又是错失的机会。浪费了很多时间来搜索并清洁数据以进行重复使用。这种生产力损失反过来减慢了市场和投资回报率。此外，当信息没有注释和组织时，潜在有价值的科学见解仍然被掩盖。如果可以使用元数据，则可能并不总是一致的 -通常缺乏在组织中应用的标准或共同术语。这样可以防止科学家轻松发现，集成和重复数据。

加剧了旧数据的挑战，新生成的数据通常也不会以合理的方式捕获。这可能会导致所有研究的85％仅由于缺乏数据标准而被浪费。确保数据“从出生到公平”对于防止它们成为已经与之争夺的大量旧数据的一部分至关重要。例如，输入电子笔记本（ELN）的数据通常是免费的文本，使这些数据集将来很难搜索。一种解决方案可能是智能数据输入，科学家在输入测定信息时会使用以本体论的类型为例，以便在进入点时通过本体进行标准化数据。

本体论提供了具有相关名称和同义词的唯一标识符，这些标识符可以帮助进行科学语言的归一化，有时也称为“事物不是字符串”。使用这些标识符标记数据使搜索和分析科学家更容易，因为它包含包含同义词或相关术语的结果，该本体学认为与搜索查询有关。此外，由于本体论是基于公认的社区模型，因此以广泛理解的方式呈现数据，从而减少了竞争术语的数量。

至关重要的是，本体学确保数据是可读的，可以通过AI和机器学习来协调它们以进行分析。通过在本体论中构建的数据，公司可以确保其算法从信息的全部图景中学习，降低错误的风险并提高结果的准确性。

案例研究：古老的用例使数据与当今有关

有了正确的专业知识，可以将本体论应用于任何旧数据。最近的项目与传统中医（TCM）有关的标记文本为现代生物医学科学家提供了新的资源。TCM的兴趣越来越大，其国内价值预计将上升至1007亿美元到2025年。带有许多拼写，同义词，翻译和符号的文本，以及多种引用相同药物的方法。

研究人员使用其领域专业知识来建立与传统中文和现代英语联系的本体论化合物的名称使研究人员能够了解特定TCM化合物的成分。该本体学使数百种古老的资源公平地公平，并用于为算法提供动力，这些算法将利用来自古代药物。这只是一个证明本体论的例子不仅是提高生产力的一种方式，而且对医学开发具有真正的影响。

为了部署AI，是时候部署本体了

如果您的组织想使用AI来推动精确疗法的突破，那么该开始按顺序获取数据了。这样做不仅会加速研发，而且还将推动商业价值 - 欧盟估计没有公平的数据费用超过€每年102亿。公平的实施释放了数据的长期潜力，从而更快，更详细的分析。对于企业，有很大的生产力提高。对于所有人（患者）最重要的利益相关者而言，在创造新的目标疗法和更好的结果方面发现了新的道路。

本体将是这种转变的核心，脱落，标准化和协调数据源，以将不稳定的文本和图像转换为能为发现的数据。要了解如何启动您的本体项目，请观看此系列第二篇文章的空间。