文章

良好的对话如何从数据压缩中受益

发布：2021年6月30日

|罗伯特·荷兰（Robert Holland），伦敦帝国学院的博士候选人

文章

良好的对话如何从数据压缩中受益

发布：2021年6月30日

|罗伯特·荷兰（Robert Holland），伦敦帝国学院的博士候选人

学分：摄影作者：Etienne Boulanger在Unsplash上

阅读时间：

想要本文的免费PDF版本吗？

填写下面的表格，我们将向您发送PDF版本的电子邮件“良好的对话如何从数据压缩中受益”

名*

姓*

电子邮件地址*

国家*

公司类型*

工作职能*

您想从技术网络接收进一步的电子邮件通信吗？捷克葡萄牙直播

捷克葡萄牙直播技术网络有限公司需要您提供给我们的联系信息，以与您联系有关我们的产品和服务。您可以随时退订这些通信。有关如何取消订阅以及我们的隐私惯例和保护隐私的承诺的信息，请查看我们隐私政策

什么是降低尺寸？

“大数据”对您意味着什么？对于大多数人来说，它是指庞大的数据集，其中包括数百万个数据点。它已成为我们基于技术文化的基本组成部分。到目前为止，已经将一张惊人的500亿张照片上传到Instagram，并向Facebook上传到2500亿。我们习惯于听到机器学习如何利用这些日益大的数据集来分析趋势并产生新颖的见解。但是，“大数据”中的“大”也可以指数据点本身。

智能手机现在正在使用4K相机。这些分辨率为3840 x 2160，每张图像的800万像素或24mb的文件大小为24位精度。单个医疗图像可能更大。典型的3D MRI扫描可能的分辨率为512 x 512 x 128，导致使用128MB的内存（32位精度）存储的3,300万素（3D像素）。医生是否真的从一次扫描中得出了3300万个结论？

最终，这取决于我们对哪种结论感兴趣。可以写下此信息，而无需3,300万变量。需要改进检测到更高分辨率的图像，但是它们所包含的相关符号信息的量仍然相对较小。

对话如何进行？

想象一下，您将梦想中的房子描述给朋友。

“它在海边的悬崖上，用红砖，两层，烟囱和巨大的窗户制成。”

对话是降低维度的：

自动编码器由编码器组成，e将输入X映射到较低的尺寸Z。然后将其解码为D以给出X ̂。通常E和D是受过训练的神经网络，因此X ̂尽可能匹配X（在某些预定义的“亲密”定义下）。

在这里，语音是用于信息传输的低带宽介质。您被迫在脑海中压缩或编码房屋，然后被听众解码。希望他们创建的图像类似于您设想的原始图像。您的话传达了您想说的话的本质。

在这种降低维度的情况下，我们假设世界及其所有复杂性可以用文字充分捕获。显然，对于作家的挫败感，我们永远无法以这种方式完全描述世界。我们总是在此过程中失去一些细微差别，并且永远无法保证每次阅读时，我们的言语都会以相同的方式解释。没有两个阅读本文的人会想象同一所房子。优秀的演说家和作家分享的技能是最大程度地利用给定单词传达的相关信息。

但是，在最大程度地减少压缩格式的大小的同时，保持了我们关心的信息之间的权衡。任何降低维度降低，重建或去核技术，无论是线性回归，原理组件分析还是自动编码器，都会行走。诸如JPEG和MP3之类的有损压缩格式以相同的原理运行。

那么，为什么不完全绕过对话呢？为什么要完全压缩概念？

压缩的好处在过程本身中与最终结果一样。回想一下，对自动编码器进行了培训以重建数据。这似乎是一项毫无意义的任务。复制您已经拥有的东西有什么用？关键是在存在信息瓶颈的情况下，对于人类的交流通常是言语，手势和肢体语言。

您是否曾经通过向其他人解释一个想法更好地理解一个想法？如果我们将其分解，这里发生了两件事。多余的细节被剥夺，以最简单的形式揭示了该概念，同时重新组织了更容易理解。在机器学习中，前者被称为denoing，后者被称为解散¹。发现两者都是自动编码器的固有属性²和熟练的对话主义者。从本质上讲，通过尝试使其他人更容易理解的尝试在您自己的脑海中变得更加明显。

并非每个工程师都喜欢对话，这已经不是什么秘密了。有些人到达埃隆·马斯克（Elon Musk），试图解决“ 数据速率问题 ”人类交流。Musk的公司Neuralink正在开发通过将思维与机器联系起来的方式绕开语音的方式，从而增加了人类交流的带宽。

从理论上讲，这听起来很棒，直到我们自己体验到它之前，我们将永远不会知道所有的好处和后果。想象一下，就像他们一样，了解别人的思想和感觉。这种亲密的联系可能会帮助我们看到过去的表面差异。但是，我们可能会失去对话所带来的思想的结构化？

而且，如果我们不能组织和解释自己的思想和感受，那么我们如何期望被别人理解或确实理解。我们应该接受我们永远无法真正了解彼此的想法吗？

如果你明白我的意思。

参考：

1. Bengio Y，Courville A，Vincent P.代表学习：评论和新观点。Arxiv：12065538 [CS]。http://arxiv.org/abs/1206.55382014年4月23日在线发布。访问于2021年6月30日。

2. Rolinek M，Zietlow D，Martius G.变形自动编码器追求PCA指示（偶然）。 ARXIV：181206775 [CS，Stat] 。 http://arxiv.org/abs/1812.06775 2019年4月16日在线发布。访问于2021年6月30日。