旗下产业: A产业/ A实习/ A计划
全国统一咨询热线:010-5367 2995
首页 > 热门文章 > 大数据分析 > 大数据分析在病毒疫苗研究中的应用

大数据分析在病毒疫苗研究中的应用

时间:2020-04-27来源:www.aaa-cg.com.cn点击量:作者:Sissi
时间:2020-04-27点击量:作者:Sissi

  大数据分析在选择病毒疫苗中起着关键作用。现在,这听起来像是科幻小说的摘录。但是实际上,现代大数据分析技术的实际应用可以改善当今的生活。
 

  在大数据分析在病毒疫苗研究中的应用中,我们将为您讲述一个有趣的故事。我们将讨论病毒(非计算机类型),流行性感冒以及第一种疫苗的发明方法。最重要的是,我们将讨论一些用于分析生物学数据的大数据分析技术和工具。此外,我们还将讨论基因组数据的一种基本可视化技术:系统发育树。我们将在预测流行性感冒的变化并为病毒的未来行为建模时看到如何实施树木。到本文结尾,您甚至将学习有关平台的知识,在这里您可以存储和分析基因数据。
 

大数据分析
 

  但是,让我们一次迈出一步。首先,我们将研究一般的病毒及其功能。
 

  病毒疫苗:病毒机制,又称病毒生命周期
 

  什么是病毒?
 

  生物是复杂的系统。我们已经习惯了大型且可见的动物-哺乳动物,鸟类,爬行动物。但是,也有微观的看不见的生物,它们实际上生活在我们中间,或者更确切地说,是在我们内部。小细菌或病毒细胞会渗透到我们的身体,使我们生病。但是,细菌和病毒是两种不同类型的生物。常见的误解是疾病的原因主要是细菌。细菌是一组不同的细胞,但实际上,其中只有1%会引起疾病。其余的完全是无害的。病毒呢?好吧,它们几乎是硬币的另一面(如果那个硬币很不公平),因为几乎所有硬币(大约99%)都会生病。
 

  而且,如果病毒对其他生物如此危险,那么仔细研究它们的功能无疑是有道理的。
 

  病毒如何起作用?
 

  病毒起作用的方式是通过渗透宿主或宿主细胞。然后,它们利用这些细胞在生物体内复制和传播,并且通常会造成各种破坏。从技术上讲,进入细胞之前,病毒被称为病毒体。的确,几乎每个人都使用病毒一词来描述这两个阶段。不过,这是一个有用的事实,您可以在下一次聚会对话有点陈旧时提出。
 

  无论如何,这是所有病毒如何工作的基本机制。但是,您可能已经猜到了,不同的病毒有特定的方式潜入我们的细胞。它们可能因病毒而异。因此,我们将在下几段中看到有关流感如何运作的细节。
 

  流感如何起作用?
 

  您可能在新闻中听说过H3N2或H1N1流感病毒。但是,如果您不是生物学家,您可能想知道这些字母和数字的含义。好吧,H代表血凝素,N代表神经氨酸酶。H和N都是蛋白质,它们都有自己的用途。
 

  H和N表面蛋白-流感生命周期的重要组成部分
 

  H和N蛋白位于病毒表面,在流感的生命周期中起着至关重要的作用。它们有助于宿主细胞(血凝素)的渗透以及随后病毒(神经氨酸酶)在宿主细胞中的复制。
 

大数据分析
 

  现在,这两种蛋白质的结构可能有所不同,因此它们的不同版本可以用数字标识。H3N2是一个例子。它包含H蛋白的第三种变体和N蛋白的第二种变体。实际上,H3N2和H1N1是感染人类的​​两种最常见的流感病毒亚型。因此,让我们看一下它们的流行名称和特征。
 

  香港流感
 

  H3N2,也称为香港流感,于1968年引起大流行,在全球造成超过100万人死亡。尽管不像H1N1病毒那样致命,但它具有极强的传染性,并从亚洲开始,然后通过从越南返回的军队到达美国,迅速在人群中传播。到1969年底,该病毒也已传播到非洲和南美的部分地区。
 

大数据分析
 

  西班牙流感
 

  H1N1病毒造成了2009年的猪流感大流行,以及1918年毁灭性的西班牙流感。造成西班牙流感的特殊H1N1毒株具有极高的致死性,导致全球超过3000万人死亡。然而,高死亡率的原因仍然是个谜。虽然一些科学家建议涉及这种病毒的异常侵袭形式,但另一些科学家则声称感染周围的情况:第一次世界大战期间营地过于拥挤和缺乏无菌环境是造成高死亡人数的原因。
 

  您可能在想:“如果这种病毒如此危险或具有致命性,我们如何保护自己免受病毒侵害?答案是:流感疫苗,通常称为病毒疫苗。所以…
 

  什么是疫苗及其作用?
 

大数据分析
 

  第一种疫苗
 

  爱德华·詹纳(Edward Jenner)于1796年首次引入了成功的疫苗,它是针对天花病毒的。他观察到以前患有另一种疾病(牛痘)的人没有染上天花。因此,如果人们首先感染了牛痘病毒,他们就会对更具致命性的天花产生抵抗力。他的观察帮助创建了第一个成功的疫苗。结果,天花病毒此后在世界范围内被根除。
 

  如今,我们有不同类型的疫苗。它们旨在帮助人体的免疫系统识别并防止病毒复制并引起感染。该过程涉及使用某种形式的弱化病毒,免疫系统可以训练这种弱化病毒进行识别。然后,它可以为其创建特定抗体并将其灭活。
 

  病毒疫苗:它们包含什么


  病毒疫苗由弱毒的H1N1和H3N2毒株组成。当这些物质出现时,我们的生物体就可以开始产生针对病毒H1N1和H3N2细胞的特异性抗体。然后,当真正的病毒进入系统时,我们的免疫系统便准备就绪并可以使其失活。
 

  现在我们已经讨论了病毒疫苗及其包含的内容,让我们看看谁负责疫苗的创建。
 

  病毒疫苗:生产,选择
 

  世卫组织决定包括哪些病毒疫苗。而且,不,这并不是要提问或作为医生参考,它只是世界卫生组织(WHO)的缩写,而且正好是由人们来决定每年将包含哪些病毒疫苗。
 

  但是为什么需要改变呢?
 

  年度病毒疫苗的原因:抗原性漂移和转移
 

  为了回答这个问题,我们首先需要解释病毒进化的两个主要机制:抗原漂移和抗原转移。
 

大数据分析
 

  抗原漂移
 

  想象一下,有一群人,被困在海中的木筏上。随着时间的流逝,木排上的人们会慢慢改变容貌,留出胡须,头发变长,晒黑。本质上,他们仍然是同一个人,但略有变化。这就是抗原漂移的意思,随着时间的推移缓慢变化。
 

  抗原转移
 

  现在,如果那些人混合他们的基因组(没有一个孩子这么称呼)并创造出一个后代,也就是一个孩子,它将包含他们两个特征的混合物。这就是抗原转移或重排的意思:遗传物质的交换和新生物的产生(如此巨大的变化)。在我们的案例中,这是一种新的流感亚型,例如我们之前提到的H3N1或H1N1。
 

  这就回答了我们有关疫苗生产及其每年更换原因的问题。流感快速变化,变异和转化。因此,很难找到一种可以对抗所有可能传播的流感病毒类型的疫苗。
 

  所以,当科学家们决定如何制定疫苗,他们需要选择哪株病毒,以使其最有效的包含。后者取决于疫苗与流感病毒的相似程度,流感病毒将在即将来临的流感季节占主导地位。
 

  预测流感传播–大数据分析
 

  如何预测即将到来的流感病毒类型?
 

  这就是大数据分析发挥作用的地方。基于有关以前和当前病毒传播和变体的现有数据,科学家尝试使用机器学习算法对病毒的未来行为进行建模和预测。
 

  为此,他们首先需要一种适当的方式来处理有关病毒或更确切地说是其基因组的信息。这是通过分析遗传数据来完成的。但是到底什么是遗传数据?
 

  什么是基因组和基因数据?
 

  遗传数据包括生物体或其部分的基因组。它通常由DNA组成,以字符串形式表示。就流感而言,它包含RNA,RNA是某些病毒的遗传物质。

 

大数据分析
 

  有了数据后,就该考虑如何理解这些数据了,这意味着我们首先需要一种可视化它的方法。
 

  有很多选择。但是,我们将特别关注一种主要的系统发育树。
 

  可视化技术:系统发育树
 

  系统发育树,也称为进化树,根据其遗传学来表示不同物种的接近程度。基本上,它们是显示物种之间进化关系的图。在流行性感冒的情况下,此类树木可用于可视化病毒的不同品系。
 

大数据分析
 

  预测模型
 

  现在是时候将所有这些放在一起并到达最终点了。即,使用机器学习技术进行预测。
 

  想象一下,您已经以流感基因组或抗体的形式获得了生物学数据,并已使用树木将其表示出来。使用从树中获取的信息,您可以采用不同的机器学习技术来模拟流感病毒的未来行为或传播。
 

  这些包括使用非负最小二乘法,构造最大似然树或使用评分方法。后者的例子包括构建相似性类别和替代矩阵,以解释病毒的抗原差异。在接下来的段落中,我们将概述几种不同的技术。
 

  非负最小二乘
 

  它使用非负最小二乘优化,该优化可测量系统树的分支之间的距离。他们使用双向加权系统发育树,并确定H蛋白表面编码变化的集合。然后,该模型可以识别不同流感病毒株的抗原影响。
 

  通过最大可能性或PAML进行系统发育分析
 

  进行系统发育分析的另一种方法是使用PAML软件包,该软件包包含使用最大似然(ML)进行遗传数据系统发育分析的程序。这样做的方法是采用一组树并在不同模型下评估它们的对数似然值。这些模型估计一些参数,同时允许其他参数变化。这样,他们可以将多种基因类型整合到流感病毒株及其表面H蛋白中。

 

大数据分析
 

  基于树和替换模型的比较
 

  值得一提的第三种方法是……嗯,实际上有两种不同的方法:一种基于树的模型和一种替换模型,以及两者之间的比较。感觉就像我们在骗你,但我们保证特别要谈谈这两个。
 

  预测流感病毒株的最后一种方法。它包括一个基于树的模型,该模型具有一个测试和一个参考流感病毒株,并创建加权的系统发育树。替换模型使用与参考病毒和测试病毒之间的氨基酸替换相关的贡献之和。根据2002年至2015年收集的数据,基于树的模型和替换模型在预测准确性方面的表现相似。
 

  选择“最佳”方法(在大数据分析中)
 

  我们确实说过最后两个模型是有特定目的的。这是为了说明大数据分析中一个非常普遍的问题:机器学习提供了各种各样的工具,使我们能够分析数据并建立预测模型。在某些情况下,尤其是如果您是该领域的新手,这可能会变得势不可挡。我们看到两种不同的技术在相同问题上产生相似的结果。实际上通常是这样:两种或多种算法在给定的数据集上表现相似。然后,“正确”算法的选择可以取决于我们给出的任务的具体情况,也可以由其他因素(速度,可伸缩性,模型的可解释性,清单等)确定。
 

  这也被称为“无免费午餐定理”,这是机器学习中的一个常见问题,表明没有一种模型可以解决所有问题。大数据分析家工作的重要部分是了解每种方法的优点和缺点,并始终选择合适的工具来解决当前的问题。
 

  基因组,大数据分析的新兴领域
 

  这几乎使本文结束。
 

  那真是过山车,对吗?我们从了解流感以及病毒如何工作开始,并回顾了第一种疫苗和最大的流感大流行的历史。什么时候我们谈到抗原的变化和漂移?特别是解释这些,我们玩得很开心。
 

  我们还讨论了不同类型的生物数据及其可视化。最后,我们学习了如何使用不同的机器学习技术进行预测。
 

  总之,大数据分析不仅仅是IT领域或大型公司使用的工具。实际上,它在(生命)科学中起着越来越重要的作用。而且,医学和生物学应用正变得越来越重要和广泛。从而允许用户在各自的云平台上存储和分析自己的基因组。
 

大数据分析
 

  而且,如果他们这样做了,那么可以肯定地说,使用机器学习进行基因组及其分析值得研究。事物运行的方式,基因组及其分析可能很快会成为我们日常生活的一部分。因此,我们认为熟悉该领域非常有道理。而且,在介绍完我们刚刚给您的内容之后,我们确信您会做到这一点。








 

预约申请免费试听课

填写下面表单即可预约申请免费试听!怕钱不够?可先就业挣钱后再付学费! 怕学不会?助教全程陪读,随时解惑!担心就业?一地学习,可推荐就业!

©2007-2021/北京漫动者教育科技有限公司版权所有
备案号:京ICP备12034770号

©2007-2022/ www.aaa-cg.com.cn 北京漫动者数字科技有限公司 备案号: 京ICP备12034770号 监督电话:010-53672995 邮箱:bjaaa@aaaedu.cc

京公网安备 11010802035704号

网站地图