Kaggle赛题解析:酶热稳定性预测

凡是和数据相关的专业和领域,一定是近几年全球最炙手可热的。在没有基础和没有任何项目经验的情况下,如何才能成功升级打怪呢?参加一段超高含金量的kaggle竞赛项目一定为你的申请留学、转专业、求职和转行加分不少!

今天就带大家来看看即刻可以报名的一场Kaggle竞赛及赛题解析!

比赛名称:Novozymes Enzyme Stability Prediction

帮助识别酶中的热稳定突变

比赛类型:自然语言处理、生物医学

比赛背景酶是在生物体的化学反应中充当催化剂的蛋白质。本次比赛的目标是预测酶变体的热稳定性。实验测量的热稳定性(熔化温度)数据包括天然序列,以及在天然序列上具有单个或多个突变的工程序列。

了解和准确预测蛋白质稳定性是生物技术中的一个基本问题。它的应用包括酶工程,用于解决世界在可持续性、碳中和等方面的挑战。提高酶稳定性可以降低成本并提高科学家迭代概念的速度。语境

许多酶只是勉强稳定,这限制了它们在恶劣应用条件下的性能。不稳定性也会降低细胞可产生的蛋白质量。因此,开发预测蛋白质稳定性的有效计算方法具有巨大的技术和科学意义。

比赛任务在本次比赛中,Novozymes 邀请您开发一个模型,根据实验熔解温度数据预测/排序酶变体的热稳定性,该数据来自 Novozymes 的高通量筛选实验室。

如果成功,您将帮助解决提高蛋白质稳定性的基本问题,使设计新颖和有用的蛋白质(如酶和治疗剂)的方法更快、成本更低。

评价指标提交的内容根据基本事实与预测之间的 Spearman 相关系数进行评估。

每个 seq_id 代表一种酶的单突变变体。你的任务是对这些变体的稳定性进行排名,为更稳定的变体分配更高的排名。

数据描述在本次比赛中,您被要求开发可以预测单点氨基酸突变和缺失后蛋白质稳定性(通过熔点,tm 测量)排名的模型。

对于训练集,蛋白质稳定性(实验解链温度)数据包括自然序列,以及在自然序列上具有单个或多个突变的工程序列。数据主要来自不同来源的已发表研究。

测试集包含超过 2,413 个酶的单突变变体(GenBank:KOC15878.1)的实验熔解温度,由 Novozymes A/S 获得。

比赛赛程

2022年12月27日:报名截止日期。您必须在此日期之前接受比赛规则才能参加比赛。

2022年12月27日:团队合并截止日期。这是参与者加入或合并团队的最后一天。

2023年1月3日:最终提交截止日期。

赛题奖金    

1st Place - $ 12,000

2nd Place - $ 8,000

3rd Place - $ 5,000

比赛链接:https://www.kaggle.com/competitions/novozymes-enzyme-stability-prediction/

解题思路赛题是一个典型的医学蛋白质预测的比赛,任务可以抽象为回归任务。建议可以参考也有学术模型。

kaggle含金量

对于想要申请数据科学相关专业学校和求职的同学来说,kaggle作为超级无敌强的上分神器,它吸引全球数以万计kagglers的理由不仅是高含金量的实践应用技能和项目履历的加成,同时也有机会和世界各地相关领域的学生和大神进行交流。

扫码获取备赛计划,考前查缺补漏、重点冲刺

免费领取相关真题及解析,还有一对一学术活动规划!

文章大部分内容转载自公众号【Coggle数据科学】,版权归原作者所有,本文仅做分享,如有侵权请联系删除。

翰林国际教育资讯二维码