1. Python 基础
➣Python 简介:了解Python的历史、特点和与其他编程语言的比较。
➣安装和设置环境:安装Python,设置Python开发环境(如Anaconda、Jupyter notebook)。
➣基本语法:数据类型(整数、浮点数、字符串、布尔值)、变量、基本运算符。
➣控制结构:条件语句(if-else)、循环语句(for循环、while循环)。
➣函数:定义函数、参数、返回值、作用域、递归。
➣数据结构:列表、元组、字典、集合、操作和常用方法。
➣文件操作:读写文件,文件与异常处理。
2. Python 进阶
➣类和对象:面向对象编程基础,创建类,实例化对象,理解封装、继承和多态。
➣模块和包:导入标准模块,使用第三方包,创建自定义模块和包。
➣高级功能:列表推导式、生成器、迭代器、装饰器和匿名函数。
3. Python 在科学计算中的应用
➣NumPy:数组创建、数组操作、数学计算、线性代数等。
➣Matplotlib:基础图表、科学图形、图表定制。
4. 数据分析与可视化
➣Pandas:数据结构(Series、DataFrame)、数据载入、数据清洗、数据统计、数据合并。
➣数据可视化:使用 Matplotlib 和 Seaborn 进行高级数据可视化。
5. 蛋白质设计中的特定应用
➣BioPython:序列处理、数据库访问、生物学数据的分析。
➣脚本编写:自动化常见的蛋白质设计任务,如序列对比、结构预测。
➣机器学习:使用Scikit-learn进行特征提取、模型训练、评估和优化。
6. 实战项目
➣项目1:蛋白质序列数据分析,如统计特定序列的频率、可视化序列分布等。
➣项目2:蛋白质结构预测,使用机器学习技术预测蛋白质的二级结构或功能位点。
➣项目3:开发一个小型的蛋白质设计工具,集成数据处理、分析及可视化功能。
第二天 shell命令行操作基础
1. Shell环境简介
➣什么是Shell:了解Shell是什么,以及它如何与操作系统交互。
➣不同类型的Shell:Bash, Zsh, Tcsh的介绍。
➣访问Shell:如何打开终端窗口,基础的命令行界面操作。
2. 基础命令
➣文件系统操作:cd, ls, pwd, mkdir, rm, touch 等命令的使用。
➣文件操作:cat, more, less, head, tail, grep, find等命令。
➣权限和所有权:使用chmod, chown, chgrp改变文件的权限和所有权。
➣文本处理:echo, cat, cut, sort, uniq, tr, awk, sed等工具的基本使用。
➣归档和压缩:tar, gzip, gunzip, zip, unzip等命令。
3. Shell脚本编写
➣创建和执行Shell脚本:如何编写一个简单的脚本并使其可执行。
➣变量和数据类型:学习如何在脚本中定义和使用变量。
➣流程控制:
➣条件语句:if, else, elif, case等语句的使用。
➣循环结构:for, while, until循环的使用。
➣函数:如何定义和使用函数。
➣输入和输出:处理用户输入和脚本输出。
➣引用和转义字符:学习如何在命令行中正确使用单引号、双引号和转义字符。
4. 高级Shell编程
➣调试Shell脚本:如何调试Shell脚本,包括设置和使用调试选项。
➣正则表达式:基本正则表达式的应用,结合grep, sed, awk使用。
➣环境管理:了解PATH和其他环境变量的作用和管理方法。
➣脚本的安全性:编写安全的脚本以避免常见的安全问题。
5. 实用案例和项目
➣数据备份脚本:创建一个自动备份你的重要文件的脚本。
➣文件整理脚本:编写一个自动整理下载文件夹中文件的脚本。
➣PDB文件分析脚本的编写
第三天 蛋白质设计基础: 从经典力场到深度学习
1. 如何计算蛋白质构象的能量?
a) 蛋白质可视化与编辑常用方法
i. pymol使用方法简介
ii. chimera使用方法简介
iii. pdb文件格式详解
iv. 使用python biopython、pymol等库编辑蛋白质结构
b) 分子力学、溶剂化能简介
i. 分子力学公式形式
ii. 溶剂化能的计算方法
iii. MM/PBSA方法计算结合自由能
2. 基于统计势函数的蛋白质设计方法——Rosetta
a) 统计势函数的一般定义
b) 蛋白质设计中的统计势函数
i. Rosetta统计势定义
ii. Rosetta能量函数常见项及物理意义
c) 基于Rosetta势函数的蛋白设计
i. 设计流程
ii. 实验结果
3. 蛋白-蛋白对接的强大——无先验知识的蛋白质药物设计流程
a) 蛋白-蛋白对接简介
i. 蛋白-蛋白对接的定义
ii. RifGen对接方法介绍
b) 蛋白质药物设计
i. 设计流程
ii. 实验结果
4. 深度学习强势登场——蛋白质设计模型ProteinMPNN
a) MPNN 消息传递神经网络简介
b) ProteinMPNN模型简介
i. 模型结构介绍(输入、输出、参数……)
ii. 模型使用(主编程语言Python)
c) 基于ProteinMPNN的蛋白质设计
i. 设计流程
ii. 实验结果
5. 平分秋色还是天壤之别?两种蛋白设计方法的比较
a) 深度学习模型具有更高的序列恢复率
b) 深度学习模型可实现rosetta、alphafold不可完成的设计任务
c) 深度学习模型的短板