QMMM with CP 2K

使用CP2K进行蛋白-底物QMMM模拟

QMMM with cp2k

蛋白-底物 QM/MM模拟

我们将使用的酶是分支酸变位酶,一种催化分支酸转化为预苯酸酯的酶,这是莽草酸途径中的关键反应。 这种酶的一个吸引人的特点是它以静电方式催化反应,而不与底物形成共价键。这使我们能够在计算成本低的 MM 水平上处理完整的酶,从而避免了在 QM/MM 边界上设置键的麻烦。模拟中,我们将在 QM 级别模拟底物(使用半经验 AM1 方法),但我们将先在 MM 级别平衡我们的系统。

PDB ID:2CHT 酶由三个蛋白质亚基组成,形成三个活性位点。每个活性位点单独催化反应。 蛋白结构有十二个单元,并结合十二个抑制剂。 同时,你需要将抑制剂替换为底物。


生成topol

cp2k支持charmm PSF格式文件和Amber prmtop格式文件。 在此,使用Ambertools生成输入文件 Antechamberparmchk2参数化小分子(with GAFF2 力场)。 电荷为bcc电荷 Antechamber为小分子生成 MM 参数,而 parmchk2验证此拓扑、报告缺失的参数并在`.frcmod文件中输出这些参数的最佳猜测。我们将直接从 antechamber/parmchk2获取参数,但对于模拟,应谨慎检查这些参数。由于活性复合物具有三个配体,使用bash 循环中为每个配体执行此参数化。

1
2
for i in A B C; do antechamber -i Lig${i}.mol2 -o Ligand${i}.mol2 -fi mol2 -fo mol2 -c bcc -pf yes -nc -2 -at gaff2 -j 5 -rn CH${i}; done
for i in A B C; do parmchk2 -i Ligand${i}.mol2 -f mol2 -o Ligand${i}.frcmod -s 2; done

使用tleap导入antechamber生成的参数,为蛋白生成Amber14力场参数,并保存于complex文件中。 你可以使用tleap -f tleap.in也可以逐步执行命令。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
# tleap.in
source leaprc.protein.ff14SB
source leaprc.gaff2
source leaprc.water.tip3p

ligA = loadmol2 LigandA.mol2
ligB = loadmol2 LigandB.mol2
ligC = loadmol2 LigandC.mol2

loadamberparams LigandA.frcmod
loadamberparams LigandB.frcmod
loadamberparams LigandC.frcmod

protein = loadPDB Protein.pdb
complex = combine {protein ligA ligB ligC}

我们已经处理了复合体,然后对其进行溶剂化。为简单起见,我们将使用一个立方体,其中水占据蛋白周围 14 A的空间,并与 Na+ 离子中和。对于模拟,您可能需要切换到十二面体或八面体以提高效率。

1
2
3
4
solvateBox complex TIP3PBOX 14.0 iso
addIonsRand complex Na+ 0
saveamberparm complex complex.prmtop complex.inpcrd
quit

prmtopinpcrd文件包含了所有必须参数。 使用VMD检查Na离子是否出现在配体旁边,其放置是随机的。如果出现在配体旁边,需要重新生成。


MM层级的平衡

我们将首先使用输入文件 em.inp 运行 1000 步能量最小化(或更少,取决于收敛性)以消除不良结构。

1
2
3
4
# cp2k can be run using a single process:
cp2k.sopt em.inp > em.out
# or using several processes, where N is the number of processes:
mpirun -np N cp2k.popt em.inp > em.out

可视化您的模拟以检查任何异常。检查输出文件,注意您可能收到的任何警告。Note:CP2K 会警告您缺少力场项。您可以使用 FORCE_EVAL/MM/PRINT/FF_INFO 使 CP2K 输出这些。在这种情况下,缺少的项是 Urey-Bradley 相互作用。这是正常的,因为我们在这里使用的 Amber 力场不使用 Urey-Bradley 项。第二个警告指出我们的 CRD 文件缺少速度信息并且不会读取盒子信息。这也不是问题,因为此时我们没有速度并且输入文件中提供了盒子参数。

下一步,nvt.inp NVT系综执行5 ps动力学平衡体系温度,使用EXT_RESTART重启能量最小化步骤的走后一帧坐标。模拟完成后,查看温度文件 NVT-1.PARTICLES.temp 以检查温度是否在正确值(在本例中为 298K)附近振荡。请注意,我们使用具有 10 fs 的CSVR恒温器来高效快速地控制系统温度。对于正常模拟,应选择更高的时间,例如 100 fs,以避免干扰系统的动态特性。

下一步是在恒压 NPT 系综中模拟我们的系统,以获得正确的盒子尺寸。`npt.inp运行 50 ps 的 NPT,每 100 个时间步长将盒子尺寸输出到一个单独的文件中。分支酸分子的 C-C 距离受到限制,以使其保持在反应性构象附近,以促进我们以后在 QM/MM 阶段的模拟。压力控制是通过添加一个参考压力为 1 bar、耦合时间为 100fs 的恒压器,并将 MOTION/MD#ENSEMBLE 从 NVT 更改为 NPT_I 来实现的,这表明盒子将被各向同性缩放。我们推测盒子一开始会收缩,因为溶剂化过程由于与蛋白质和盒子边缘重叠而无法完全填满细胞。一段时间后,单元格大小应该会稳定下来。检查 NPT.cell中的单元格尺寸;我们将在下一个教程中使用这些平衡的单元格尺寸。

您现在应该拥有一个完全平衡的 MM 系统。我们现在将继续使用 QM/MM 来模拟断键过程。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
# em.inp
&GLOBAL
PROJECT EM
PRINT_LEVEL LOW
RUN_TYPE GEO_OPT
&END GLOBAL

&FORCE_EVAL
METHOD FIST
&MM
&FORCEFIELD
PARMTYPE AMBER
PARM_FILE_NAME complex.prmtop
&SPLINE
EMAX_SPLINE 1.0E8
RCUT_NB [angstrom] 10
&END SPLINE
&END FORCEFIELD
&POISSON
&EWALD
EWALD_TYPE SPME
ALPHA .40
GMAX 80
&END EWALD
&END POISSON
&END MM
&SUBSYS
&CELL
!Set box dimensions here
ABC [angstrom] 84.4824350 85.2052800 84.5083700
ALPHA_BETA_GAMMA 90 90 90
&END CELL
&TOPOLOGY
CONN_FILE_FORMAT AMBER
CONN_FILE_NAME complex.prmtop
COORD_FILE_FORMAT CRD
COORD_FILE_NAME complex.inpcrd
&END TOPOLOGY
!NA+ is not recognized by CP2K, so it is necessary to define it here using KIND
&KIND NA+
ELEMENT Na
&END KIND
&KIND NS3
ELEMENT N
&END KIND
&KIND NS4
ELEMENT N
&END KIND
&KIND NS1
ELEMENT N
&END KIND
&KIND NS2
ELEMENT N
&END KIND

&END SUBSYS
&END FORCE_EVAL


&MOTION
&GEO_OPT
OPTIMIZER LBFGS
MAX_ITER 1000
MAX_DR 1.0E-02 !Convergence criterion for the maximum geometry change between the current and the last optimizer iteration
RMS_DR 5.0E-03 !Convergence criterion for the root mean square (RMS) geometry change between the current and the last optimizer iteration
MAX_FORCE 1.0E-02 !Convergence criterion for the maximum force component of the current configuration
RMS_FORCE 5.0E-03 !Convergence criterion for the root mean square (RMS) force of the current configuration

&END
&PRINT
&TRAJECTORY ! Controls the output of the trajectory
FORMAT XYZ ! Format of the output trajectory is XYZ
&EACH ! New trajectory frame will be printed each 100 md steps
GEO_OPT 200
&END EACH
&END TRAJECTORY
&RESTART ! This section controls the printing of restart files
&EACH ! A restart file will be printed every 10000 md steps
GEO_OPT 500
&END EACH
&END RESTART
&RESTART_HISTORY ! This section controls dumping of unique restart files during the run keeping all of them.Most useful if recovery is needed at a later point.
&EACH ! A new restart file will be printed every 10000 md steps
GEO_OPT 500
&END EACH
&END RESTART_HISTORY
&END PRINT
&END MOTION
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
#nvt.inp
&GLOBAL
PROJECT NVT
RUN_TYPE MD
PRINT_LEVEL LOW
&END GLOBAL

&FORCE_EVAL
METHOD FIST
&MM
&FORCEFIELD
PARMTYPE AMBER
PARM_FILE_NAME complex.prmtop
&SPLINE
EMAX_SPLINE 1.0E8
RCUT_NB [angstrom] 10
&END SPLINE
&END FORCEFIELD
&POISSON
&EWALD
EWALD_TYPE SPME
ALPHA .40
GMAX 80
&END EWALD
&END POISSON

&END MM
&SUBSYS
&CELL
!Set box dimensions here
ABC [angstrom] 84.4824350 85.2052800 84.5083700
ALPHA_BETA_GAMMA 90 90 90
&END CELL
&TOPOLOGY
CONN_FILE_FORMAT AMBER
CONN_FILE_NAME complex.prmtop
&END TOPOLOGY
&KIND NA+
ELEMENT Na
&END KIND
&COLVAR
&DISTANCE
ATOMS 1 13
&END DISTANCE
&END COLVAR
&END SUBSYS
&END FORCE_EVAL


&MOTION
&MD
ENSEMBLE NVT
TIMESTEP [fs] 0.5
STEPS 10000
TEMPERATURE 298
&THERMOSTAT
REGION GLOBAL
TYPE CSVR
&CSVR
TIMECON [fs] 10
&END CSVR
&PRINT
&TEMPERATURE
&EACH
MD 100
&END EACH
&END TEMPERATURE
&END PRINT
&END THERMOSTAT
&END MD
&CONSTRAINT
&COLLECTIVE
COLVAR 1
TARGET [angstrom] 3.55
MOLNAME MOL4
&RESTRAINT
K [kcalmol] 10
&END RESTRAINT
&END COLLECTIVE
&END CONSTRAINT


&PRINT
&RESTART_HISTORY ! This section controls dumping of unique restart files during the run keeping all of them.Most useful if recovery is needed at a later point.
&EACH ! A new restart file will be printed every 10000 md steps
MD 5000
&END
&END
&RESTART ! This section controls the printing of restart files
&EACH ! A restart file will be printed every 10000 md steps
MD 5000
&END
&END
&TRAJECTORY ! Thes section Controls the output of the trajectory
FORMAT XYZ ! Format of the output trajectory is XYZ
&EACH ! New trajectory frame will be printed each 100 md steps
MD 2000
&END
&END
&END PRINT
&END MOTION

&EXT_RESTART
RESTART_FILE_NAME EM-1.restart
RESTART_DEFAULT .FALSE.
RESTART_POS TRUE
&END
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
#npt.inp
&GLOBAL
PROJECT NPT
PRINT_LEVEL LOW
RUN_TYPE MD
&END GLOBAL

&FORCE_EVAL
METHOD FIST
STRESS_TENSOR ANALYTICAL
&MM
&FORCEFIELD
PARMTYPE AMBER
PARM_FILE_NAME complex.prmtop
&SPLINE
EMAX_SPLINE 1.0E8
RCUT_NB [angstrom] 10
&END SPLINE
&END FORCEFIELD
&POISSON
&EWALD
EWALD_TYPE SPME
ALPHA .40
GMAX 80
&END EWALD
&END POISSON
&END MM
&SUBSYS
&CELL
ABC [angstrom] 84.4824350 85.2052800 84.5083700
ALPHA_BETA_GAMMA 90 90 90
&END CELL
&TOPOLOGY
CONN_FILE_FORMAT AMBER
CONN_FILE_NAME complex.prmtop
&END TOPOLOGY
&KIND NA+
ELEMENT Na
&END KIND
&COLVAR
&DISTANCE
ATOMS 1 13
&END DISTANCE
&END COLVAR
&END SUBSYS
&END FORCE_EVAL


&MOTION
&MD
ENSEMBLE NPT_I
TIMESTEP [fs] 0.5
STEPS 50000
TEMPERATURE 298
&BAROSTAT
TIMECON [fs] 100
PRESSURE [bar] 1.0
&END BAROSTAT
&THERMOSTAT
REGION GLOBAL
TYPE CSVR
&CSVR
TIMECON [fs] 10.
&END CSVR
&END THERMOSTAT
&END MD
&CONSTRAINT
&COLLECTIVE
COLVAR 1
TARGET [angstrom] 3.55
MOLNAME MOL4
&RESTRAINT
K [kcalmol] 10
&END RESTRAINT
&END COLLECTIVE
&END CONSTRAINT

&PRINT
&RESTART ! This section controls the printing of restart files
&EACH ! A restart file will be printed every 10000 md steps
MD 25000
&END
&END
&TRAJECTORY ! Thes section Controls the output of the trajectory
FORMAT XYZ ! Format of the output trajectory is XYZ
&EACH ! New trajectory frame will be printed each 100 md steps
MD 5000
&END
&END
&RESTART_HISTORY ! This section controls dumping of unique restart files during the run keeping all of them.Most useful if recovery is needed at a later point.
&EACH ! A new restart file will be printed every 10000 md steps
MD 5000
&END
&END
&CELL
&EACH
MD 100
&END
&END
&END PRINT
&END MOTION

&EXT_RESTART
RESTART_FILE_NAME NVT-1.restart
RESTART_COUNTERS .FALSE.
&END

QM/MM

Chorismate(left) is converted into prephenate(right) by Chorismate Mutase

由于分支酸变位酶通过非共价相互作用发挥其催化功能,因此我们可以在 MM 水平上处理整个酶。对于大多数生化问题,边界不会那么清晰,关键残留物也需要在 QM 层面进行处理。这意味着 QM - MM 边界将切断共价键,需要使用连接原子。然而,对于我们的简单系统,这不是必需的。我们首先必须使用 FORCE_EVAL/QMMM/QM_KIND 部分指定应在 QM 级别处理哪些原子:

1
2
3
4
5
6
7
8
9
&QM_KIND O
MM_INDEX 5668 5669 5670 5682 5685 5686
&END QM_KIND
&QM_KIND C
MM_INDEX 5663 5666 5667 5671 5673 5675 5676 5678 5680 5684
&END QM_KIND
&QM_KIND H
MM_INDEX 5664 5665 5672 5674 5677 5679 5681 5683
&END QM_KIND

现在我们定义了QM原子,cp2k需要知道如何处理这些原子。在此,我们使用半经验方法AM1作为QM方法,使用FORCE_EVAL/QMMM#E_COUPL COULOMB将静电耦合到 MM 系统中。这允许 QM 区域被 MM 环境极化。当QM区域只通过点电荷与MM区域作用,并且没有极化,可以通过E_COUPL NONE 选择机械耦合。在 DFT 计算中,也可以使用高效的 GEEP 方法。

在运行 QM/MM 模拟之前,我们需要修改我们的 prmtop 文件,因为在经典力场中,几种氢原子类型没有单独的 Lennard-Jones 参数或它们设置为 0.0。 AMBER FF 原子类型是 H2O(来自 TIP3P 水模型)、HG(来自丝氨酸、苏氨酸和酪氨酸残基)。这将导致与 QM 区域的非物理交互,并且由于稳定性原因模拟将失败。具有这些原子类型的氢原子将与 QM 电子云强烈相互作用,最终使系统崩溃。为了防止这种情况发生,我们必须使用 parmed将正确的 LJ 参数添加到提到的原子类型。

parmed 读取 prmtop文件并允许您修改其中定义的参数。我们将使用的 parmed命令是:changeLJSingleTypeaddLJType,它改变所有具有 LJ 类型的原子的 LJ 类型,以进行更多的选择性修改。我们将他们的 LJ 参数更改为 GAFF2 类型酒精的参数,LJ 类型的值是 0.3019 0.047

如果我们使用 changeLJSingleTypeaddLJType,我们需要确保我们正在更改正确的原子索引。为此,我们需要使用 printDetailsprintLJTypes 来打印有关所选原子索引的信息。

1
2
3
4
5
$ parmed complex.prmtop
changeLJSingleType :WAT@H1 0.3019 0.047
changeLJSingleType :*@HO 0.3019 0.047
outparm complex_LJ_mod.prmtop
quit

输入文件 monitor.inp将在 NVT 系综中执行 5 ps 的模拟。请注意,参数文件应更改为我们在 OH 氢上带有 LJ 位点的修改文件。我们还定义了一个集体变量 (CV),即一个能够很好地描述我们感兴趣的过程并允许我们监控该变量作为过程替代品的变量。该系统的 CV 是我们将要打破的 C-O 键与我们将要形成的 C-C 键之间的距离差。开始模拟并观察MONITOR-COLVAR.metadynLog文件中的集体变量输出.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
# monitor.inp
&GLOBAL
PROJECT MONITOR
PRINT_LEVEL LOW
RUN_TYPE MD
&END GLOBAL

&FORCE_EVAL
METHOD QMMM
STRESS_TENSOR ANALYTICAL
&DFT
CHARGE -2
&QS
METHOD AM1
&SE
&COULOMB
CUTOFF [angstrom] 10.0
&END
&EXCHANGE
CUTOFF [angstrom] 10.0
&END
&END
&END QS
&SCF
MAX_SCF 30
EPS_SCF 1.0E-6
SCF_GUESS ATOMIC
&OT
MINIMIZER DIIS
PRECONDITIONER FULL_SINGLE_INVERSE
&END
&OUTER_SCF
EPS_SCF 1.0E-6
MAX_SCF 10
&END
&PRINT
&RESTART OFF
&END
&RESTART_HISTORY OFF
&END
&END
&END SCF
&END DFT
&MM
&FORCEFIELD
PARMTYPE AMBER
PARM_FILE_NAME complex_LJ_mod.prmtop
&SPLINE
EMAX_SPLINE 1.0E8
RCUT_NB [angstrom] 10
&END SPLINE
&END FORCEFIELD
&POISSON
&EWALD
EWALD_TYPE SPME
ALPHA .40
GMAX 80
&END EWALD
&END POISSON
&END MM
&SUBSYS
&CELL
ABC [angstrom] 79.0893744057 79.0893744057 79.0893744057
ALPHA_BETA_GAMMA 90 90 90
&END CELL
&TOPOLOGY
CONN_FILE_FORMAT AMBER
CONN_FILE_NAME complex_LJ_mod.prmtop
&END TOPOLOGY
&KIND NA+
ELEMENT Na
&END KIND
&COLVAR
&DISTANCE_FUNCTION
COEFFICIENT -1
ATOMS 5663 5675 5670 5671
&END DISTANCE_FUNCTION
&END COLVAR
&END SUBSYS
&QMMM
ECOUPL COULOMB
&CELL
ABC 40 40 40
ALPHA_BETA_GAMMA 90 90 90
&END CELL
&QM_KIND O
MM_INDEX 5668 5669 5670 5682 5685 5686
&END QM_KIND
&QM_KIND C
MM_INDEX 5663 5666 5667 5671 5673 5675 5676 5678 5680 5684
&END QM_KIND
&QM_KIND H
MM_INDEX 5664 5665 5672 5674 5677 5679 5681 5683
&END QM_KIND

&END QMMM
&END FORCE_EVAL

&MOTION
&MD
ENSEMBLE NVT
TIMESTEP [fs] 0.5
STEPS 10000 !5000 fs = 5ps
TEMPERATURE 298
&THERMOSTAT
TYPE NOSE
REGION GLOBAL
&NOSE
TIMECON [fs] 100.
&END NOSE
&END THERMOSTAT
&END MD
&FREE_ENERGY
METHOD METADYN
&METADYN
DO_HILLS .FALSE.
NT_HILLS 100
WW [kcalmol] 1.5
&METAVAR
WIDTH 0.5 !Also known as scale
COLVAR 1
&END METAVAR
&PRINT
&COLVAR
COMMON_ITERATION_LEVELS 3
&EACH
MD 10
&END
&END
&END
&END METADYN
&END FREE_ENERGY

&PRINT
&RESTART ! This section controls the printing of restart files
&EACH ! A restart file will be printed every 10000 md steps
MD 1000
&END
&END
&RESTART_HISTORY ! This section controls dumping of unique restart files during the run keeping all of them.Most useful if recovery is needed at a later point.
&EACH ! A new restart file will be printed every 10000 md steps
MD 1000
&END
&END
&TRAJECTORY ! Thes section Controls the output of the trajectory
FORMAT XYZ ! Format of the output trajectory is XYZ
&EACH ! New trajectory frame will be printed each 100 md steps
MD 1000
&END
&END
&END PRINT
&END MOTION

&EXT_RESTART
RESTART_FILE_NAME NPT-1.restart
RESTART_COUNTERS .FALSE.
RESTART_THERMOSTAT .FALSE.
&END

元动力学

我们现在已经模拟了 5 ps 的完整 QM/MM 系统。不幸的是,正如我们在元动力学日志文件和 .xyz 轨迹文件中看到的那样,没有发生任何反应。这是有道理的,因为有一个重要的能量障碍需要克服。

  • 一种选择是连续数月运行此模拟,希望反应自发发生。
  • 第二种更实用的选择是对系统进行调整。

我们将使用元动力学来偏置我们的集体变量 (CV)。在由 MOTION/FREE_ENERGY/METADYN#NT_HILLS 控制的多个 MD 步骤之后,元动力学程序在当前位置添加新的高斯势,鼓励系统探索 CV 空间的新区域。高斯的高度可以通过关键字 MOTION/FREE_ENERGY/METADYN#WW来控制,而宽度可以通过 MOTION/FREE_ENERGY/METADYN/METAVAR#SCALE 来控制。这三个参数决定了如何探索能量表面。使用非常宽和高的高斯进行搜索将快速搜索系统的各个区域,但准确性较差。另一方面,如果您使用微小的高斯分布,则需要很长时间才能完全探索您的 CV 空间。需要注意的一个问题是山坡冲浪:当高斯分布过快时,模拟可能会被越来越多的山坡推动。选择足够大的MOTION/FREE_ENERGY/METADYN#NT_HILLS参数以允许模拟在每次添加山丘后达到平衡。

您现在可以使用 metadynamics.inp 运行元动力学模拟。可以在 METADYN-COLVAR.metadynLog 文件中观察集体变量随时间的演变。底物可以在 3 到 8 bohr CV 区域附近找到,而产物可以在 -3 到 -8 bohr 区域附近找到。在本教程中,我们将在对正向和反向反应采样一次后停止模拟。在生产环境中,您应该观察几个障碍交叉点,并观察作为模拟时间函数的自由能分布的变化。可以通过整合所有用于偏置系统的高斯函数来获得反应的自由能图。幸运的是,CP2K 附带了 graph.sopt 工具,可以为您完成这一切。如果您还没有此程序,则需要单独编译它。运行将重启文件作为输入传递的工具。

1
graph.sopt -cp2k -file METADYN-1.restart -out fes.dat

输出 fes.dat 文件,其中包含一维能量分布图。绘制它以获得一个图表,将能量绘制为距离差的函数。

观察底物和产物的两个能量最小值,以及与过渡态相关的最大值。从该图中我们可以估计酶的活化能,大约为 44 kcal/mol。文献结果通常估计能量约为 20 kcal/mol。虽然我们处于正确的数量级,但我们的估计不是很准确。一个因素可能是我们对 QM/MM 子系统的选择。到目前为止,我们只用 QM 处理了我们的基材,而用 MM 处理了其他所有内容。这是一个重大的简化,可能会影响我们的能量屏障。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
# metadynamics.inp
&GLOBAL
PROJECT METADYN
PRINT_LEVEL LOW
RUN_TYPE MD
&END GLOBAL

&FORCE_EVAL
METHOD QMMM
STRESS_TENSOR ANALYTICAL
&DFT
CHARGE -2
&QS
METHOD AM1
&SE
&COULOMB
CUTOFF [angstrom] 10.0
&END
&EXCHANGE
CUTOFF [angstrom] 10.0
&END
&END
&END QS
&SCF
MAX_SCF 30
EPS_SCF 1.0E-6
SCF_GUESS ATOMIC
&OT
MINIMIZER DIIS
PRECONDITIONER FULL_SINGLE_INVERSE
&END
&OUTER_SCF
EPS_SCF 1.0E-6
MAX_SCF 10
&END
&PRINT
&RESTART OFF
&END
&RESTART_HISTORY OFF
&END
&END
&END SCF
&END DFT
&MM
&FORCEFIELD
PARMTYPE AMBER
PARM_FILE_NAME complex_LJ_mod.prmtop
&SPLINE
EMAX_SPLINE 1.0E8
RCUT_NB [angstrom] 10
&END SPLINE
&END FORCEFIELD
&POISSON
&EWALD
EWALD_TYPE SPME
ALPHA .40
GMAX 80
&END EWALD
&END POISSON
&END MM
&SUBSYS
&CELL
ABC [angstrom] 79.0893744057 79.0893744057 79.0893744057
ALPHA_BETA_GAMMA 90 90 90
&END CELL
&TOPOLOGY
CONN_FILE_FORMAT AMBER
CONN_FILE_NAME complex_LJ_mod.prmtop
&END TOPOLOGY
&KIND NA+
ELEMENT Na
&END KIND
&COLVAR
&DISTANCE_FUNCTION
COEFFICIENT -1
ATOMS 5663 5675 5670 5671
&END DISTANCE_FUNCTION
&END COLVAR

&END SUBSYS
&QMMM
ECOUPL COULOMB
&CELL
ABC 40 40 40
ALPHA_BETA_GAMMA 90 90 90
&END CELL
&QM_KIND O
MM_INDEX 5668 5669 5670 5682 5685 5686
&END QM_KIND
&QM_KIND C
MM_INDEX 5663 5666 5667 5671 5673 5675 5676 5678 5680 5684
&END QM_KIND
&QM_KIND H
MM_INDEX 5664 5665 5672 5674 5677 5679 5681 5683
&END QM_KIND

&END QMMM
&END FORCE_EVAL

&MOTION
&MD
ENSEMBLE NVT
TIMESTEP [fs] 0.5
STEPS 60000 !30000 fs = 30 ps
TEMPERATURE 298
&THERMOSTAT
TYPE NOSE
REGION GLOBAL
&NOSE
TIMECON [fs] 100.
&END NOSE
&END THERMOSTAT
&END MD
&FREE_ENERGY
METHOD METADYN
&METADYN
DO_HILLS .TRUE.
NT_HILLS 100
WW [kcalmol] 1.5
&METAVAR
WIDTH 0.5 !Also known as scale
COLVAR 1
&END METAVAR
&PRINT
&COLVAR
COMMON_ITERATION_LEVELS 3
&EACH
MD 10
&END
&END
&END
&END METADYN
&END FREE_ENERGY

&PRINT
&RESTART ! This section controls the printing of restart files
&EACH ! A restart file will be printed every 10000 md steps
MD 5000
&END
&END
&RESTART_HISTORY ! This section controls dumping of unique restart files during the run keeping all of them.Most useful if recovery is needed at a later point.
&EACH ! A new restart file will be printed every 10000 md steps
MD 5000
&END
&END
&TRAJECTORY ! Thes section Controls the output of the trajectory
FORMAT XYZ ! Format of the output trajectory is XYZ
&EACH ! New trajectory frame will be printed each 100 md steps
MD 1000
&END
&END
&END PRINT
&END MOTION

&EXT_RESTART
RESTART_FILE_NAME MONITOR-1.restart
RESTART_COUNTERS .FALSE.
&END

酶残基QM

文献中的高阶计算表明 Arg90(注意,这是 parmed 中的残基 89)是最重要的催化残基,因此我们将在 QM 级别处理该残基。这给我们带来了一些麻烦。早些时候,我们可以将所有分支酸原子添加到 QM 系统中,因为它没有与蛋白质共价结合。对于与主链结合的酶侧链,这种情况当然是不同的。因此,我们必须选择将残留物切割成 QM 部分和 MM 部分的位置。尝试切断残留物中最无聊的脂肪族 C-C 键,绝对__避免切断严重极化的键__。在本例中,我们将切断 Cα - Cβ 键。 Cα 将成为 MM 子系统的一部分,而 Cβ 将成为 QM 子系统的一部分。为此,请将先前输入文件中的 FORCE_EVAL/QMMM#QM_KIND 部分替换为以下内容:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
&QM_KIND  O
MM_INDEX 5668
MM_INDEX 5669
MM_INDEX 5670
MM_INDEX 5682
MM_INDEX 5685
MM_INDEX 5686
&END QM_KIND
&QM_KIND H
MM_INDEX 1414
MM_INDEX 1415
MM_INDEX 1417
MM_INDEX 1418
MM_INDEX 1420
MM_INDEX 1421
MM_INDEX 1423
MM_INDEX 1426
MM_INDEX 1427
MM_INDEX 1429
MM_INDEX 1430
MM_INDEX 5664
MM_INDEX 5665
MM_INDEX 5672
MM_INDEX 5674
MM_INDEX 5677
MM_INDEX 5679
MM_INDEX 5681
MM_INDEX 5683
&END QM_KIND
&QM_KIND C
MM_INDEX 1413
MM_INDEX 1416
MM_INDEX 1419
MM_INDEX 1424
MM_INDEX 5663
MM_INDEX 5666
MM_INDEX 5667
MM_INDEX 5671
MM_INDEX 5673
MM_INDEX 5675
MM_INDEX 5676
MM_INDEX 5678
MM_INDEX 5680
MM_INDEX 5684
&END QM_KIND
&QM_KIND N
MM_INDEX 1422
MM_INDEX 1425
MM_INDEX 1428
&END QM_KIND
&LINK
MM_INDEX 1411
QM_INDEX 1413
LINK_TYPE IMOMM
&END LINK

注意 FORCE_EVAL/QMMM#LINK 小节。这告诉 cp2k 两个子系统的链接位置,在这种情况下是通过 MM 原子 1411 (Cα) 和 QM 原子 1413 (Cβ) 之间的键,以及如何处理链接。我们对链接使用IMOMM 方法。精氨酸侧链现已移至 QM 区域。这意味着我们需要将 QM 电荷调整为 -1,但这也会影响 MM 区域。精氨酸残基原子上的部分电荷总和为+1。当我们将侧链原子移动到 QM 区域时,它们的电荷不再计入 MM 区域,导致残留的部分电荷。在我们的例子中,总电荷为 -0.0362。我们可以通过在残基的所有 6 个主链原子上分配相等但相反的电荷来中和系统。例如,N 上的电荷为 -0.3479。从中减去 -0.0362/6 得出新电荷 -0.3419。对剩余的 5 个主链原子进行相同的计算,并检查六个原子的修改后的电荷加起来是否为零。然后,使用 parmed的更改命令应用更改:

1
change charge @1409 -0.3419

将修改后的参数保存到新的.prmtop文件并运行元动力学模拟。不要忘记修改 FORCE_EVAL/MM/FORCEFIELD#PARM_FILE_NAMEFORCE_EVAL/SUBSYS/TOPOLOGY#CONN_FILE_NAME 部分以选择新的参数文件。以与之前相同的方式处理 .restart文件以获得新的能量配置文件。

img

当我们比较两种能量分布时,我们可以看到反应的活化能约为 35 kcal/mol,这与文献值相当接近。当然,我们可以通过多种方法来改进对势垒的估计,例如对多个转换进行采样,降低高斯的高度和宽度以获得更细粒度的能量分布,切换到更准确的 QM 方法并处理更多质量管理级别的残留。本教程旨在作为进一步实验的起点,鼓励感兴趣的读者使用更准确的技术进一步探索该系统。