模拟蛋白质组学光谱

在我们的论文中使用平均谱来寻找峰和定量,我们模拟了数百个蛋白质组学数据集。我们用仿真数据比较了两种不同处理算法的结果。数据集在这里是可用的,所以其他人可以比较他们的算法和我们的算法在一个标准数据集上,知道每个光谱的峰值是什么。

每个zip文件包含25个数据集。每个数据集解压到自己的目录,Dataset_X,在那里X是1到100之间的数字。

每个数据集目录包含两个子目录:RawSpectratruePeaks

RawSpectra子目录包含100个文本文件。每个文本文件代表一个带有两列数据的光谱,一列是质量,一列是强度。

truePeaks子目录还包含100个文本文件,表示数据中的真实峰值列表。真相也在两列中给出,第一列包含质量,第二列包含模拟中该质量的离子数量。

最后,Dataset_X目录中包含一个名为true_peaks.txt.这是一个用逗号分隔值的UNIX文本文件,有4列,包含对生成100个虚拟频谱的虚拟总体的描述。每一个峰值都有一行,用它的质量、它的流行度(它出现在单个光谱中的概率)、它的平均对数强度和对数强度的标准差来描述。

参考

Morris JS, Coombes KR, Koomen J, Baggerly KA, Kobayashi R.生物医学应用中使用平均光谱的质谱特征提取和定量。生物信息学.2005;21: 1764 - 75。