Chemopredictors Irreproduciency:详细的回复 - 回复

基思A. Baggerly和Kevin R.Coombes

我们现在检查了一些可用的一些新数据http://data.cgt.duke.edu/naturemedicine.php.。鉴于此数据,我们希望更详细地重新审视Potti和Nevins制造的两个断言。我们的分析详情有6个报告(REP01-REP06)提供,该报告与下面相关联。

多西紫杉醇

他们认为,当我们使用从培训和测试集中创建的Metagenes来预测对多西紫杉醇的响应时,我们获得了与他们的结果非常相似。注意“简而言之,他们在使用我们的方法时重现我们的结果。”

我们不认为我们得到了他们的结果。我们的补充报告9的图8显示(a)如果我们在我们的Metagene组件中使用测试数据,我们将所有测试样本放在单个类中,(b)如果我们使用训练和测试数据为了组装比赛,我们将一些测试样本放置在每个敏感/抗性等级中。但是,在两组中放置样本并不能确保我们如此正确。当我们使用后一种方法来获得17/24正确的Metagene集会,这是他们报告的22/24(rep01.)。

我们认为,部分差异的可能性可能是由于一些测试样本的抢购。正如我们在我们的信函中所指出的那样,Potti等,24个常等测试样品中的13个敏感,但常等仅称为24敏感的11。Potti等文件“Chanc Clinical Data.doc”给出了这种转变的解释。敏感度在百分比百分比百分比百分比中定义。Chang et Al将截止值“敏感”在25%的残余疾病中设置,而Potti et al将截止值设置为40%。使用Data Potti等人报告,这导致两名患者N12和N13,被重新分类。我们针对长期报告的临床信息检查了此信息(rep02.),发现一个差异。根据Chang等,患者N14患者具有39%的残余疾病。根据Potti等,患者N14具有40%的残余疾病。使用Chanc等人提供的数字,应该有14名“敏感”患者使用40%的截止值,而不是13.无论设置截止值如何,我们都希望看到我们的准确性是否可提高患者N12和N13。

由于Chang等人没有提供将样本标识符N1-N24(用于将临床信息描述为GSM4901-GSM4924(用于标记量化的GEO)相关的示例标识符N1-N24(用于描述临床信息)的映射,因此该抢购是不值的。如果我们使用Chang等人标签,我们不需要这种映射,因为“敏感”和“抗性”数据分别在不同的组中发布--- GSE350和GSE349,使用样本GSM4913误标记为每个Susan Hilsenbeck。幸运的是,来自Chanc等人的补充信息确实为与样品N1-N24连接的92个基因提供定量值。使用这些量化,我们确定了所需的映射(rep03.)。作为快速检查,我们要注意的是,我们的第一个11“敏感”样本的标签来自Chang等人的样本与他们提供给Geo的分组。

然后,我们尝试使用Potti等,“乳房数据(n = 24).txt”提供的新补充表中的Potti等人使用的数字来检查Potti等人使用的数字。此表有14列用于训练数据和用于测试数据的24列。在使用培训数据以识别应用的处理后,我们检查了样本标识。不幸的是,我们发现了(REP04.

  1. 为培训数据提供的敏感/抗性标签与“预测器生成过程的描述描述”中的那些Potti等供应相反。他们的预测将逆转。
  2. 敏感/抗性标签被扰乱用于测试数据,在应用任何处理之前,24个样本中的10个样品中的10个。重新分类N12和N13不会改变数字错误。
  3. 省略了一个Chanc测试样本GSM4914。
  4. 其中一个CANC测试样品GSM4910包括两次,标记为耐药一次,一旦敏感。下面给出了说明我们的映射的曲线。

我们的结果与他们不同的一个原因是Potti等人为Docetaxel发布的数据(和大概使用)是错误的。

adriamycin.

在我们的通信的第6页中,我们注意到应用于Adriamycin的敏感和抗性标签的表观逆转。在他们的回应中,Potti和Nevins地址为此,评论“急性淋巴细胞白血病数据集,其中标签准确---在我们的网页上提供完整的详细信息。”

在2007年11月8日的网页上提供的16个文件中,只有一个“Adria_all(n = 122).txt”涉及adriamycin样本。此文件包含144个样本的已处理数据,22个培训和122个验证。侧面的一个注释(在ep3中读入Excel时的位置)指出,“验证数据来自GSE4698,GSE649,GSE650,GSE651等。”

帕蒂等人的初始自然医学纸只仅为GSE650和GSE651,我们在我们的通信中注明。这两种数据集涉及标记为敏感的94个样品,标记为抗大生霉素(Adriamycin = Doxorubicin)的28个样品,最多添加122个样品。GSE649给出标有36个样品的测量,标记为耐血管内,而不是adriamycin。这三个Geo数据集全部通过Holleman等(Nejm,2004,351:533-542)链接到论文。GSE4698涉及从kirschner-schwabe等人(Clinc Canc Res 2006,12:4553-4561)中描述的所有来自患有的儿童的样本。这最后不是由Potti等人引用的。鉴于这4个数据集中的样本总数为218,而不是122,96(或更多,如果有来自“其他列的某些列)必须被排除在外。

验证数据列不会按名称标识。我们只是告诉(a)他们是验证样本,(b)是否是resp或nr。因此,我们不知道涉及特定样本的特定样本,它们来自哪个完整的数据集(假设它们不来自Passall“和其他”),或者他们相关的临床信息是什么。我们认为需要更多细节。

数据似乎以与上面讨论的乳房数据相同的方式处理,但是仅存在8958行(不是12558)。这是由于使用芯片比较,从U95AV2训练数据映射到U133AV2验证数据。尽管如此,我们能够(有一些努力)精确地复制培训数据给出的值(REP05.),所以我们了解映射如何应用于U95AV2数据。缺乏对U133AV2阵列上运行的验证样本的标识的知识,我们无法对这些阵列使用的芯片比较有何了解。

而不是尝试将单个样本映射回其初始数据集,而是通过查找常见行为的想法检查列之间的成对相关性。我们发现了什么(REP06.)如下所示。

122个验证样本并不差异;只有84列是唯一的。使用一些样品2,3或4次。此外,多次使用的一些样品都标记为两种方式 - 所示4次的样品中的一种标记为NR 3次,并且resp一次。鉴于这种“交叉标签”,我们很难看到标签如何(正如置位)正确,尽管23次的计数和99个NR确实匹配Potti等人的图2C所示的计数。

与为DovEtaxel发布的验证数据一样,为Adriamycin发布的验证数据是错误的。