技術(shù)文章
TECHNICAL ARTICLES評(píng)判數(shù)據(jù)標(biāo)準(zhǔn)的指標(biāo)
也許是歷史傳統(tǒng)的問(wèn)題, Rint (Rsym,Rmerge)被選中了作為評(píng)判數(shù)據(jù)標(biāo)準(zhǔn)的指標(biāo)。甚至在很多不是很專(zhuān)業(yè)的書(shū)里,學(xué)生們都被告知Rint 需要低于多少,I/σ高于多少才能表示數(shù)據(jù)可用。于是乎,這些數(shù)值變成了評(píng)判數(shù)據(jù)質(zhì)量所謂的金標(biāo)準(zhǔn)。可是當(dāng)提問(wèn)Rint 是什么意義時(shí),跟什么因素相關(guān)時(shí),大多數(shù)同學(xué)卻卡在了那里??赡躌int在大多數(shù)同學(xué)眼里就是個(gè)發(fā)表文章的門(mén)檻數(shù)值,具體是什么意義已經(jīng)不再重要。不然就不會(huì)有那么多同學(xué)追問(wèn)著怎么把Rint修下去,或者解決掉所謂的“錯(cuò)誤"。
誠(chéng)然Rint本身的意義并不復(fù)雜。它的公式也看起來(lái)一目了然,表示著合并等效衍射點(diǎn)之間的誤差。Rint值越低,通常表示著數(shù)據(jù)的精度越高。然而這是有一定的前提條件的。Rint實(shí)際上并不是一個(gè)很好的評(píng)判數(shù)據(jù)質(zhì)量的指標(biāo)。畢竟絕大多數(shù)數(shù)據(jù)都是通過(guò)Scale校正獲得。過(guò)度的Fitting,以及刻意排除太多的衍射點(diǎn)都可以獲得人為的更低的Rint(以及更高的I/σ)。而這些刻意追求的數(shù)字對(duì)結(jié)構(gòu)精修并無(wú)意義,反而會(huì)導(dǎo)致精修的結(jié)果失真。甚至一些數(shù)據(jù)處理的軟件會(huì)去迎合同學(xué)們的這種“追求",去“美顏"數(shù)據(jù),讓大家“喜聞樂(lè)見(jiàn)",然而有時(shí)掉進(jìn)了坑里,卻渾然不知。Rint同時(shí)也受到數(shù)據(jù)收集的多重度的影響。過(guò)低的多重度,會(huì)讓衍射點(diǎn)沒(méi)有其它等效點(diǎn)可以進(jìn)行比較,自然Rint就會(huì)很低,甚至接近于0,然而卻毫無(wú)意義(結(jié)構(gòu)甚至都無(wú)法解析)。而高多重度的數(shù)據(jù),由公式?jīng)Q定了Rint自然會(huì)升高,反而成了大家不喜歡看到的數(shù)值。但是不管怎么解釋?zhuān)芏嗤瑢W(xué)仍然不以為然,原因只是Checkcif不檢查多重度,但是對(duì)Rint卻有“嚴(yán)格"的門(mén)檻(而實(shí)際上大多數(shù)Rint高的問(wèn)題是分辨率的問(wèn)題)。同樣的I/σ也是一樣,不同的誤差模型的算法,自然得到的數(shù)值會(huì)大有不同。調(diào)高I/σ自然也是大家喜聞樂(lè)見(jiàn)的事情,比如故意降低σ,刪除更多的衍射點(diǎn)也會(huì)讓I/σ看起來(lái)更高。然而這些美顏的數(shù)據(jù),對(duì)結(jié)構(gòu)精修卻毫無(wú)意義。
對(duì)于多重度對(duì)Rint的影響,Rmeas解決了這個(gè)問(wèn)題,所以對(duì)于蛋白晶體學(xué)傾向于用Rmeas。此外現(xiàn)在還有CC1/2 來(lái)表征數(shù)據(jù)質(zhì)量。不過(guò)在化學(xué)晶體學(xué)界似乎對(duì)這兩個(gè)數(shù)值并不感冒。也許是通常衍射太強(qiáng),不需要更寬松的指標(biāo)。這些指標(biāo)在APEX4里都能輕松看到。
實(shí)例分析
比如前兩天講座的時(shí)候提到的一個(gè)數(shù)據(jù),大家投票的結(jié)果在意料之中。超過(guò)一半的同學(xué)都認(rèn)為質(zhì)量更高的數(shù)據(jù)是A。如果這是不同的數(shù)據(jù)還情有可原,然而這是同一套數(shù)據(jù),同樣的結(jié)構(gòu)模型。或許是顏色的誤導(dǎo),讓同學(xué)們失去了基本的判斷力。A為什么會(huì)看起來(lái)更好看,因?yàn)镽eject了很多數(shù)據(jù)。完整度表觀上只下降了2%,而實(shí)際上卻高達(dá)30%的數(shù)據(jù)被reject,Multiplicity極大的下降。保留下來(lái)的衍射點(diǎn)自然站在了一邊,雖然看起來(lái)更精確,卻丟失了準(zhǔn)確。自然結(jié)構(gòu)精修的結(jié)果就會(huì)反過(guò)來(lái)打臉。追求某些數(shù)字,對(duì)結(jié)構(gòu)解析和精修本身毫無(wú)意義。結(jié)構(gòu)精修的質(zhì)量作為評(píng)判數(shù)據(jù)質(zhì)量的指標(biāo)才更加合理。比如R1,健長(zhǎng)的精度,殘余的電子峰等。
▲圖1 Better Data Quality A or B?
除了軟件處理造成的假象,有時(shí)候會(huì)遇到一些看起來(lái)數(shù)值質(zhì)量很高,卻怎么也精修不好的數(shù)據(jù)。比如有嚴(yán)重的無(wú)序,莫名的Q峰。這時(shí)候?qū)W⒂诮Y(jié)構(gòu)精修,會(huì)百思不得其解。從衍射圖上才會(huì)發(fā)現(xiàn)更多的端倪。孿晶自然不需要多做解釋?zhuān)硗庖恍﹩?wèn)題則更加的隱蔽,單純從hkl上其實(shí)發(fā)覺(jué)不了任何問(wèn)題。因?yàn)閱尉У臄?shù)據(jù)還原并不是還原的所有的信息,而是通過(guò)晶胞截選而來(lái)。而很多時(shí)候,“晶胞"不能反映衍射的全部信息,自然會(huì)丟掉很多原本的衍射細(xì)節(jié)。比如很多Smear的信號(hào),Modulation的信號(hào),衍射點(diǎn)形狀的信號(hào)。這些信息都不會(huì)在hkl文件中體現(xiàn)。普通的結(jié)構(gòu)精修自然也無(wú)法全部的反映晶體的實(shí)際狀況。
▲圖2 丟失的衍射信息 A,衍射點(diǎn)間的彌散信號(hào) B,衍射的背景彌散,C,Modulation (Precession Image)
結(jié)論
所以數(shù)據(jù)質(zhì)量的評(píng)估,從來(lái)都不是單個(gè)指標(biāo),固定的標(biāo)準(zhǔn)。從衍射圖到數(shù)據(jù)處理,到結(jié)構(gòu)精修,每一步的細(xì)節(jié)都在告訴著我們的數(shù)據(jù)可能出現(xiàn)的問(wèn)題。真實(shí)的數(shù)據(jù)才會(huì)有真實(shí)的結(jié)構(gòu),刻意為了迎合某些死板的標(biāo)準(zhǔn),不惜去“美顏"甚至偽造數(shù)據(jù),也就背離了科學(xué)研究。
-轉(zhuǎn)載于《布魯克X射線部門(mén)》公眾號(hào)
掃一掃,關(guān)注公眾號(hào)
服務(wù)電話:
021-34685181 上海市松江區(qū)千帆路288弄G60科創(chuàng)云廊3號(hào)樓602室 wei.zhu@shuyunsh.com服務(wù)熱線:
021-34685181
17621138977