in Flyandbee

돈으로 쳐발라 논문 쓰기: scRNA-seq 시대의 과학적 타락

요즘 논문 리뷰를 하다 보면 가끔 묘한 기시감이 든다.

2000년대 초반, microarray가 처음 세상에 나왔을 때도 똑같았다. Affymetrix 칩 하나 돌리면 수만 개의 유전자 발현 데이터를 한방에 뽑을 수 있다는 게 당시엔 혁명처럼 느껴졌다. 앞다투어 칩을 돌렸다. 암 조직에, 뇌에, 간에, 심지어 조건을 제대로 통제하지도 않은 샘플에. UMAP 대신 당시엔 hierarchical clustering이었고, 지금의 DEG 목록처럼 당시엔 “유전자 발현 서명(gene expression signature)”이라는 이름으로 논문이 쏟아졌다.

그 결과가 어땠는지는 역사가 증명한다.

Nature Genetics에 2005~2006년 사이 게재된 microarray 기반 유전자 발현 논문 18편을 독립적인 두 팀이 재현을 시도한 결과, 완전히 재현된 분석은 단 2편에 불과했고, 10편은 아예 재현이 불가능했다. 절반이 넘는 논문이 사실상 재현 불가능한 쓰레기였다는 얘기다. 실패의 주된 이유는 데이터 자체가 공개되지 않았거나, 분석 방법이 불완전하게 기술되어 있었기 때문이었다. Ioannidis et al. (2009). Repeatability of published microarray gene expression analyses. Nature Genetics, 41, 149–155.

그 많은 Affymetrix 칩 돌린 돈, 그 많은 샘플, 그 많은 연구자의 시간—다 어디로 갔을까. 유행하는 과학을 하지 말라던 막스 델브릭의 단호함에는 이유가 있다. 과학은 유행을 따르는 인간의 본성 때문에, 그 진보의 속도가 늦춰지기 때문이다.


역사는 반복된다. 이번엔 단세포 RNA 시퀀싱(scRNA-seq)이다.

10x Genomics Chromium 기기가 보급되면서 단세포 분석의 진입장벽이 극적으로 낮아졌다. 기술적으로 나쁜 소식이 아니다. 문제는 이 기술을 어떻게 쓰느냐다.

요즘 내가 리뷰하는 논문 중에서 다음 패턴을 따르는 것들이 무서울 정도로 많다:

1단계. 조직 샘플을 구한다. (혹은 이미 실패한 실험의 샘플을 재활용한다.) 2단계. 10x Genomics에 돈을 넣는다. 3단계. Seurat 혹은 Scanpy로 클러스터링한다. 4단계. UMAP을 그린다. 5단계. “우리는 X 조직에서 Y 세포 유형을 발견했다”고 쓴다. 6단계. “이 데이터는 귀중한 리소스를 제공한다”로 결론을 맺는다. 7단계. 논문을 제출한다.

과학적 질문은 없다. 검증 실험은 없다. 메커니즘은 없다. 추후 실험 계획도 없다. 있는 건 예쁜 UMAP 하나와 마커 유전자 목록뿐이다.

나는 이걸 “UMAP 논문”이라고 부른다.


최근 내가 리뷰한 논문 하나가 있다. 미국 아이비리그 대학에서 온 원고였다. 본래 실험적 가설이 있었던 것 같은데, 그 가설을 검증하는 데 scRNA-seq이 실패했다. 그러자 이 연구자는—데이터를 버리는 대신—그 실패한 데이터로 논문을 썼다. “우리는 이 조직의 세포 유형을 포괄적으로 분류했다”는 식으로 프레임을 바꿔서. 결론이라고 할 수 있는 건 없었다. 후속 실험 계획도 없었다. 소속 기관의 이름이 없었다면 편집자의 책상도 통과 못 했을 원고였다.

거절했다.


이 문제의 구조적 원인은 뭔가.

첫째, scRNA-seq 데이터는 그 자체로 “가설”처럼 보인다는 착각이다. 수만 개의 세포, 수천 개의 유전자, 화려한 클러스터 그림—이게 뭔가 많은 걸 말해주는 것처럼 보인다. 그런데 아니다. UMAP은 차원 축소 시각화일 뿐이고, 클러스터는 통계적 군집이지 생물학적 실체가 아니다. 데이터는 질문이 없으면 아무것도 대답하지 않는다.

둘째, 재현성의 문제다. scRNA-seq 데이터는 dissociation artifact, ambient RNA 오염, batch effect, doublet 등 기술적 노이즈의 집합체다. 동일한 샘플에 대한 기술적 반복 실험에서도 차등 발현 유전자 목록이 일치하지 않는 경우가 매우 흔하며, 이러한 재현성 문제는 microarray를 비롯한 고처리량 post-genomics 분야 전반에서 지속적으로 나타난다. 트랜스크립토믹스 데이터만으로 내린 결론이 후속 연구에서 재현되지 않는 건, 우연이 아니라 구조적 필연이다.

셋째, 업적 평가 시스템의 문제다. 논문 편수, 피인용 수, 임팩트 팩터—이 지표들이 과학의 질보다 데이터의 양을 보상하는 구조를 만들어왔다. scRNA-seq은 이 구조에서 완벽한 도구다. 비싸고, 화려하고, 많은 데이터를 생산하며, 그럴듯해 보인다.


그럼 제대로 된 scRNA-seq 논문은 뭔가.

트랜스크립토믹스 데이터가 정말 빛을 발하는 건, 그것이 명확한 생물학적 질문과 결합할 때다. 예컨대 최근 나온 초파리 신경조절 뉴런 연구처럼—성공적인 교미 vs. 거절 경험 vs. 순진한 상태라는 세 가지 명확하게 정의된 조건에서, 특정 뉴런 유형(세로토닌성, 옥토파민성, NPF 수용체 뉴런)의 전사체를 비교하고, 각 조건이 서로 비중첩적인 분자 프로그램을 활성화한다는 걸 보여주는 방식. 데이터가 질문을 섬기는 것이지, 데이터가 논문을 대신하는 게 아니다.

게다가 좋은 트랜스크립토믹스 논문은 반드시 기능 검증이 따른다. 발현이 올라간 유전자가 실제로 기능적 의미가 있는지, 그걸 보여주는 유전학적, 생화학적, 혹은 행동학적 실험이 있어야 한다. RNA 서열이 단백질이 되고, 단백질이 기능을 하고, 기능이 표현형을 만든다—이 인과의 사슬을 쫓는 게 분자생물학이다.


걱정되는 건 따로 있다.

지금 scRNA-seq으로 쏟아지는 논문들의 상당수가 10~20년 후 microarray 논문들처럼 거대한 재현 불가능 더미가 될 것이다. 그 데이터들은 GEO나 CELLxGENE 같은 데이터베이스에 쌓이겠지만, 그것이 무엇을 “증명”했는지는 아무도 모를 것이다. 증명한 게 없으니까.

재현 불가능하고 신뢰할 수 없는 연구는 학계를 오도하고, 연구비를 낭비하고, 과학적 진보를 늦추며, 과학에 대한 공공의 신뢰를 갉아먹는다.

돈으로 시퀀싱 기기를 돌리는 건 쉽다. 과학을 하는 건 어렵다. 그 어려움을 피해가는 방법을 우리가 집단적으로 보상하고 있다는 게 문제다. 다음 번에 scRNA-seq 논문을 쓰기 전에, 아니면 리뷰하기 전에, 스스로에게 물어보자.

이 논문에서 UMAP과 DEG 목록을 빼면 무엇이 남는가.

남는 게 없다면, 그건 논문이 아니다.


참고

  • Ioannidis et al. (2009). Repeatability of published microarray gene expression analyses. Nature Genetics, 41, 149–155.
  • Nekrutenko & Taylor (2012). Next-generation sequencing data interpretation. Nature Reviews Genetics.
  • Hicks & Irizarry (2015). methylCC: technology-independent estimation of cell type composition. Genome Biology.

#scRNAseq #단세포시퀀싱 #재현성위기 #과학비판 #유전체학 #ReproducibilityChallenge #InitiativeOnGoodScience #genomics #transcriptomics #과학윤리 #김우재 #초파리유전학 #microarray #오믹스의역설 #돈으로쓰는논문 #UMAP논문 #분자생물학 #싱글셀 #10xGenomics