메뉴 바로가기 본문 바로가기 하단 바로가기

Korea Bioinformation Center

국내 생명연구자원정보의 총괄관리와 생명정보 분야의 전문연구를 위한 범부처 국가센터

공개 분석 파이프라인

#Whole Genome Sequencing
#WGS
#Genomics
#Next Generation Sequencing
#Precision Medicine
#Clinical Genomics
#noncoding genome
#GATK
#fastp
#Cutadapt
#BWA
#SortSam
#MarkDuplicates
#CountBase
#BaseRecalibrator
#ApplyBQSR
#HaplotypeCaller
#somalier
KOBICian's Story
KOBIC에 입사한 지 어느덧 4개월여의 시간이 흘렀습니다. 짧다면 짧고, 또 길다면 길게 느껴지는 시간이었습니다. 이번 글에서는 최근까지 '등록 양식 고도화 작업'을 수행했던, 단일세포와 공간전사체 데이터에 관한 이야기를 나누고자 합니다. 흔히 조직 수준의 평균적인 유전자 발현을 확인하는 bulk RNA-seq을 과일 셰이크에, 조직을 이루는 개별 세포 단위로 쪼개어 유전자 발현을 측정하는 단일세포 전사체 데이터를 개별 과일에 비교하곤 합니다. 그렇다면, 발현량에 세포나 조직의 위치 정보를 더해 조직 구조와 세포 상호작용을 이해할 수 있는 공간 전사체 데이터는 개별 식재료들을 정교하게 배치한 정찬이라고 볼 수 있을 것입니다. High-throughput sequencing(HTS) 기술은 어떻게 이러한 샘플의 복잡성을 반영하는 방향으로 발전할 수 있었을까요? 제가 처음 대학원 문을 두드리던 무렵에는 RNA-seq이 Microarray를 대체하고 주류 전사체 데이터 생산 기술로 자리매김하고 있었습니다. 이 데이터들에 익숙해질 무렵 단일세포 시퀀싱 기술로 생성된 전사체 데이터를 처음 접하고, 충격을 받았습니다. 여러 연구자가 경쟁하며 개별 연구에서 다루는 세포 수가 순식간에 백만 단위 규모로 폭발적으로 증가했죠. 그러나 시간이 지나며 세포 수라는 양적 가치에서 복합적인 정보들을 통합하는 질적 가치로 연구의 무게중심이 옮겨가는 흐름이 뚜렷해졌습니다. 여전히 많은 세포를 분석하는 연구는 계속되고 있지만, 이제는 여러 오믹스 기술과 공간 정보를 통합하여 개별 샘플로부터 더 풍부한 정보를 얻고, 이를 바탕으로 더 복잡한 생물학적 질문에 답하는 방향으로 연구가 진화하고 있습니다. 이러한 변화를 지켜보며 자연스레 떠오른 개념이 '양질전화(量質轉化)'입니다. 양적 변화가 점진적으로 축적되다 보면 어느 순간 질적 변화가 일어난다는 철학적 개념인데, HTS 기술 발전에 따라 단일세포와 공간전사체 기술의 등장을 지켜보며 이러한 개념을 엿볼 수 있었습니다. HTS 기술이 성숙함에 따라 단순히 '더 많은 양'의 데이터를 생산한 것이 아닙니다. 단일 실험에서 수십억 개의 시퀀싱 read를 생산할 수 있게 되었고, 이는 단순한 양적 증가를 넘어 질적 변화를 가능하게 했습니다. 데이터 처리량의 규모가 특정 임계점을 넘어서자, 이전에는 불가능했던 패턴 인식과 통찰이 가능해진 것입니다. 세포 단위 정보를 식별하여 고해상도 데이터를 생산하거나, 공간 정보를 추가하여 기존의 유전자 발현 데이터에 새로운 맥락을 더하는 기술적 발전은 모두 시퀀싱 기술의 발전을 통해 점진적으로 증가한 생산량이 어느 수준에 도달하여 나타난 결과일 것입니다. 이렇게 생산된 단일세포와 공간전사체 데이터는 기존의 시퀀싱 데이터와는 상이한 특성들을 지닙니다. 세포 분리 방법, 세포 포집 효율, 이미징 정보 획득을 위한 조직 처리 과정 등 생산과정이 훨씬 복잡할 뿐만 아니라, 생성되는 데이터 자체도 세포 유형별 정보, 세포 간 상호작용, 공간적 분포 등 다층적인 정보를 포함합니다. 그동안 단일세포와 공간전사체 데이터가 국가 바이오 데이터 스테이션(K-BDS)에 등록되지 않은 것은 아니지만, 기존 양식으로는 데이터와 생산과정의 다양한 특성을 충분히 담아내지 못했기에 등록양식 고도화 작업이 필요했습니다. 고도화를 통해 담아내고자 했던 것은 먼저 다양한 데이터의 형태였습니다. 과거에는 몇 가지 표준화된 형식으로 데이터를 관리할 수 있었지만, 이제는 다양한 플랫폼과 기술에서 생성된 데이터의 이질성이 더욱 커졌습니다. 다양한 단일세포 및 공간전사체 기술들은 기존의 KRA뿐 아니라 서로 간에도 다른 형식과 해상도의 데이터를 생성하지만, '단일세포' 또는 '공간전사체'라는 범주 내에서 이들 데이터의 등록이 간편하게 이루어질 수 있도록 했습니다. 또한 메타데이터에 작성해야 할 항목들이 크게 늘어났습니다. 새로운 플랫폼과 기술에 따라 데이터를 해석하고 재현하기 위해서는 더 많은 실험 조건과 기술적 세부 사항이 기록되어야 합니다. 예를 들어, 단일세포 실험에서는 세포 분리 방법, 캡처 효율, 시퀀싱 깊이 등이, 공간전사체 실험에서는 조직 처리 방법, 섹션 두께 등 이미징 정보뿐 아니라 시퀀싱 정보와 산출된 이미지 정보를 연결하는 프로토콜 또한 중요한 메타데이터가 됩니다. 특히 이번 등록 양식 고도화에서는 발현량 매트릭스뿐 아니라 사용자가 제출하는 분석 데이터의 주요 유형을 정의하고 이들이 유래한 샘플 정보와의 연계성을 검증하여 사용자들의 편의를 도모하고자 했습니다. 이는 현재 NCBI GEO나 EBI의 Biostudies를 비롯한 주요 데이터베이스에서도 제공하지 않는 기능이라, 활용성 증대를 통해 K-BDS의 경쟁력을 강화하는 데 도움이 될 것으로 기대합니다. 시퀀싱 기술을 비롯한 바이오 데이터 생산 기술은 앞으로도 계속 발전할 것이며, 새로운 형태의 데이터들이 지속적으로 등장할 것입니다. K-BDS에서도 이러한 기술적 발전을 적시에 파악하고 반영하고자 노력하지만, 등록 양식의 고도화는 기술의 발전 속도를 따라가기 어려운 것이 현실입니다. 그럼에도 불구하고 이러한 노력은 필수적입니다. 새로운 기술로 생산된 데이터는 그에 맞는 메타데이터 없이 제대로 사용하기 어렵고, 충분한 부가 정보 없이 등록된 데이터는 추후 활용 가치가 크게 떨어지기 때문입니다. 그렇기 때문에 이번에 고도화될 단일세포와 공간전사체 데이터 등록양식이 오래도록 유용함을 잃지 않고 연구자들의 데이터 등록에 사용될 수 있기를 바랍니다.

바이오익스프레스 서비스는 동적 컨테이너 기반 자동화된 워크플로우 분석 플랫폼과 고속 데이터 전송 서비스를 통해 과학 분야의 빅데이터 분석을 가능하게 하는 국내 유일의 클라우드 기반 통합 데이터 분석 서비스입니다.

다운로드

환경에 맞는 OS용 워크벤치 및 고속전송 서비스를
다운로드 해주세요.

5,850

사용자

1,024

워크스페이스

87,437

실행 태스크
국가바이오데이터스테이션 데이터 활용 바로가기

바이오 연구 데이터란 생명과학 분야의 국가 R&D 사업을 통해 생산된 모든 종류의 데이터를 의미하며, 이러한 데이터를 활용한 혁신 연구 방식이 각광받으면서 R&D 혁신을 견인하는 핵심요소로 부각되고 있습니다. 이를 위하여 부처·사업·연구자별 흩어져 있는 데이터를 통합 수집·제공하는 국가바이오데이터스테이션을 구축하여 데이터 기반 바이오 연구 환경을 조성하려 합니다.

데이터별 등록 현황

  • 2,071

    바이오프로젝트
  • 107,308

    바이오샘플
  • 2,374,115

    등록된 데이터

바이오 프로젝트 등록 현황

등록 누적 건수(건)
국가 바이오 빅데이터 사업 사업소개 바로가기

정밀의료의 근간이 되는 바이오 빅데이터는 사후적 치료 중심에서 개인 맞춤형 치료·예방의료로 전환됨에 따라 중요도가 커지고 있습니다. 특히 선점 효과가 큰 바이오 산업의 경우 선제적 투자가 필요하며, 주요국들은 대규모 바이오 빅데이터를 구축하고 있습니다. 이에 따라 국가적으로 미래 의료 선도를 위한 국가 바이오 빅데이터를 구축하기 위해 본 사업이 시행되었습니다. 정밀의료 시대의 중심인 '바이오 빅데이터'를 국가차원에서 수집-저장-활용 할 수 있는 기반을 조성하고, 신산업 촉진 및 건강한 삶의 증진에 기여하고자 합니다.

임상정보 수집

16개 희귀질환 협력기관을 지정 운영하여 희귀질환자 모집 후 임상정보 수집

데이터 분석

수집된 희귀질환자의 검체를 자원 제작 기관으로 운송 후 유전체 데이터 생산ㆍ분석

데이터 공유

수집된 임상정보 및 유전체 데이터는 3개의 기관에서 컨소시엄을 구성해 공유

데이터 활용

분석한 데이터는 희귀질환자 상담 및 진료 ㆍ연구 활동 등에 활용

유전체 데이터 25,000
변이분석 데이터 25,000
임상 정보 25,000
코호트 7
감염병 연구정보포털 소개 바로가기

감염병 연구정보포털(Infectious Disease Data Portal)은 전 세계 감염병 바이러스의 연구데이터를 통합 제공하는 포털 서비스 입니다. 빠르게 변화하는 상황에서 감염병을 이해하고 치료법과 백신을 개발하기 위해 데이터와 결과를 조화롭게 공유하기 위해 KOBIC은 전세계 감염병의 연구정보데이터를 통합하여 제공하고 있습니다.

시퀀스 대시보드

88,386 국내 유전체 서열
1,354 국내 단백질 서열
19,685,177 국외 유전체 서열
35,837,682 국외 단백질 서열
19,764,289 코로나 유전체 서열
35,333,179 코로나 단백질 서열
바이러스

감염병 개요, 입자 및 유전체 구조, 생활사, 역학, 변이 등 바이러스에 대한 통합 정보를 제공

데이터

전세계에서 수집한 염기서열 및 단백질 서열, 단백질 구조를 품질분석하여 제공

통계

바이러스 데이터의 발병 시기, 지역, 변이 등 다양한 통계 서비스

분석도구

간단한 웹 기반의 감염병 표준 염기서열 BLAST 서비스

연구지원

국내 생명과학 연구의 활성화를 위하여 생명정보학 전문지식 습득 및 전산자원이 필요한 연구자 여러분들께 다양한 생명정보학 관련 연구를 지원합니다.

  • 042-879-8544
  • swhwang@kribb.re.kr

KOBIC 온라인 교육

바로가기
  • 042-879-8582
  • bkbaik@kribb.re.kr
TOP