데이터 스테이션에 등록된 바이오 연구데이터*의 활용도를 높이기 위한 데이터 분석 기법(알고리즘), 플랫폼(소프트웨어, 파이프라인 등) 또는 시스템(공개형 데이터베이스, 웹 서비스, 모바일 애플리케이션 등)을 공모과제를 통해 개발하여 제공합니다.
* 수요조사 결과에 따라 기술 개발 우선 순위가 높은 오믹스 및 비오믹스 분야 연구데이터 타입 10개에 대한 활용기술 개발
오믹스 분야(염색질 고차구조, 단일세포, 마이크로바이옴, 단백체, 대사체, 멀티오믹스 데이터) 및 비오믹스 분야(신약, 화합물, 이미지/영상, 바이러스 관련 데이터)
deepMIMO는 의료영상 및 멀티오믹스 데이터를 종합적으로 분석하는 딥러닝 기반 통합 분석 플랫폼입니다. 본 플랫폼은 유방암 환자의 진단영상 및 멀티오믹스 데이터를 활용하여 환자의 예후 등을 예측하는 모델을 제공 하고, 사용자가 직접 일반암 데이터를 활용하여 예측모델을 생성할 수도 있습니다. 또한 본 웹사이트는 사용자가 예측모델 구축에 활용할 수 있도록 전처리 된 MRI 진단영상 및 유전자 발현 프로파일링 기능을 제공합니다.
https://deepmimo.apps.cloud.kbds.re.kr/
SC-Elephant DB Server는 새로운 단일세포 데이터 저장 포맷인 RamData 포맷과 메모리 효율적인 SC-Elephant 분석 플랫폼을 활용하여, 여러 단일세포 공공데이터베이스들에서 수집된 단일세포 데이터들의 통합적인 분석을 가능하게 합니다. 연구자들은 Heatmap,Violin Plot, UMAP/tSNE, WordCloud등의 다양한 그래프를 사용해 1,259개 클러스터로 이루어진 SC-Elephant 단일세포 데이터베이스(ELDB)를 탐색할 수 있으며, 분석 도중 관심 있는 세포들을 찾게 되면, 해당 세포들의 단일세포 전사체 데이터를 그대로 다운로드 받을 수 있어 후속 분석을 가능하게 합니다.
https://scelephant-db.apps.cloud.kbds.re.kr/
K-BDA는 Korea Biodata Station에 저장되어 있는 다양한 멀티오믹스 데이터를 대상으로 생물종 간 비교 분석 및 결과 시각화를 지원하는 웹 기반 분석 도구입니다. K-BDA를 활용하여 생물종 간 유전체, 전사체, 후성유전체 및 염색질 고차 구조 데이터 통합 분석이 가능합니다.
https://k-bda.apps.cloud.kbds.re.kr/
항원-항체 복합체 구조를 기반으로, 항원에 결합 가능한 항체의 CDR (Complementarity determining region) 구조 및 서열을 설계하는 모델. CDR은 항원과의 결합에 직접적으로 관여하는 항체의 지역으로, AbFlex를 통해 항원에 결합가능한 CDR을 설계하여 항체 치료제 후보들을 생성할 수 있습니다. AbFlex를 통해 생성된 항체 구조는 일반적으로 단백질 구조 분석에 많이 이용되는 PDB 파일 형식으로 제공되어 추가적인 in sillico 분석이 가능합니다.
https://abflex.apps.cloud.kbds.re.kr/
MORLD라는 웹사이트는 강화학습과 도킹을 기반으로 하여 새로운 compound를 생성하거나 lead compound를 최적화하는 서비스를 제공합니다. 이를 이용하면 target protein에 대해 높은 binding affinity를 갖는 분자를 생성할 수 있습니다.
https://morld.apps.cloud.kbds.re.kr/
대규모 화합물 데이터를 통한 화합물 검색 정보 제공(3 차원 공간·물리 화학적 특성 정보 /화합물-표적 단백질 상호작용 / 공통 fragment 제시) 및 AI 기반 가상 탐색 모델 활용 도구입니다.
https://apm.apps.cloud.kbds.re.kr/
단백체 및 수식화 단백체의 이종 데이터 통합 분석을 위한 데이터 분석 파이프라인으로 3가지 기능을 포함합니다.
1. Global to PTM : 단백체 데이터에서 수식화 정보 도출기능
2. PTM search : 탄뎀질량분석 라이브러리기반 수식화(인산화, 아세틸화, 당쇄화) 펩타이드 검색기능
3. Protein Glycation : 탄뎀질량분석기반 단백질 당화 분석기능
천장관절 MRI에서 딥러닝을 이용해 축성 척추관절염에 합당한 천장관절을 판정하고 질병 활성도를 예측하는 도구입니다. 진행 과정은 관심 영역 추출을 통한 천장관절 위치화 단계, 천장관절염 분류 단계, 천장관절염의 질병 활성도 예측 단계로 구분됩니다.
ARCHON 시스템은 표준 치료에 불은하는 난치암 환자에게 적정 치료제를 제시하기 위해 구축한 데이터 베이스로서 암 임상 멀티 오믹스 데이터틀 통합한 시스템입니다. 본 시스템은 다음과 같은 사항으로 이루어져 있습니다.
1. 장리드 (long read-)와 단리드 (Short read-) 전장 유전체, Hi-C 데이터, 전사체, 단백체
2. 임상 및 멀티 오믹스 데이터의 안전성 확보를 위한 개인 식별 정보의 자동화된 가명 처리 도구
3. 통합 분석 결과를 이용한 적정 치료제 제안
실제 임상 환경 모사 COVID-19 전임상동물 감염모델 이용 바이러스 전장유전체 기반 Single nucleotide polymorphism 분석법을 통한 전파 기전, 면역 회피 (백신, 항체치료제), 조직 특이성 등 바이러스 주요 표현형 에피톱 관련 신규 Reference 데이터 확보 및 기존 바이러스 주요 바이러스 표현형 관련 아미노산 에피톱 정보를 통합하여 바이러스 표현형 예측 데이터베이스를 생성합니다. COVID-19 유전자 시퀀스 (single/multiple 시퀀스)를 submission 후 시퀀스에 대해 통합적으로 다음과 같은 주요 예측 정보 분석이 진행됩니다.
1. COVID-19 유전자형 분류 (WHO label, Nextstrain clade, Pango lineages),
2. COVID-19 주요 표현형 분석 (Antibody escape, Virulence, tissue tropism,fusogenicity, transmissibility, ACE binding affinity, host jump 등),
3. COVID-19 주요 표현형 관련 지역의 Reference 주 (Wuhan-1, 가장 상동성 높은 Reference주)와의 Spike, N-terminal domain, furin cleavage site, receptor binding domain 등 주요 지역별 시퀀스 coverage 및 identity 분석 후 multiple alignment 이미지 파일 제공됩니다.
이 분석도구를 이용하여 신규 제공한 바이러스에 대한 분류, 주요 바이러스 표현형 분석, 주요 표현형 관련 지역에 대한 시퀀스 상동성 제공 및 multiple alignment 결과 이미지 제공을 통해 신규 주요 변이주 출현을 신속한 분석 및 예측이 가능합니다.
To systematically identify such de novo chromatin contacts, we developed a new machine-learning method named 'Chromatin Anomaly Pattern Recognition and Size Estimation,' (CAPReSE) comprising a deep neural network (DNN)-based feature extractor combined with an XGBoostclassifier. CAPReSE utilizes a unique chromatin contact signatureof SVs that shows enriched contact frequencies at the break-ends of SVs and a gradual decrease in contact frequencies along the rearranged genomic regions. The input tumor Hi-C contact map was normalized against a pan-normal Hi-C contact map, which leaves abnormally strong long-range or inter-chromosomal contact signals originating from the large-scale genomic rearrangements of each sample. Then, a series of image processing algorithms were applied to identify the SVs' unique chromatin contact signatures. The SVs supported by both WGS and Hi-C data were used as a ground truth set for the final classifier. As a result, CAPReSE achieved around 90% test accuracy (F1-score) in 2-fold cross validations. The performance of CAPReSE achieved a low false-positive rate in a benchmark test, outperforming conventional software. Also, robustness in performance (~90% recall and ~99% precision) regardless of tumor purity was confirmed.
CellCraft는 단일세포(Single Cells) 데이터의 유전자 조절 네트워크(Gene Regulatory Network)분석을 간편하고 효율적으로 수행할 수 있는 플랫폼입니다. 기존의 분석 도구들은 주로 생물정보학의 데이터 분석가들을 위해 만들어지고 사용되는 것들이지만 프로그래밍을 모르는 사람들도 셀크래프트를 이용하여 단일세포의 유전자 조절 네트워크 분석을 쉽게 다룰 수 있습니다. 현재는 단일세포의 유전자 조절 네트워크 분석 이외에도 여러 개의 생물학적 데이터를 다룰 수 있도록 개발되고 있습니다.
https://cellcraft.apps.cloud.kbds.re.kr/
원핵생물 유전체, single-amplified genome (SAG), metagenome-assembled genome (MAG) 조립을 통한 유전자 기능 할당, 비교분석 등 마이크로바이옴 통합분석 파이프라인을 제공합니다.
https://metafun-doc.readthedocs.io/en/main/
단백체 질량분석 데이터는 다양한 질량분석 장비로부터 얻어지기에 파일형식이 모두 다릅니다. 그러나 대부분의 원시 데이터를 MSconvert를 활용해서 국제 표준인 mzML 파일전환하면 본 단백체 분석 프로그램을 사용할 수 있습니다. 단백질 수준 FDR 1% 이내로 정성분석된 단백질을 excel 파일로 확인할 수 있습니다. CPU 코어 3.0 GHz 12개 이상, RAM 64GB 이상 필요합니다.
eProteinWorkBench는 다양한 화학, 생물학 관련 빅데이터의 내용을 상호 연결하고 통합하여 분석하는 웹 기반 분석 도구입니다. 타겟 단백질에 대한 서열 분석 결과, 단백질 구조에 대한 정제된 데이터를 제공하며, 화학 구조를 기반으로 유사한 구조의 화합물들이 어느 타겟에 대한 활성이 있는지 검색하고, 활성 화합물들의 chemical space 분석 등이 가능합니다.
https://eprotworkbench.apps.cloud.kbds.re.kr/