4 min readApr 2, 2021
[논문 리뷰] Deep learning을 이용한 Crispr/Cas9 sgRNA 효율 예측 (1)
- Optimized Crispr guide RNA design for two high fidelity Cas9 variants by deep learning
- [출처] Wang et al., Nature Communication (2019)
- https://www.nature.com/articles/s41467-019-12281-8
[배경 및 보충 설명]
- Deep learning을 이용한 SpCas9 / eSpCas9 (1.1) / SpCas9-HF1의 gRNA activity 예측하는 DeepHF 개발 (http://www.DeepHF.com).
- eSpCas9과 SpCas9-HF1은 SpCas9에 variants (아미노산 치환)를 일으켜, Specificity를 높인 Cas9 엔지니어링 결과물.[Slaymaker (2016), Kleinstiver (2016]
- Cas9의 경우 PAM (NGG)과 20개의 nucleotide에 따라 표적 서열을 인식하며, 서열 선택에 따라 게놈 편집의 효율이 달라짐. 이로 인해, 머신러닝/딥러닝을 이용한 다양한 gRNA 설계 도구가 개발되어짐.
[결과]
- A strategy for high-throughput test of gRNA activity
- Figure (a-b) : guide RNA–target pair strategy, 게놈 편집 후 타겟 서열은 PCR 증폭되어 Cas9 nucleases에 의한 InDel 비율을 직접 측정 가능. 또한, Chromatin accessibility 이 게놈 편집에 미치는 영향을 최소화할 수 있음.
- Figure (c) : Screening 분석은 두번 반복 되었고, 반복된 두 샘플간 높은 상관 관계를 보여줌.
- Figure (d) : Wile type SpCas9은 screening 결과에서 eSpCas9 (1.1) 과 SpCas9-HF1보다 더 높은 효율을 보임.
- Sequence features associated with gRNA activity
- SHAP (SHapley Additive exPlanation) : black box모델에서 각 feature의 기여도를 계산하여 인스턴스 x의 예측을 설명하는 방법으로, 이를 이용하여 XGBoost 결과를 분석하였을때, G20(20번째 위치에 G가 있을 경우, Good), Tm(Good), TT(Bad), C18(Good), Free energy, G14(Bad)가 편집 효율에 기여하는 정도가 큰 feature로써, 기존 Doench(2016), Wong(2015) 등의 논문과 일치도를 보임.
[딥러닝 모델 특징]
- RNN + Biofeature 모델
- gRNA 서열 먼저 인코딩, BiLSTM에 의해 추가로 처리.
- Nonlinearly transform할 정보 (RNA secondary structure, GC 비율 등의 feature)와 gRNA 인코딩 결과와 결합.
- prediction score를 얻기 위해 linear transformation 진행.