Ki-wook Lee
4 min readApr 2, 2021

[논문 리뷰] Deep learning을 이용한 Crispr/Cas9 sgRNA 효율 예측 (1)

[배경 및 보충 설명]

  • Deep learning을 이용한 SpCas9 / eSpCas9 (1.1) / SpCas9-HF1의 gRNA activity 예측하는 DeepHF 개발 (http://www.DeepHF.com).
  • eSpCas9과 SpCas9-HF1은 SpCas9에 variants (아미노산 치환)를 일으켜, Specificity를 높인 Cas9 엔지니어링 결과물.[Slaymaker (2016), Kleinstiver (2016]
  • Cas9의 경우 PAM (NGG)과 20개의 nucleotide에 따라 표적 서열을 인식하며, 서열 선택에 따라 게놈 편집의 효율이 달라짐. 이로 인해, 머신러닝/딥러닝을 이용한 다양한 gRNA 설계 도구가 개발되어짐.

[결과]

  • A strategy for high-throughput test of gRNA activity
Wang et al., Nature Communication (2019)
  1. Figure (a-b) : guide RNA–target pair strategy, 게놈 편집 후 타겟 서열은 PCR 증폭되어 Cas9 nucleases에 의한 InDel 비율을 직접 측정 가능. 또한, Chromatin accessibility 이 게놈 편집에 미치는 영향을 최소화할 수 있음.
  2. Figure (c) : Screening 분석은 두번 반복 되었고, 반복된 두 샘플간 높은 상관 관계를 보여줌.
  3. Figure (d) : Wile type SpCas9은 screening 결과에서 eSpCas9 (1.1) 과 SpCas9-HF1보다 더 높은 효율을 보임.
  • Sequence features associated with gRNA activity
Wang et al., Nature Communication (2019)
  1. SHAP (SHapley Additive exPlanation) : black box모델에서 각 feature의 기여도를 계산하여 인스턴스 x의 예측을 설명하는 방법으로, 이를 이용하여 XGBoost 결과를 분석하였을때, G20(20번째 위치에 G가 있을 경우, Good), Tm(Good), TT(Bad), C18(Good), Free energy, G14(Bad)가 편집 효율에 기여하는 정도가 큰 feature로써, 기존 Doench(2016), Wong(2015) 등의 논문과 일치도를 보임.

[딥러닝 모델 특징]

Wang et al., Nature Communication (2019)
  • RNN + Biofeature 모델
  1. gRNA 서열 먼저 인코딩, BiLSTM에 의해 추가로 처리.
  2. Nonlinearly transform할 정보 (RNA secondary structure, GC 비율 등의 feature)와 gRNA 인코딩 결과와 결합.
  3. prediction score를 얻기 위해 linear transformation 진행.
Ki-wook Lee
Ki-wook Lee

Written by Ki-wook Lee

#Deep learning #Machine learning #Bioinformatics #Developer https://www.linkedin.com/in/기욱-이-7793807b/

No responses yet