본문 바로가기

Science n Bioinfo

생물정보학 Software #1 CD-HIT : Non-redundant Set 을 만들자.

CD-HIT 이런 대량의 단백질 서열에서 NR Dataset 을 만들어주는 프로그램입니다. 사실 NR Set 을 만드는 방법들은 정말 많습니다. 이런 다양한  프로그램에서 CD-HIT 이 가지는 장점은 빠른 속도 입니다. 다른 프로그램에 비해서 몇 백배 이상 빠를 수도 있습니다.

기본 사용법
기본 사용법은 아주 간단합니다.
$ cd-hit -i nr -o nr100
이런 명령을 내리면 CD-HIT 은 word 크기 5, 메모리는 최대 400M까지 사용해서, identity 90% 를 기준으로 clustering 을 실행하게 됩니다.

예제
CD-HIT 을 이용해서 PDB 의 파일중에 identity 75% 를 Cutoff 으로 Set 을 만들어 보겠습니다. 먼저 PDB 에서 SEQRES 에 기반해서 각 단백질의 체인 별 서열을 Fasta Type 으로 제공하는 파일을 받아 옵니다.

$ wget ftp://ftp.rcsb.org/pub/pdb/derived_data/pdb_seqres.txt.Z
$ gzip -d pdb_seqres.txt.Z

CDHIT 을 이용해서 이 파일을 75% identity 로 NR 을 만듭니다.

$ cd-hit -i pdb_seqres.txt -o pdb_seqres75 -c 0.75
이렇게 하면, pdb_seqres75 파일이 생성됩니다. Sequence Identity 를 결정할 때 한 가지 알아야 할 점은 -n 옵션 입니다. 서열을 비교하는 word 의 크기로 identity 에 따라서 그 값을 변경해 줄 것을 권하고 있습니다. 그 권장 값은 다음과 같습니다.
-n 5 for thresholds 0.7 ~ 1.0
-n 4 for thresholds 0.6 ~ 0.7
-n 3 for thresholds 0.5 ~ 0.6
-n 2 for thresholds 0.4 ~ 0.5

관련정보