CD-HIT 이런 대량의 단백질 서열에서 NR Dataset 을 만들어주는 프로그램입니다. 사실 NR Set 을 만드는 방법들은 정말 많습니다. 이런 다양한 프로그램에서 CD-HIT 이 가지는 장점은 빠른 속도 입니다. 다른 프로그램에 비해서 몇 백배 이상 빠를 수도 있습니다.
기본 사용법
기본 사용법은 아주 간단합니다.
예제
CD-HIT 을 이용해서 PDB 의 파일중에 identity 75% 를 Cutoff 으로 Set 을 만들어 보겠습니다. 먼저 PDB 에서 SEQRES 에 기반해서 각 단백질의 체인 별 서열을 Fasta Type 으로 제공하는 파일을 받아 옵니다.
CDHIT 을 이용해서 이 파일을 75% identity 로 NR 을 만듭니다.
관련정보
기본 사용법
기본 사용법은 아주 간단합니다.
$ cd-hit -i nr -o nr100이런 명령을 내리면 CD-HIT 은 word 크기 5, 메모리는 최대 400M까지 사용해서, identity 90% 를 기준으로 clustering 을 실행하게 됩니다.
예제
CD-HIT 을 이용해서 PDB 의 파일중에 identity 75% 를 Cutoff 으로 Set 을 만들어 보겠습니다. 먼저 PDB 에서 SEQRES 에 기반해서 각 단백질의 체인 별 서열을 Fasta Type 으로 제공하는 파일을 받아 옵니다.
$ wget ftp://ftp.rcsb.org/pub/pdb/derived_data/pdb_seqres.txt.Z
$ gzip -d pdb_seqres.txt.Z
CDHIT 을 이용해서 이 파일을 75% identity 로 NR 을 만듭니다.
$ cd-hit -i pdb_seqres.txt -o pdb_seqres75 -c 0.75이렇게 하면, pdb_seqres75 파일이 생성됩니다. Sequence Identity 를 결정할 때 한 가지 알아야 할 점은 -n 옵션 입니다. 서열을 비교하는 word 의 크기로 identity 에 따라서 그 값을 변경해 줄 것을 권하고 있습니다. 그 권장 값은 다음과 같습니다.
-n 5 for thresholds 0.7 ~ 1.0
-n 4 for thresholds 0.6 ~ 0.7
-n 3 for thresholds 0.5 ~ 0.6
-n 2 for thresholds 0.4 ~ 0.5
관련정보
- RSDB: representative protein sequence databases have high information content
- Cd-hit: a fast program for clustering and comparing large sets of protein or nucleotide sequences
- CD-HIT Home
'Science n Bioinfo' 카테고리의 다른 글
생물정보학 Software #2 PSI-BLAST : Protein Sequence Profile Search 를 하자. (2) | 2008.12.15 |
---|---|
SCOP Database 를 사용하는데 유용한 몇 가지 ID 목록 (0) | 2008.12.12 |
이번주에 읽어볼 만한 논문은? (0) | 2008.03.06 |
Perceus 1.3.6 나왔어요. (0) | 2008.01.13 |
생물정보학자를 위한 클러스터 만들기 #3.2 Perceus 설치하기 (version 1.3.4) (1) | 2007.11.23 |