본문 바로가기

Science n Bioinfo

생물정보학 Software #2 PSI-BLAST : Protein Sequence Profile Search 를 하자.

단백질 연구에 있어서 서열은 구조정보에 비해서 중요성이 높지는 않습니다. 하지만 구조를 이용한 DB 찾기는 아직 많은 시간이 필요해서 Homologous Protein 을 찾을때는 여전히 Sequence Search 방법이 이용되고 있습니다.

현재 사용되는 도구중 Homologous Sequence 를 찾는 최고의 도구는 PSI-BLAST 라고 말할 수 있을 정도로 PSI-BLAST 그 성능이나 속도면에서 뛰어납니다.

이번에는 이 PSI-BLAST 를 Local 컴퓨터에 설치해서 Sequence Search 를 하는 방법을 알아 보겠습니다.

BLAST 받기

PSI-BLAST 는 NCBI 에서 배포하므로 NCBI's FTP 에서 받을 수 있습니다. 현재 최신 버젼은 2.2.19 버젼 입니다. 이미 컴파일된 바이너리가 존재하므로 사용하는 컴퓨터에 맞춰서 받으시면 됩니다. 저는 32비트 Linux 시스템에서 작동 시킬 예정이므로 blast-2.2.19-ia32-linux.tar.gz 파일을 받았습니다.

NR DB 받기
BLAST 가 돌기 위해서는 DB가 당연히 필요합니다. NCBI 에서는 이 DB 도 같이 배포하고 있습니다. 다음 파일을 받도록 합니다.
   ftp://ftp.ncbi.nih.gov/blast/db/FASTA/nr.gz
사용하기 위해서 압축은 당연히 풀어야 합니다.

FORMATDB 하기
BLAST 에서 Fasta 형식의 파일을 사용하기 위해서는 formatdb 라는 명령어를 통해서 추가 정보를 생성시켜 주어야 합니다.
$ ${BLAST_HOME}/bin/formatdb -i nr -p T
옵션에 대한 자세한 정보는 다음을 참고 하세요.
  http://www.ncbi.nlm.nih.gov/staff/tao/URLAPI/formatdb_fastacmd.html

blastpgp 사용하기
PSI-BLAST 를 작동시키기 위해서 사용하는 프로그램은 blastpgp 입니다. blastpgp 를 작동시키기 위해서 알아야 하는 옵션은
  • -d : Database 파일. 위에서 formatdb 를 한 nr 파일을 지정하면 됩니다.
  • -e : 결과를 출력할 때 사용할 e-value 값 지정.
  • -h : PSSM 을 만들때 사용할 e-value 값 지정
  • -j : iteration 횟수
  • -m : 출력 방법 지정
  • -Q : PSSM 출력
  • -o :
입니다.

예제
다음과 같은 형식으로 실행할 수 있습니다.
${BLAST_HOME}/bin/blastpgp -d /opt/blast_db/nr -i exmple.fa -j 3 -e 0.0001 -h 0.002 -m 9 -Q exmple.mtx -o exmple.out

이 명령을 실행하면, PSI-BLAST 결과는 exmple.out 으로, PSSM 은 exmple.mtx 로 저장됩니다.


PSI-BLAST 에 대해서 읽어보면 좋은 논문들
  • Improving the accuracy of PSI-BLAST protein database searches with composition-based statistics and other refinements , Nucleic Acids Research, 2001, Vol. 29, No. 14 2994-3005 [LINK]