본문 바로가기

Science n Bioinfo

"Sun Grid Engine(SGE)" 이 "Open Grid Scheduler(OGS)" 로 변경되었군요. 연구실에서 클러스터 관리를 다른 학생에게 넘기려고 이것 저것 다시 보고 있었는데, Sun 이 Oracle 에 인수된 이후에 SGE 에 큰 변화가 있었네요. Oracle 이 GE 을 상업 적으로 바꾸기 위해서 이전까지 있던 SGE는 외부 사이트에 오픈시키고, 내부적인 개발을 별도로 진행하려고 하는 것 같습니다. ( http://blogs.sun.com/templedf/entry/oracle_grid_engine_changes_for ) 그래서 이전까지 있던 SGE 를 Open Grid Scheduler 라는 이름으로 바꾸고, Source forge 로 프로젝트를 넘겼습니다. 다음 링크에서 관련 자료들을 찾을 수 있습니다. OGS 홈페이지 http://gridscheduler.sourceforge.net/i.. 더보기
MQAP #1 McGuffin - ModFOLD [공부,개발,생물정보학이야기] - CASP8 Model Quality Assessment (MQA) 글에서 MQA 분야에 대해서 소개하고, CASP8 결과를 요약했었습니다. 이번에는 CASP8 에서 좋은 성능을 발위한 서버 중 ModFOLD 논문을 요약해 보겠습니다. McGuffin 팀에서는 총 3개의 Program 으로 참석을 하였습니다. 199 : ModFOLD server 1.1 : QMODE1 을 위한 Automated Prediction server. Machine-Learning 기법에 기반하여 Global Model Quality 를 측정하는 프로그램 입니다. 031 : ModFOLDclust : Clustering 기법에 기반하여 global 과 local model qualrity 를 측.. 더보기
CASP8 Model Quality Assessment (MQA) CASP9 때 팀에서 Quality Assessment 부분에 참여하게 되어서 CASP8 에서 이루어졌던 Quality Assessment Category 의 결과를 정리해 봅니다. 지난 10년간 단백질 구조 예측은 얼마나 발전했을까요? 도서관에 있는 단백질 모델링에 관한 책과 단백질 구조의 현재를 가장 잘 알 수 있는 최근 CASP 결과를 비교해 보면, 알 수 있습니다. 과거에 단백질 구조 예측은 Ab inito, Threading, Homology Modeling 이라는 3분야로 구분을 했지만, 지금은 Free Modeling(FM) 과 Template-Based Modeling(TBM) 이라는 두 분야로 나누고 있습니다. 또한 Homology Modeling 분야에서 Best Template 보다 .. 더보기
생물정보학 Software #2 PSI-BLAST : Protein Sequence Profile Search 를 하자. 단백질 연구에 있어서 서열은 구조정보에 비해서 중요성이 높지는 않습니다. 하지만 구조를 이용한 DB 찾기는 아직 많은 시간이 필요해서 Homologous Protein 을 찾을때는 여전히 Sequence Search 방법이 이용되고 있습니다. 현재 사용되는 도구중 Homologous Sequence 를 찾는 최고의 도구는 PSI-BLAST 라고 말할 수 있을 정도로 PSI-BLAST 그 성능이나 속도면에서 뛰어납니다. 이번에는 이 PSI-BLAST 를 Local 컴퓨터에 설치해서 Sequence Search 를 하는 방법을 알아 보겠습니다. BLAST 받기 PSI-BLAST 는 NCBI 에서 배포하므로 NCBI's FTP 에서 받을 수 있습니다. 현재 최신 버젼은 2.2.19 버젼 입니다. 이미 컴파일된.. 더보기
SCOP Database 를 사용하는데 유용한 몇 가지 ID 목록 SCOP Database 를 사용해서 Interface 같은 연구를 하다 보니 몇 가지 목록들이 계속 필요하게 되네요. 자꾸 만들고 지우고 만들고 지우고 해서 새로운 Version 이 나올때마다 꾸준히 만들어서 정리해 놔야겠습니다. 누군가도 필요할 거라 생각되서 블로그에 올립니다. SCOP Version : 1.73 Astral Scop : 이용 첨부 파일 list.scop_id : scop_id 모음 list.pdb_id : pdb_id 를 기준으로 정리한 scop_id list.homolog : scop domain 을 SEQRES 를 기준으로 비교해서 homology 100% 인 scop_id 의 모음 list.interface.10 : solvent accessible surface area 가 .. 더보기
생물정보학 Software #1 CD-HIT : Non-redundant Set 을 만들자. CD-HIT 이런 대량의 단백질 서열에서 NR Dataset 을 만들어주는 프로그램입니다. 사실 NR Set 을 만드는 방법들은 정말 많습니다. 이런 다양한 프로그램에서 CD-HIT 이 가지는 장점은 빠른 속도 입니다. 다른 프로그램에 비해서 몇 백배 이상 빠를 수도 있습니다. 기본 사용법 기본 사용법은 아주 간단합니다. $ cd-hit -i nr -o nr100이런 명령을 내리면 CD-HIT 은 word 크기 5, 메모리는 최대 400M까지 사용해서, identity 90% 를 기준으로 clustering 을 실행하게 됩니다. 예제 CD-HIT 을 이용해서 PDB 의 파일중에 identity 75% 를 Cutoff 으로 Set 을 만들어 보겠습니다. 먼저 PDB 에서 SEQRES 에 기반해서 각 단백질.. 더보기
이번주에 읽어볼 만한 논문은? 매주 연구실에서 하는 저널 클럽 때문에 논문을 정기적으로 찾게 되는데, 이때 발표는 안해도 읽어볼 만한 논문들이 많습니다. 그래서 생물정보학을 하는 사람이라면 한번쯤 읽어볼 만한 논문들을 매주마다 올려봅니다. PLoS Computational Biology Yeang C, Haussler D (2007) Detecting Coevolution in and among Protein Domains. PLoS Comput Biol 3(11): e211. doi:10.1371/journal.pcbi.0030211Viswanathan GA, Seto J, Patil S, Nudelman G, Sealfon SC (2008) Getting Started in Biological Pathway Construction.. 더보기
Perceus 1.3.6 나왔어요. Perceus 1.3.6 나왔네요. 1.3.5 에서도 문제가 있어서 나온다 나온다 하더니 오늘 나왔습니다. 다운로드 주소는 perceus-1.3.6.tar.gz 이에요. 바뀐 내용은 Removed default hybridization for /usr/local as it is the default install location when compiling by hand. Fixed a trivial DOS of the Perceus daemon. Fixed VNFS export.이정도? 더보기