QSAR-ML이라는 놈이 발표되었다. QSAR에 사용되는 모든 데이터와 descriptor들을 정의된 XML로 표현하는 표준 포맷이다. 이런 방식을 사용함으로서, QSAR 연구가 사람 모든 사람들에게 reproducible하게 만드는 것이 가장 중요한 가치라고 할 수 있겠다.

사실 QSAR 연구 논문을 읽고 나서 그 연구를 동일하게 재현하려고 할 때, 필요한 모든 소프트웨어를 가지고 있다고 해도 동일한 결과를 얻는 것이 거의 불가능하다는 사실은 잘 알려져 있다. 여러 가지 이유가 있겠지만, 2D descriptor만 사용한다고 했을 때는 알고리즘 상에 randomness가 포함되어 있지 않다면, 근본적으로는 이렇게 되어서는 안되는 일이다. 그리고 randomness가 들어가는 경우라고 해도 random seed 값을 주면 동일한 결과를 얻을 수 있어야 한다.

이외에 동일한 결과를 얻을 수 없는 이유는 사용하는 descriptor가 2D가 아니고 분자 구조에 의존적인 경우이다. 이럴 때는, 저자들이 자신들이 사용한 최종 구조를 정확하게 제시하지 않는 다음에는 동일한 결과를 얻을 수 없을 것이다. 물론 대부분의 QSAR 연구가 2D descriptor를 사용하기 때문에 이런 경우는 매우 드문 경우라고 하겠다.

QSAR-ML이라는 파일 포맷이 QSAR 연구에서 표준이 된다면, 그래서 QSAR 연구를 논문으로 출판할 때는 반드시 이 포맷의 데이터를 제출해야 한다면 어떻게 될까. 아니, QSAR-ML 데이터베이스를 만들어서, 여기에 데이터를 넣고 고유의 번호를 넣는 방식은 어떨까?

이렇게 함으로서 연구의 reprocubility를 높일 수 있을 뿐만 아니라, 다양한 방법론의 직접적인 비교를 가능하게 해 주는 중요한 역할을 할 수 있다.