본문 바로가기

연세소식

[연구 프론티어] 송민 교수팀, 생물의학 문헌에서 개체 간 관계 유형 분류 모델 개발

연세대학교 홍보팀 / news@yonsei.ac.kr
2022-05-24

송민 교수팀, 생물의학 문헌에서 개체 간 관계 유형 분류 모델 개발

대규모 학습 데이터셋 구축 및 딥러닝 기반 알고리즘 성능 심층 평가


[사진 1. 송민 교수]


문과대학 문헌정보학과 송민 교수 연구팀은 생물의학 문헌에서 바이오 개체 간 관계를 특정 서술어 유형 중 하나로 분류해 내는 딥러닝 기반 관계 유형 분류 모델을 개발했다.


최근 생물의학 분야의 연구 성과는 기하급수적으로 증가하고 있다. 구조화되지 않은 대량의 데이터에서 중요 정보를 정제하는 과정에서는 관계 추출이 핵심적인 역할을 수행한다. 공중보건 증진을 위해 약물 간 상호작용(drug-drug interaction, DDI), 단백질 간 상호작용(protein-protein interaction, PPI), 화합물-단백질 관계(chemical compound-protein relation, CPR), 유전자-질병 관계(gene-disease relation) 등을 규명하려는 연구가 활발하게 진행되고 있다. 


기존 생물의학 정보추출 연구에서는 주로 규칙 기반 모델이나 기계학습 기반 접근 방식을 활용했는데, 이러한 방법은 특질(feature) 처리 측면에서 효율적이지 않고 정확도가 낮을 수 있다. 기존의 관계 추출 시스템은 신경망 기반 CNN이나 RNN 등을 활용했지만, 관계 유형 간 성능이 차이 나는 이유를 명확히 분석하지 않았다. 또한, 관계 분류에 활용할 수 있는 구조화된 데이터셋이 충분하지 않았다.


이와 같은 문제를 해결하기 위해 연구팀은 대규모 학습 데이터셋을 구축하고 딥러닝 기반 알고리즘 성능을 평가해 생물의학 관계 유형 분류에 최적화된 모델을 확인했다. 추가로 FrameNet 기반으로 서술어를 의미 기반 군집화해(clustering) 모델의 성능을 심층적으로 분석했다. 


[사진 2. 데이터 구축 절차]


본 연구팀은 PubMed 문헌 데이터에서 추출된 주어-술어-목적어 관계의 의미적 서술부(semantic predications)의 저장소인 SemMed DB를 학습 데이터셋의 토대로 활용했다. 연구팀에서 기구축한 사전 기반 바이오 개체 추출 시스템인 PKDE4J를 활용해 사용자가 정의한 개체와 관계 유형을 추가할 수 있도록 했으며, 이렇게 구축된 최종 데이터셋은 온라인에 공개해 필요한 모든 연구자가 활용할 수 있도록 했다(https://github.com/deeptextlab/BioPREP).


성능 평가 결과, 신경망 기반 CNN이나 LSTM 모델에 비해 트랜스포머 기반 BERT 언어모델의 성능이 높은 것을 확인했고, 생물의학 말뭉치로 사전 학습시킨 BioBERT가 생물의학 관계 유형 분류에 가장 적합한 것으로 관측됐다. 또한, 군집화된 7개 그룹에 대해 성능 평가를 수행해 다른 서술부와 구별 기준이 모호하기 때문에 상태-증상 관계(Conditions Symptom Relation) 유형의 분류 성능이 상대적으로 낮은 것을 확인했다.


본 연구는 과학기술정보통신부와 한국연구재단이 추진하는 바이오·의료기술개발사업과 재단법인 전통천연물기반 유전자동의보감 사업단의 지원을 받아 수행됐다. 연구 결과는 생물의학 관련 정보학 분야의 국제저명학술지 ‘Journal of Biomedical Informatics(IF 6.98)’ 2021년 10월호에 온라인 게재됐다.


논문정보

● 논문제목: BioPREP: Deep learning-based predicate classification with SemMedDB

● 논문주소: https://doi.org/10.1016/j.jbi.2021.103888

 

vol. 632
웹진 PDF 다운로드

연세소식 신청방법

아래 신청서를 작성 후 news@yonsei.ac.kr로 보내주세요
신청서 다운로드