디지털 라이브러리[ 검색결과 ]
PatentQ&A: 트랜스포머 모델을 이용한 신경망 검색 시스템 제안
http://doi.org/10.5626/JOK.2023.50.4.306
최근 신경망 검색은 통계적 방법에 기반한 검색을 뛰어넘어 의미에 기반한 검색을 가능하게 하며 오타가 있어도 정확한 검색 결과를 찾을 수 있게 한다. 본 논문에서는 특허에 전문 지식이 없는 일반인이 일반 용어를 사용하여 특허 정보를 검색할 경우 사용자 질문 의도에 가장 근접한 답변을 보여주는 신경망 기반 특허 Q&A 검색 시스템을 제안한다. 특허청 홈페이지에 게시된 특허고객 상담 데이터로 특허 데이터 셋을 구축하였다. 사용자가 입력한 질문에 대한 유사한 질문을 추출하고 우선순위를 다시 지정하기 위해 특허 데이터 셋으로 미세조정한 Patent-KoBERT(Triplet)과 Patent-KoBERT(CrossEntropy)를 사용하였다. 실험 결과 Mean Reciprocal Rank(MRR)과 Mean Average Precision(MAP)의 수치는 0.96으로 사용자가 입력한 질문 의도와 가장 유사한 답변을 잘 선정한다는 것을 확인할 수 있다.
Epoch Score: 정량적 데이터 품질 평가
http://doi.org/10.5626/JOK.2023.50.3.250
데이터셋이 모델이나 특정 분야에 적합한지, 혹은 데이터에 오류가 어느 정도인지 판단하는 것은 매우 어렵다. 이에 본 논문은 시드만 다른 하이퍼파라미터를 통한 수차례 학습을 통해 얻은 오답 데이터들을 활용하여 해당 샘플의 학습 난이도를 점수로 나타내는 에폭 스코어(Epoch Score)를 제안한다. 이를 통해 KLUE의 Topic Classification 데이터셋을 검증하였고, 오류가 있다고 판단되는, 점수가 높은 데이터를 수정함으로써 약 0.8%의 성능 향상을 이끌어 냈다. 에폭 스코어는 자연어, 이미지 등 데이터의 종류에 상관없이 모든 지도학습 데이터에 활용할 수 있으며, 에폭 스코어의 AUC(Area Under the Curve)를 통해 모델의 성능을 유추할 수 있다.
사전학습 언어모델 기반 트랜스포머를 활용한 의미유사도기반 자연어이해 의도파악 방법
http://doi.org/10.5626/JOK.2020.47.8.748
자연어이해는 로봇, 메신저, 자연어 인터페이스 등에 활용되는 근간 기술 중 하나이다. 본 연구에서는 자연어이해 문제 중 문장의 의도를 파악하는 의도파악기술에 있어, 전통적인 분류기술을 활용하는 것이 아닌, 문장의 의미를 벡터 형태로 가공할 수 있는 문장 및 의미틀 읽기장치를 학습시키고, 훈련문장과 질의문장의 벡터 공간상의 의미거리를 측정하여, 가장 가까운 훈련문장의 의도를 질의문장의 의도로 부착하는 방법을 제안한다. 이를 위해, 사전학습 언어모델 기반 트랜스포머를 활용하여 기호 형태의 문장 및 의미틀을 벡터 형태로 변환하는 방법을 소개한다. 한국어 기반 날씨 및 내비게이션 영역의 말뭉치와 영어 기반 항공교통 예약 영역, 음성 언어 이해 시스템 영역의 자연어 말뭉치등을 활용한 다양한 실험을 통하여 제안한 방법이 성공적으로 의미벡터를 배움을 보이고, 기존 의도파악 기술 대비 높은 성능을 가짐을 보인다.