검색 : [ author: 노윤형 ] (2)

PatentQ&A: 트랜스포머 모델을 이용한 신경망 검색 시스템 제안

이윤민, 황태욱, 정상근, 서혜인, 노윤형

http://doi.org/10.5626/JOK.2023.50.4.306

최근 신경망 검색은 통계적 방법에 기반한 검색을 뛰어넘어 의미에 기반한 검색을 가능하게 하며 오타가 있어도 정확한 검색 결과를 찾을 수 있게 한다. 본 논문에서는 특허에 전문 지식이 없는 일반인이 일반 용어를 사용하여 특허 정보를 검색할 경우 사용자 질문 의도에 가장 근접한 답변을 보여주는 신경망 기반 특허 Q&A 검색 시스템을 제안한다. 특허청 홈페이지에 게시된 특허고객 상담 데이터로 특허 데이터 셋을 구축하였다. 사용자가 입력한 질문에 대한 유사한 질문을 추출하고 우선순위를 다시 지정하기 위해 특허 데이터 셋으로 미세조정한 Patent-KoBERT(Triplet)과 Patent-KoBERT(CrossEntropy)를 사용하였다. 실험 결과 Mean Reciprocal Rank(MRR)과 Mean Average Precision(MAP)의 수치는 0.96으로 사용자가 입력한 질문 의도와 가장 유사한 답변을 잘 선정한다는 것을 확인할 수 있다.

Epoch Score: 정량적 데이터 품질 평가

김성렬, 황태욱, 정상근, 노윤형

http://doi.org/10.5626/JOK.2023.50.3.250

데이터셋이 모델이나 특정 분야에 적합한지, 혹은 데이터에 오류가 어느 정도인지 판단하는 것은 매우 어렵다. 이에 본 논문은 시드만 다른 하이퍼파라미터를 통한 수차례 학습을 통해 얻은 오답 데이터들을 활용하여 해당 샘플의 학습 난이도를 점수로 나타내는 에폭 스코어(Epoch Score)를 제안한다. 이를 통해 KLUE의 Topic Classification 데이터셋을 검증하였고, 오류가 있다고 판단되는, 점수가 높은 데이터를 수정함으로써 약 0.8%의 성능 향상을 이끌어 냈다. 에폭 스코어는 자연어, 이미지 등 데이터의 종류에 상관없이 모든 지도학습 데이터에 활용할 수 있으며, 에폭 스코어의 AUC(Area Under the Curve)를 통해 모델의 성능을 유추할 수 있다.


Search




Journal of KIISE

  • ISSN : 2383-630X(Print)
  • ISSN : 2383-6296(Electronic)
  • KCI Accredited Journal

사무국

  • Tel. +82-2-588-9240
  • Fax. +82-2-521-1352
  • E-mail. chwoo@kiise.or.kr