검색 : [ keyword: BERT ] (24)

한국어 형태소 분석 및 품사 태깅을 위한 딥 러닝 기반 2단계 파이프라인 모델

윤준영, 이재성

http://doi.org/10.5626/JOK.2021.48.4.444

인공신경망을 활용한 최근의 한국어 형태소 분석 및 태깅 연구는 주로 표층형에 대해 형태소 분리와 품사 태깅을 먼저하고, 원형 복원 사전을 이용하여 후처리로 형태소 원형을 복원해왔다. 본 연구에서는 형태소 분석 및 품사 태깅을 두 단계로 나누어, sequence-to-sequence를 이용하여 형태소 원형을 먼저 복원하고, 최근 자연어처리의 다양한 분야에서 우수한 성능을 보이는 BERT를 이용하여 형태소 분리 및 품사 태깅을 하였다. 두 단계를 파이프라인으로 적용한 결과, 별도의 규칙이나 복합 태그 처리 등이 필요한 형태소 원형 복원 사전을 사용하지 않고도 우수한 형태소 분석 및 태깅 결과를 보였다.

장거리 상호참조해결을 위한 BERT와 군집화 방법 - 한국어와 영어 문서 적용

허철훈, 김건태, 최기선

http://doi.org/10.5626/JOK.2020.47.12.1126

상호참조해결은 자연언어 문서 내에서 같은 개체를 나타내는 언급들을 연결하는 문제다. 대명사, 지시 관형사, 축약어 등의 사용과 동음이의어의 혼동으로 인한 동일 지시를 하는 언급들을 파악함으로서, 다양한 자연언어처리 문제의 성능 향상에 기여 할 수 있다. 본 논문에서는 현재 영어권 상호참조해결에서 좋은 성능을 내고 있는 BERT 기반 상호참조해결 모델에 개체명, 대명사 사전을 사용한 자질을 추가하고 표층형을 이용한 장거리 군집화를 적용했다. 또한 한국어 데이터셋을 사용할 때 발생하는 문제점을 해결하고 한국어, 영어 데이터에서 본 논문의 모델과 기존의 모델들을 실험하여 성능을 비교하였다. 한국어 데이터에서 기존의 연구들보다 높은 정밀도 75.7%, 재현율 68.1%, CoNLL F1-score 71.7%의 성능을 보였다. 모델들의 결과를 분석하여 기존 딥러닝 모델에 비해 문맥적 요소를 잘 파악하는 것을 확인했다.

소규모 데이터 기반 한국어 버트 모델

이상아, 장한솔, 백연미, 박수지, 신효필

http://doi.org/10.5626/JOK.2020.47.7.682

최근 자연어처리에서 문장 단위의 임베딩을 위한 모델들은 거대한 말뭉치와 파라미터를 이용하기 때문에 큰 하드웨어와 데이터를 요구하고 학습하는 데 시간이 오래 걸린다는 단점을 갖는다. 따라서 규모가 크지 않더라도 학습 데이터를 경제적으로 활용하면서 필적할만한 성능을 가지는 모델의 필요성이 제기된다. 본 연구는 음절 단위의 한국어 사전, 자소 단위의 한국어 사전을 구축하고 자소 단위의 학습과 양방향 WordPiece 토크나이저를 새롭게 소개하였다. 그 결과 기존 모델의 1/10 사이즈의 학습 데이터를 이용하고 적절한 크기의 사전을 사용해 더 적은 파라미터로 계산량은 줄고 성능은 비슷한 KR-BERT 모델을 구현할 수 있었다. 이로써 한국어와 같이 고유의 문자 체계를 가지고 형태론적으로 복잡하며 자원이 적은 언어에 대해 모델을 구축할 때는 해당 언어에 특화된 언어학적 현상을 반영해야 한다는 것을 확인하였다.

데이터베이스 아웃소싱 환경에서 순서 보존 암호화 기법을 이용한 질의 결과 무결성 검증 기법

장미영, 장재우

http://doi.org/

최근 데이터베이스 아웃소싱(Outsourcing) 환경에서 데이터 보호를 위한 암호화 기법 및 질의결과 검증 기법에 대한 관심이 고조되고 있다. 그러나 기존 아웃소싱 데이터 암호화 기법들은 원본 데이터베이스 도메인 정보를 알고 있는 공격자에 의한 순서 매칭 공격 및 카운팅 공격에 취약한 문제점을 지닌다. 기존 질의 결과 무결성 검증 기법은 질의 결과 검증 데이터 전송 오버헤드 문제를 지닌다. 따라서, 본 논문에서는 데이터 보호를 위한 그룹 순서 보존 암호화 인덱스 및 이를 기반으로 한 질의 결과 무결성검증 기법을 제안한다. 제안하는 기법은 순서 보존 암호화 인덱스를 통해 데이터를 암호화 하고, 복호화없이 질의를 수행한다. 또한, 힐버트 커브를 통해 그룹 정보를 은닉함으로써, 질의 수행 과정에서 데이터그룹 정보가 유출되는 것을 방지한다. 마지막으로, 주기함수 기반 그룹 분할 및 그룹 기반 인증을 통해 질의 결과 무결성 검증을 위한 데이터 크기를 감소시킨다. 성능평가를 통해, 제안하는 기법이 기존 버킷 기반 인증 기법에 비해 질의 처리 시간 측면에서 평균 1.6배, 검증 데이터 오버헤드 측면에서 최대 20배의 성능을 개선함을 보인다.


Search




Journal of KIISE

  • ISSN : 2383-630X(Print)
  • ISSN : 2383-6296(Electronic)
  • KCI Accredited Journal

사무국

  • Tel. +82-2-588-9240
  • Fax. +82-2-521-1352
  • E-mail. chwoo@kiise.or.kr