banner
뉴스 센터
첨단 기계와 뛰어난 숙련도

개체 역할 속성 인식을 통한 공동 삼중 추출 방법

Jul 14, 2023

Scientific Reports 13권, 기사 번호: 2223(2023) 이 기사 인용

1007 액세스

2 알트메트릭

측정항목 세부정보

최근 몇 년 동안, 공동 삼중 추출 방법은 자연어 처리 분야에서 정보 추출 및 관련 다운스트림 작업의 발전을 크게 촉진했기 때문에 많은 주목을 받았습니다. 그러나 관계 중첩과 같은 언어 고유의 복잡성으로 인해 결합 추출 모델은 여전히 ​​큰 어려움에 직면해 있습니다. 중첩 문제를 해결하기 위한 대부분의 기존 모델은 모든 유형의 관계로 복잡한 의미론적 공유 인코딩 특징을 구성하는 전략을 채택하고 있으며, 이로 인해 모델은 예측 과정에서 중복성과 낮은 추론 해석 가능성에 어려움을 겪게 됩니다. 따라서 제한된 수의 관계에서 트리플(겹치는 트리플 포함)을 추출할 수 있고 예측 과정이 간단하고 설명하기 쉬운 트리플 전체론적 융합 특징 기반 엔터티 역할 속성 인식을 위한 새로운 모델을 제안합니다. 우리는 낮은 수준의 기능 분리와 높은 수준의 개념 융합 전략을 채택합니다. 먼저, 낮은 수준의 토큰 특성을 사용하여 엔터티 및 관계 예측을 병렬로 수행한 다음, 주의 계산과 함께 잔여 연결을 사용하여 엔터티-관계 행렬의 후보 트리플에 대한 특성 융합을 수행하고, 마지막으로 트리플의 존재를 확인합니다. 엔터티 역할 속성을 식별합니다. 실험 결과는 제안된 모델이 매우 효과적이며 공개 데이터 세트에서 최첨단 성능을 달성한다는 것을 보여줍니다.

ERE(Entity and Relation Extraction)는 문장 의미론에 따라 자연어 텍스트에서 개념적 개체와 그 상호 관계를 추출하고 (주제, 관계, 개체)와 유사한 트리플을 형성하는 것을 목표로 합니다. 지식 그래프 구축, 지능형 질의응답, 여론 분석 등 응용 분야의 핵심 업스트림 작업으로 자연어 처리 분야에서 늘 중요한 위치를 차지하고 있습니다. 최근 연구에 따르면 딥러닝 기반의 공동 추출 방법은 엔터티와 관계 간의 상호 작용 기능을 효과적으로 통합하고 오류 전파 문제를 완화함으로써 ERE의 성능을 크게 향상시킬 수 있는 것으로 나타났습니다. 그러나 SEO(Single Entity Overlap), EPO(Entity pair Overlap)(TPLinker1의 표 1 참조)와 같은 복잡한 언어 현상이 존재하면 결합 추출 모델의 설계 복잡성이 상당히 증가하여 모델이 제대로 작동하지 않는 문제가 발생합니다. 구조를 해석하기 어려워집니다. 예를 들어, 각 단어의 토큰이 다른 특징(예: 모든 유형의 관계)과 결합되어 합성 인코딩 벡터를 형성하는 토큰 의미 강화 접근법2의 널리 채택된 모델은 그 이데올로기적 뿌리를 이해하기 어려울 뿐만 아니라 하지만 심지어 결함이 있습니다. 이 아이디어의 오류는 명백합니다. 첫째, 모든 유형의 관계를 기반으로 한 예측 방법은 많은 수의 관계에 직면했을 때 검색 및 선택 방법에 비해 분명히 효율성이 떨어집니다. 둘째, 문장의 모든 토큰이 ERE 작업과 관련된 것은 아니며, 유효하지 않고 중복된 정보는 계산 부담을 증가시킬 뿐만 아니라 예측 결과를 방해할 수도 있습니다. 또한, 대부분의 경우 개념을 표현하기 위해서는 스팬(여러 연속 토큰)이 필요하며, 단일 합성 벡터가 엔터티 또는 관계형 개념의 의미를 올바르게 표현할 수 있는지 여부를 평가하고 검증해야 합니다. 따라서 위의 문제를 해결하고 지식 삼중 형성의 법칙을 실제로 발견하는 데 도움이 될 수 있는 지식 추출의 필수 프로세스를 반영할 수 있는 설명 가능한 모델을 제안하는 것이 특히 중요합니다. 이를 고려하여 우리는 해석 가능한 추론 프로세스를 따르고 중복 예측을 줄이는 두 가지 기준으로 결합 추출 모델의 설계를 단순화하고 현재 최고 수준의 추출 성능을 달성할 것으로 기대합니다. 우리의 새로운 모델은 다음 두 가지 중요한 영감으로부터 이익을 얻습니다.