Download PDFOpen PDF in browser中文文章級別人物關係擷取之研究EasyChair Preprint 1520214 pages•Date: October 6, 2024Abstract本研究旨在構建一套可應用於真實網路資料的聯合實體關係擷取架構。針對現有資料集來源單一且主要集中在句子級別的問題,我們利用大型語言模型(如Gemini、GPT-3.5)標記文章級內容,並使用中文Common Crawl數據構建更泛用的資料集。為提高標記的可信度與實體對取樣的完整性,採用了交叉驗證與實體擴充方法。並通過微調預訓練模型來驗證與提升模型在真實環境下進行實體關係擷取的性能。 Keyphrases: 命名實體識別, 文章級關係擷取, 聯合實體關係擷取
|