Download PDFOpen PDF in browser大型語言模型對判決理解的探討:以交通事故資訊擷取為例EasyChair Preprint 1524310 pages•Date: October 18, 2024Abstract本研究探討大型語言模型 (Large Language Model, LLM) 在台灣地區車禍判決書資訊擷取任務中的應用。我們比較了大型參數模型如 GPT 和 GEMINI,以及小參數模型如 LLAMA-8B,並設計了三種提示詞 (basic、advanced 和 one-shot) 來評估各模型在不同情境下的表現。研究結果顯示,不同提示詞對於不同模型的效能有顯著差異,這可能與模型處理長文本的能力相關。具體來說,GPT 在使用 one-shot 提示詞時,由於提示詞包含較多上下文,在字串的表現顯著優於其他提示詞,達到 89.2% 的平均準確率。然而,對於 GEMINI 模型,長提示詞反而導致效能下降,特別是在處理較長文本時表現不佳,顯示該模型對於過長提示詞的處理能力有限。這表明提示詞設計與模型架構的匹配度對效能有重要影響。微調結果表明,GPT 在字串和數值資料的擷取中,經微調後的效能顯著提升,特別是在「折舊方法」和「修車費用」欄位上分別達到 97.9% 和 95.3%。相較之下,已經微調過的chinese-llama 雖然初始效能較好但微調後效能提升有限,顯示其對微調的響應較低;而 instruct-llama 這類原型模型在微調後對字串資料的準確性大幅提升,從 63.7% 提升至 79.8%。總結來說,提示詞設計和微調策略是提升模型效能的關鍵因素,未來可通過更大規模的模型和更精細的微調技術來進一步優化 LLM 在特定領域的應用效能。 Keyphrases: Information Extraction, LLM fine-tuning, LLM微調, Legal judgment documents, data annotation, traffic accidents, 交通事故, 法律判決書, 資料標註, 資訊擷取
|