The title and the abstract of this preprint are also available

大型語言模型對判決理解的探討：以交通事故資訊擷取為例

EasyChair Preprint 15243

10 pages•Date: October 18, 2024

Huai-Hsuan Huang, Chia-Hui Chang, Jo-Chi Kung and Kuo-Chun Chien

Abstract

本研究探討大型語言模型 (Large Language Model, LLM) 在台灣地區車禍判決書資訊擷取任務中的應用。我們比較了大型參數模型如 GPT 和 GEMINI，以及小參數模型如 LLAMA-8B，並設計了三種提示詞 (basic、advanced 和 one-shot) 來評估各模型在不同情境下的表現。研究結果顯示，不同提示詞對於不同模型的效能有顯著差異，這可能與模型處理長文本的能力相關。具體來說，GPT 在使用 one-shot 提示詞時，由於提示詞包含較多上下文，在字串的表現顯著優於其他提示詞，達到 89.2% 的平均準確率。然而，對於 GEMINI 模型，長提示詞反而導致效能下降，特別是在處理較長文本時表現不佳，顯示該模型對於過長提示詞的處理能力有限。這表明提示詞設計與模型架構的匹配度對效能有重要影響。微調結果表明，GPT 在字串和數值資料的擷取中，經微調後的效能顯著提升，特別是在「折舊方法」和「修車費用」欄位上分別達到 97.9% 和 95.3%。相較之下，已經微調過的chinese-llama 雖然初始效能較好但微調後效能提升有限，顯示其對微調的響應較低；而 instruct-llama 這類原型模型在微調後對字串資料的準確性大幅提升，從 63.7% 提升至 79.8%。總結來說，提示詞設計和微調策略是提升模型效能的關鍵因素，未來可通過更大規模的模型和更精細的微調技術來進一步優化 LLM 在特定領域的應用效能。

Keyphrases: Information Extraction, LLM fine-tuning, LLM微調, Legal judgment documents, data annotation, traffic accidents, 交通事故, 法律判決書, 資料標註, 資訊擷取

Links:

https://easychair.org/publications/preprint/Qpt6

BibTeX entry

BibTeX does not have the right entry for preprints. This is a hack for producing the correct reference:

@booklet{EasyChair:15243,
  author    = {Huai-Hsuan Huang and Chia-Hui Chang and Jo-Chi Kung and Kuo-Chun Chien},
  title     = {To What Extent Do LLMs Understand a Verdict? A Case Study on Traffic Accident Information Extraction},
  howpublished = {EasyChair Preprint 15243},
  year      = {EasyChair, 2024}}

Download PDF Open PDF in browser