
LLM 評估教學 | EleutherAI LM Evaluation Harness
在上一篇文章中,我們探討了評估大型語言模型評估時應考慮的各項指標和細節。而這篇文章中,我們將深入探討如何具體操作去評估 LLM。這篇我們使用的工具框架是 EleutherAI 的 lm-evaluation-harness,以下會帶你一起實機操作。
在上一篇文章中,我們探討了評估大型語言模型評估時應考慮的各項指標和細節。而這篇文章中,我們將深入探討如何具體操作去評估 LLM。這篇我們使用的工具框架是 EleutherAI 的 lm-evaluation-harness,以下會帶你一起實機操作。
在過去的幾年裡,LLM 在自然語言處理 NLP 領域取得了驚人的進步,成為許多應用的核心技術,包括自動回答系統、文本生成、翻譯等等。隨著這些模型能力日益增強,確保模型既準確又公正就顯得非常重要,而這就引伸出一個根本性的問題:我們怎麼評估模型好不好?
最近,Gemini 1.5 和 Claude 3 先後發布使的各種 LLM 的規格變得越來越複雜,因此我決定花時間來整理一份最新的規格比較表,其中包含 OpenAI、Google、Anthropic、Meta 以及 Mistral AI 的模型。
截止至今,關於 LLM 的優化與技巧層出不窮,幾乎每個月都有新的技術和方法論被提出,因此本篇主要是要介紹在各種不同情境下,LLM 的各種 Prompt Engineering (提示工程) 技巧,每篇都有附上論文連結與架構圖,方便你快速檢閱,希望能助幫你深入了解。
儘管 LLM + RAG 的能力已經令人驚嘆,但我們在使用 RAG 優化 LLM 的過程中,還是會遇到了許多挑戰與難題,包括但不限於檢索器返回不準確或不相關的資料,以及LLM基於錯誤或過時資訊生成答案的情況,因此本文旨在提出 RAG 常見的 7 大挑戰,與其各自的優化方案。
本篇探討 LLM 的 4 種類型的壓縮技術:剪枝(Pruning)、知識蒸餾(Knowledge Distillation)、量化(Quantization)、低秩因子分解(Low-Rank Factorization)
我們將重點放在如何使用 Streamlit 來建立一個視覺化的操作介面,以便 Demo 整個RAG(Retrieval-Augmented Generation)的工作流程。
在這篇文章中,我們將帶你使用 LangChain + Llama2,一步一步架設自己的 RAG(Retrieval-Augmented Generation)的系統,讓你可以上傳自己的 PDF,並且詢問 LLM 關於 PDF 的訊息。
近期 RAG 的研究發展
使用 llama.cpp 建立屬於你的 LLM