logo
Loading...

知識的數位化: RAG怎麼將知識擷取到知識庫 - 如何設計結合Agent的可靠AI知識庫 - Cupoy

Chap2: 知識的數位化: RAG怎麼將知識擷取到知識庫 問題1: 筆記怎麼寫的 aka. RAG怎麼將知識擷取到知識庫 先獲得文字內容 將內容根據字元切分成Chunk 產生Embeddin...

Chap2: 知識的數位化: RAG怎麼將知識擷取到知識庫 問題1: 筆記怎麼寫的 aka. RAG怎麼將知識擷取到知識庫 先獲得文字內容 將內容根據字元切分成Chunk 產生Embedding(嵌入) 存入資料庫 Embedding 圖片和表格會發生什麼事? 以Ollama和大多RAG工具來看,會直接被忽略掉 但並不是完全沒辦法處理,例如我們可以用更複雜的多模態模型來處理圖片 多模態的執行範例 利用LangChain 實作多模態模型的RAG... Langchain Multi-modal RAG 如果很難想像多模態的世界,可以回想一下駭客任務的場景。在那個世界景象、聲音、記憶甚至存在都是數位的,這些數位化的內容都是存在於數學上的一個空間中,這點已經不再科幻。多模態就是選擇性地把特定資料連結到一起的方法,例如貓的聲音與貓的照片。 一個常見迷思: RAG的嵌入也來自GPT4等大語言模型 實際上,我們只是需要內容與嵌入互相對應,所以用相對簡單的Bert等就可以了。但確實可以用GPT或其他LLM來進行,並獲得語意上更可靠的嵌入(但會貴的嚇人)。或者針對圖像型資料,才特別選擇用GPT4o來產生嵌入。 關於檢索: RAG怎麼從知識庫中找到相關資料 RAG怎麼從知識庫中找到相關資料 這個問題有關檢索方法,也就是到底怎麼找到想要的資料 簡單方案 計算嵌入之間的距離(餘弦相似度等),並排序top-K。 這裡的K是一個整數,例如5,就會找出前五個相似度最高的內容 進階RAG技巧 推薦閱讀: Advance RAG- Improve RAG performance Retrieval-Augmented Generation for Large Language Models: A Survey RAG怎麼幫助LLM回答問題 如何利用搜索到的相關內容 ?把搜索到的內容整合到用戶訊息裡面,一起送給LLM做回答。 RAG的效果 Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks RAG就是創建數位化的第二大腦 一個筆記本: 擷取、檢索、儲存 第二大腦: 擷取、檢索、儲存、轉化