logo
Loading...

Review: 如何設計謹慎的AI知識庫 - 如何設計結合Agent的可靠AI知識庫 - Cupoy

Review 什麼是RAG RAG怎麼將知識擷取到知識庫 RAG怎麼從知識庫中找到相關資料 RAG怎麼幫助LLM回答問題 進階RAG技巧 如何設計謹慎的AI知識庫 Garbage in Gar...

Review 什麼是RAG RAG怎麼將知識擷取到知識庫 RAG怎麼從知識庫中找到相關資料 RAG怎麼幫助LLM回答問題 進階RAG技巧 如何設計謹慎的AI知識庫 Garbage in Garbage out 準則 (開始之前)設定適合公司的審核標準,確保回應內容的規範,輸入資料的整理原則 (當開始建立知識庫)對每一份新的資料,設立負責人,對知識庫的內容編寫回應內容的允許範疇。(例如: 客服機器人回應內容不能超出現有客服回應資料範例中) (當開始建立知識庫)工程師建立合理的資料擷取路徑,將新資料納入知識庫。 (新資料開始推論前)工程師建立Parser,確保輸出內容符合公司的標準,以及該新資料由負責人訂立的範疇。 (推論)上線後透過評分機制收集回應,或跟付費的高階LLM對談,並收集回饋 (維護)持續更新、管理知識庫。刪除廢、舊、重複知識 最大挑戰 範疇與審核標準定義 挑戰1: 關鍵資訊萃取 如何萃取到重要的資訊? 如何確保到的資訊是正確的? 混合結構和非結構化資料 用以產生結構化資料的AI - LayoutLM家族 使用LLM Agent從資料庫中存取準確無誤的資訊 LLM Agent還是LLM,但他透過跟運算環境連結,並多上了任務規劃和任務執行的能力。簡單的說,他現在不只能建議你做什麼,還能直接幫你做! 挑戰2: 圖文混合 如何解決圖文混合問題 使用CLIP家族產生嵌入(Local) 使用GPT4理解圖片產生嵌入(Recommend) 挑戰3: 正規化回應 Layout Parser 挑戰4: 持續更新 對RAG知識庫來說,必要且最大的支出就是更新知識庫。特別是在專業領域,或需要語言工程師參與的場景,例如建立Question-Answer的對應,或是醫療或法律相關知識是涉及到案例或臨床資料。 如何將使用者的問題與回應收入知識庫 評分 使用高階語言模型產生 No-code 關鍵知識管理知識庫 No-code 關鍵資訊萃取器 混合結構與非結構資料的知識庫 優化的Layout Parser