Retrieval Quality היא איכות השליפה של מידע מתוך מאגר, אינדקס או אתר. במילים פשוטות: כאשר המשתמש שואל שאלה, האם המערכת מצליחה למצוא את המקטעים הנכונים, המדויקים, העדכניים והרלוונטיים ביותר לפני שהיא מייצרת תשובה? זהו מושג מרכזי בעולם RAG, גם אם בשיווק הוא עדיין לא קיבל מספיק תשומת לב.
השיעור למנהל שיווק: אם המידע הנכון קיים באתר אבל לא נשלף, מבחינת המשתמש הוא כמעט לא קיים. זה קורה הרבה. יש באתר מאמר טוב, אבל הכותרת כללית. יש תשובה בפסקה חמישית, אבל היא קבורה בתוך טקסט ארוך. יש הסבר מצוין, אבל אין לו שאלה ברורה. יש מדריך, אבל הוא לא מחובר לעמודי תוכן אחרים. התוצאה: המערכת עלולה לשלוף מתחרה פחות טוב, אבל ברור יותר.
השכבה המקצועית: Retrieval Quality מושפע ממבנה טקסט, כותרות, chunking, embeddings, metadata, קישורים פנימיים, בהירות סמנטית, עדכניות, סמכות מקור ומידת ההתאמה בין ניסוח המשתמש לבין ניסוח התוכן. LangChain מתארת בשרשרת retrieval את הצורך בפיצול מסמכים למקטעים שאפשר לשלוף בנפרד, במודלי embedding שמייצגים טקסטים כווקטורים, וב vector stores שמאפשרים חיפוש מעליהם.
הטעות הנפוצה היא להניח שמאמר ארוך תמיד טוב יותר. לפעמים מאמר ארוך דווקא מקשה על שליפה. אם אין מבנה פנימי, אין שאלות, אין כותרות ברורות, ואין תשובות שניתן לבודד, המערכת מתקשה למצוא את הזהב בתוך הטקסט.
בדיקת מנהל שיווק: עבור על מאמר מרכזי ושאל: האם כל פסקה עונה על שאלה אחת? האם הכותרת אומרת למנוע מה נמצא בפסקה? האם יש פסקאות שאפשר לשלוף בלי לאבד הקשר? אם התשובה שלילית, איכות השליפה נמוכה.
