Пошук протягом багатьох років пройшов серйозні трансформації, все, зберігаючи його значення навіть у найсучасніших епох технологій. З новими ітераціями приходять нові методи оптимізації, де великі мовні моделі (LLM) мають вирішальну роль.
SID Probstein, генеральний директор, Swirl, провів сеанс саміту даних, “Розкриття даних, які ви знаєте, є, але не можете знайти” Дослідження способів, за допомогою яких LLM можуть різко покращити пошук документів.
Щорічний Саміт даних Конференція повернулася до Бостона, 14-15 травня 2025 року, з семінарами перед конференцією 13 травня.
Трансформація пошуку за допомогою LLMS знаходить порядок серед хаосу, згідно з Пробштейном. Важливо, “це про те, щоб отримати пошук та LLM, щоб грати приємно разом”, – додав він.
Щоб керувати цією симбіотичною реальністю, LLMS може оптимізувати пошук, переміщуючи запити від орієнтованих на відповідь на документ. Хоча багато хто розглядає LLMS як проспект, в якій можна було б шукати, він може значно покращити спосіб проведення пошуку сам по собі.
У пошуку, орієнтованому на документ, точна інформація з'являється з останньої версії даних. Після розташування, розмова з LLM про документ надає ще більш релевантну інформацію. Зрештою, “LLMS – це не лише для пошуку, вони можуть перекладати, вони можуть обговорити”, – сказав Пробштейн, підкреслюючи, як LLM можуть перевершити пошук тексту в інші структуровані джерела даних.
За допомогою збільшення Genai ви можете вдосконалити самі запити та документи для оптимізації пошуку. Створення трубопроводу з Genai може або покращити запит, або покращити сам документ, спонукаючи LLM очистити заголовки, витягувати метадані з неструктурованих даних тощо.
“Покладіть LLM між вами та даними, і це може покращити ваші документи”, – зазначив Пробштейн.
Популярний спосіб поліпшення пошуку-через тонке настроювання, де моделі LLM навчаються з петабайтами даних. Але під час виконання це стиснена, менша версія, безсумнівно, що втрачає інформацію та індукуючи галюцинації.
Покоління, що надходить в огідлену, є запорукою обмеження галюцинацій, за словами Пробштейна, отримання інформації, яка існує, та обмеження LLM на надані дані.
Однак Пробштейн зазначив, що галюцинація є не Коли LLM надає відповідь, засновану на наданих вами даних, які трапляються неправильно; Це проблема з вашими даними.
Крім того, “LLM не знає вашого бізнесу. Для того, щоб LLM дізнався про ваш бізнес, вам потрібно поділитися інформацією”, а саме через таксономії та онтології. Це вирішує точність виведення та розуміння запитів, особливо якщо деякі деталі не були оприлюднені публічно.
Зрештою, Probstein пропонує забезпечити LLM з:
- Схема баз даних та профіль
- Зразки запитів
- Приклади запитів
- Контекст користувача (роль, відділ, теми, дата)
- Корисна кінцева точка пошуку SharePoint
Для огляду доступно багато презентацій Summit 2025 https://www.dbta.com/datasummit/2025/presentations.aspx.