
Штучний інтелект (AI) революціонізував і продовжить трансформувати багато галузей, що орієнтуються на клієнтів. Ділові додатки, що працюють на AI, пропонують відчутну цінність як для клієнтів, так і для бізнес-операцій. Однак існують істотні ризики для прийняття ШІ. Великі мовні моделі (LLM), побудовані на частково упереджених даних або моделюванні, показали, як галюцинації можуть призвести до негативних результатів бізнесу (A. pequeno, лютий 2024).
Ефективні результати АІ вимагають багатих, точних та неупереджених даних. Упереджені, неповні, не марковані та неточні дані про навчання чи ділові дані часто генеруватимуть “галюцинації”. Фактичні невідповідності або тонко упереджені результати, які можуть здатися точними та корисними, але насправді можуть негативно вплинути на прийняття бізнес -рішень. Навіть чисті дані бізнесу сприяють галюцинаціям, якщо дані навчання вгору за течією є упередженими або неповними, або якщо нагляд за результатами АІ не в змозі отримати доступ до високоякісних довідкових даних та пов'язаних з цим знань. Через це не дивно, що організації, які прагнуть скористатися ШІ, розглянуть виклики даних про основну перешкоду, коли вони працюють над тренуванням, розгортанням, масштабами та визначенням рентабельності інвестицій своїх ініціатив ШІ. Це вказує на зростаючу потребу в інструментах та методах для підтвердження надійності результатів ШІ.
Переміщення основних кроків у прикладі медичних даних у реальному світі окреслить практику якості даних, необхідні для забезпечення точних результатів ШІ. Почніть з профілювання, очищення та збагачення навчальних та ділових даних за допомогою автоматизованих правил та міркувань. Застосовуйте експертну семантику та візуально підтримуване пошукове покоління в умовах високої якості даних для інформованого та спостережуваного нагляду за якості та навчання (S. Hedden, 2024 р.). Автоматизуйте тестування КК та виправлення результатів із кураторним вмістом та збільшенням результатів, що підтримується експертом, підтримується діловими правилами та семантикою.
Запобігання галюцинаціям AI від перешкод бізнес -операцій вимагає комплексного підходу до якості даних, що містять дані про навчання “Золотий стандарт”; активно очищені та розширені ділові дані; та контрольовано навчання AI, що підтримується спостережуваним контентом, машинними міркуваннями та діловими правилами. Ці фактори повинні бути доповнені автоматизованим тестуванням та корекцією результатів, що підтримуються високоякісними довідковими даними, діловими правилами, машинними міркуваннями та ганчіркою.
Забезпечення точності в програмах AI може означати життя чи смерть для людей та підприємств
Дослідження класичного прикладу медичного ризику продемонструє критичну потребу в точному виході з AI – підтримується чистими даними, процесом та спостереженням за результатами та автоматизованим наглядом результатів.
У цьому сценарії специфічний препарат призначається як патч, а загальна доза – 15 міліграмів. Препарат також доступний як таблетка, яка вимагає нижньої 5 міліграмної дози. Додаток, що підтримується AI, може неправильно генерувати твердження, яке поєднує дві частини інформації, заявивши, що пацієнт може приймати “загальну дозу 15 мг, доступну у формі таблеток”. Легко пропустити помилку, навіть для людини, але це робить потенційно небезпечну галюцинацію AI. Експерт з медичної допомоги людини, яка приділяє пильну увагу, швидше за все, визнає помилку – прийом 15 міліграмів ліків у формі таблеток буде втричі більше рекомендованої дози, що потенційно спричиняє передозування. Лайперсон наївно просить заявку на AI про медичне дозування може вирішити взяти три 5 таблетки міліграм – потенційно смертельний результат.
Тут здоров'я та безпека пацієнта під загрозою та глибоко покладаються на чисті, добре марковані дані та точні результати AI. Ці помилки можна уникнути, поєднуючи високоякісні навчальні та довідкові дані. Спостережуваний нагляд та навчання результатів ШІ, що підтримуються семантичними машинними міркуваннями та правилами бізнесу, а також автоматизована перевірка результатів, що звертається до кураторних експертних ресурсів для перевірки чи виправлення результатів, все сприяє більш функціональній системі AI.
На додаток до включення традиційних операцій з якості даних, які очищають, інтегрують, гармонізують та збагачують дані, семантично поінформовані правила, що підтримуються хорошими даними, можуть забезпечити точні дані бізнесу та результати AI. Порівняння результатів з очікуваними результатами підтримує емпіричну точність. Експертна онтологія в поєднанні з кураційними медичними довідковими даними, такими як Уніфікована система медичної мови (UMLS), може автоматично визначати дозування ліків на основі його встановленого використання або формату. Система розпізнає та виправляє помилку самостійно, стверджуючи, що “для цього ліки таблетки не призначаються і не рекомендуються вище 5 міліграм”.
Як ми можемо забезпечити чисту, всебічну підготовку та ділові дані та точні результати додатків AI, пов'язаних з медичними даними? Важливо рекомендувати правильну дозу та маршрут введення для належних ліків.
Наступні практики розробляються навколо цього потенційно рятівного прикладу. Ці процеси можуть бути реалізовані за допомогою платформ з низьким кодом, без кодових платформ, які зменшують технічні вимоги, пов'язані з інженерними робочими процесами якісної якості даних.
Почніть з очищеної та доповненої підготовки та даних
Щоб забезпечити високоякісні набори даних про навчання, почніть з профілювання, очищення та збагачення даних про навчання та бізнесу, якщо це потрібно, з автоматизованими правилами та семантичним висновком. Щоб уникнути неточних результатів AI (галюцинації), важливо використовувати золоті стандартні довідкові набори даних та чисті точні бізнес-дані. Коли дані навчання та бізнесу є неточними, упередженими або відсутніми важливими метаданими, додатки AI дають неточні або іншим чином упереджені результати.
Кожен проект AI повинен починатися з активного та основного управління якістю даних, включаючи профілювання, дедуплікацію, очищення, класифікацію та збагачення. Подумайте про це як “чудові дані в – чудові результати бізнесу”. В ідеалі дані про навчання курації та інтегровані з декількох джерел для створення високоякісних демографічних, клієнтських, фірмографічних, географічних чи інших відповідних ресурсів даних. Крім того, якість даних та процеси, керовані даними, не є статичними і повинні оброблятися в режимі реального часу. З цієї причини активна якість даних (автоматизація якості даних) як звичайна бізнес-операція є важливою для будь-якого бізнес-програми з підтримкою AI. Це підтримує генерування та застосування активних правил для вирішення проблем, що виникають із профілювання даних до очищення, інтеграції, гармонізації та збагачення даних, на які посилається ваша програма AI. Усі ці фактори вказують на необхідність розробки додатків з підтримкою AI в середовищі активної якості даних, як засобу для сприяння кращому бізнес-розумінню та результатів без галюцинації.
У прикладі ліків, точні дані, багаті на метадані, необхідні та посилаються на систему. Чисті довідкові дані можуть застосовуватися на декількох кроках у робочому процесі AI:
- По -перше, профілювання, очищення та збагачення вгору за течією забезпечують наявність точної та послідовної дозування та маршрутизації інформації про адміністрування.
- Далі, ці дані можуть бути застосовані як доповнення до спостережуваного під наглядом або непідконтрольним навчанням, оскільки модель AI інформується оперативною та інженерною інженерією. Відсутня або неправильна доза або маршрут вмісту адміністрування будуть додані або виправлені.
- Нарешті, результати AI можуть бути проінформовані та виправлені вмістом, отриманим з чистих довідкових даних автоматизованими способами, застосовуючи методи розширеного покоління (RAG) або з спостережуваним наглядом за допомогою методів графіки на основі графіків на основі графіків знань.
Ці методи можуть ідентифікувати та позначити або виправляти будь-який вміст або результат, який не відповідає очікуваному вмісту чи відносинах-запис або рекомендація, що посилається на таблетку 15 міліграм, буде позначений або виправлений.
Навчіть свою програму AI за допомогою спостережуваного, експертного семантичного нагляду
Далі, порівняння результатів з очікуваним авторитетним контентом та взаємозв'язками (багатий позначеними посиланнями та семантичними даними) є критичним кроком робочого процесу. Спостережність та походження особливо важливі на стадії розробки додатків AI та залишаються критичними для управління протягом усього терміну експлуатації застосування.
Поєднуючи високоякісні тренінгові та довідкові набори даних із семантично вирівняними онтологічними графіками, інженери додатків та науковці з даних можуть ефективно переглянути виявлені проблеми. Машинні міркування (або семантичний висновок) можуть застосовувати семантичний вміст та пов'язані з цим правила якості даних, проінформовані експертами, такі як, що надаються Національним центром біомедичних онтологій (NCBO) у прикладі ліків. Ці ресурси можуть сприяти нагляду за навчанням, наприклад, шляхом візуально підтримуваного покоління, що підтримується (Graphrag).
Це створює середовище для інформованої та спостережуваної контрольованої підготовки, яка підтримує створення та застосування існуючих або нових ділових правил для забезпечення точних результатів. Навчаючи програму AI в режимі реального часу, потенційні помилки можуть бути зроблені, позначити та виправити.
Автоматизуйте нагляд, пошук та збільшення/виправлення для просування AI у масштабі
Більшість сьогоднішніх систем AI розроблені з людьми, які контролюють результати. Програми бізнес -масштабів повинні автоматизувати можливість перевіряти результати та перевірити, чи відповідають вони очікувану якість даних та семантичне значення. Для виробництва розгортаються добре марковані довідкові дані та авторитетні семантичні ресурси для автоматизації застосування семантичних приводів (збагачення даних або виправлення, обґрунтованого в онтологічних міркуваннях). Виходячи з авторитетних джерел для пошуку довідкових даних та логіки, правила та міркування можуть бути використані та застосовані в масштабах до розширення, оцінки та виправлення генерації результатів AI. Незважаючи на те, що невідомі питання завжди можуть бути позначені для нагляду за людьми, більшість питань можна автоматизовано вирішувати за допомогою застосування правил, експертних онтологій та високоякісних даних. Золоті стандартні дані, на які посилаються раніше, доповнюють навчання та автоматизований нагляд за течією, порівнюючи результати з очікуваними моделями довідкових даних.
Незважаючи на те, що медичні діагнози та рецепти завжди можуть потребувати нагляду за людьми, ми можемо забезпечити точність у всіх наших важливих програмах AI, застосовуючи чисті, добре марковані дані та змістовне збільшення.
Галюцинаційні програми AI вимагають використання інструментів та ресурсів, що підтримують емпіричну точність. Щоб уникнути неправильного, закріпіть свої проекти AI у золотих стандартних довідкових даних для навчання, чистих та кураторних ділових даних та активних процесів якості даних із спостережуваним та семантично поінформованим наглядом результатів. Разом ці методи забезпечують принципово необхідну основу для змістовного, спостережуваного та автоматизованого створення, тестування та виправлення результатів ШІ.
Посилання
Малий, Ентоні. Суперечка Gemini Gemini пояснила: Модель AI критикувала Муск та інші за передбачувані упередження. Forbes. 26 лютого 2024 року.
Хедден, Стів. Як побудувати програму Graph Grag: Використання графіків знань та AI для отримання, фільтрування та узагальнення статей медичних журналів. До науки про дані. 30 грудня 2024 року.