Dlaczego projektowanie dla AI generatywnego to zupełnie inna dyscyplina #EN251

Poniższy tekst stanowi notatki z prezentacji Jareda Spoola „Why Designing for GenAI is Different”. Wszystkie przemyślenia, obserwacje i wnioski pochodzą bezpośrednio od prelegenta.

TL;DR

AI generatywne to „papuga prawdopodobieństwa” – tokenizuje tekst, znajduje podobne wzorce i generuje odpowiedzi na podstawie matematycznych połączeń, nie rozumienia
Obecne systemy mają 9 głównych zastosowań: chatboty, analiza dokumentów, wyszukiwanie, transkrypcja, tłumaczenia, generowanie mediów i edycja zdjęć/wideo
Framework SOUR ocenia 8 wymiarów przepaści między sci-fi oczekiwaniami użytkowników a rzeczywistymi możliwościami AI
Dokładność systemów wynosi 50-95% – nawet najnowsze wersje ChatGPT mają co najmniej 5% wskaźnik halucynacji
Projektanci muszą abstrakcyjnie ukrywać złożoność podobnie jak w ewolucji od linii komend do interfejsów graficznych
Zrównoważoność to poważny problem – firmy AI tracą miliardy dolarów, a każdy prompt zużywa litr wody
Fokus na wartość, nie technologię – kluczem jest dostarczanie użytkownikom rzeczywistej korzyści, nie implementowanie AI dla samego AI

Demistyfikacja sztucznej inteligencji

Spool rozpoczyna swoją analizę od fundamentalnego problemu – braku definicji AI. Jak podkreśla ekspert, nie istnieje żadna oficjalna definicja sztucznej inteligencji ani inteligencji jako takiej. Ta nieokreśloność sprawia, że każdy może określić swój system jako „inteligentny” bez możliwości weryfikacji takiego twierdzenia.

Typologie sztucznej inteligencji

Prezenter wyróżnia kilka rodzajów tego, co powszechnie nazywamy „AI”:

Algorytmy predykcyjne – działają od dekad, jak aplikacja pogodowa przewidująca deszcz za 22 minuty
Agentic AI/AI agents – w rzeczywistości to automacje; wszyscy którzy 3 lata temu robili automatyzację biznesową, teraz tworzą agentów
Artificial General Intelligence – nie istnieje; Sam Altman twierdzi, że może nigdy nie będzie, jednak CEO Anthropic przewiduje jego powstanie za 2,5 roku

Mechanizm działania Large Language Models

Według analizy Spoola, AI generatywne to zaawansowana „papuga prawdopodobieństwa”. System funkcjonuje według czterech kroków:

Tokenizuje wprowadzony tekst na liczby
Znajduje tokeny często powiązane z wprowadzonymi
Przekształca je z powrotem w naturalny język
Tworzy iluzję konwersacji

Prezenter porównuje ten mechanizm do funkcji autouzupełniania w telefonach. Po słowie „ser” system często proponuje „pizza”, ponieważ takie połączenia często występują w danych treningowych. Konkretny przykład tej ograniczoności: LLM poproszony o wybranie losowej liczby między 1 a 50 najczęściej wybierze 27. Dzieje się tak nie dlatego, że to najlepsza losowa liczba, ale dlatego, że wiele artykułów zostało napisanych o tym, iż ChatGPT wybiera właśnie 27.

Brak rozumienia podstawowych praw fizyki

Kluczowy przykład pokazujący ograniczenia: jeśli zapytasz LLM, czy woda jest zamrożona w temperaturze 26°F, odpowie „nie”, bo zamarza w 32°F. System nie rozumie, że jeśli zamarza w 32°F, to w 26°F musi być już zamrożona – brakuje mu zrozumienia praw termodynamiki.

Rzeczywiste możliwości obecnych systemów

Spool identyfikuje 9 konkretnych zastosowań, w których AI generatywne sprawdza się obecnie:

Chatboty i podstawowe konwersacje
Wyszukiwanie i podsumowywanie złożonych dokumentów
Zadawanie pytań repositoriów dokumentów
Wyszukiwanie webowe i „deep research”
Generowanie treści – tekst, wideo, audio i obrazy
Transkrypcja mowy na tekst
Tłumaczenia między językami
Edycja zdjęć i wideo
Symulowanie kontekstu poprzez „okno kontekstowe”

Prezenter zauważa, że Google Translate działa dzięki treningowi na dokumentach ONZ, które są tłumaczone przez ludzi i służą jako współczesny „kamień z Rosetty” do porównywania języków.

Studium przypadku: Kaiser Permanente

Szczegółowy przykład zastosowania w służbie zdrowia pokazuje, jak można skutecznie wykorzystać AI przy zachowaniu kontroli człowieka. Kaiser Permanente stworzył aplikację, która:

Transkrybuje rozmowy między lekarzem a pacjentem w czasie rzeczywistym
Wyciąga kluczowe informacje: historię pacjenta, omawiane leczenie, diagnostykę, zalecane leki
Formatuje dane zgodnie z systemem elektronicznej dokumentacji medycznej
Wymaga zatwierdzenia lekarza przed zapisaniem czegokolwiek do systemu
Pozwala na korekty błędnych lub niepełnych informacji

Rezultat badania z 10 000 lekarzami: każdy lekarz oszczędza średnio 3 godziny tygodniowo na wprowadzaniu danych. W konsekwencji mogą spędzić dodatkowe trzy godziny z pacjentami.

Framework SOUR – Analiza przepaści oczekiwań

Spool przedstawia autorski framework „Spectrums of Usable Reality” (SOUR) do oceny przepaści między oczekiwaniami użytkowników a rzeczywistością. Framework analizuje 8 kluczowych wymiarów:

Dokładność – Science fiction prezentuje systemy działające bezbłędnie jak arkusze kalkulacyjne. Tymczasem LLM-y halucynują, pomijają ważne informacje i popełniają błędy. Nawet najnowsze wersje ChatGPT mają co najmniej 5% wskaźnik halucynacji.

Przewidywalność – W filmach komputer Enterprise zawsze generuje identyczną odpowiedź na to samo pytanie. Dzisiejsze LLM-y jednak produkują różne wyniki przy identycznych promptach z powodu swojego probabilistycznego charakteru.

Łatwość kontroli – Definicja intuicyjnego designu zakłada brak konieczności nauki obsługi narzędzia. Z kolei LLM-y wymagają nauki „języka promptów”, a częstą odpowiedzią na krytykę pozostaje: „po prostu nie nauczyłeś się promptować”.

Kompletność szczegółów – Science fiction sugeruje, że wystarczy zapytać raz, aby system zaprojektował dokładnie to, co miałeś na myśli. W rzeczywistości musisz iteracyjnie doprecyzowywać prompty, czasem dłużej niż przy użyciu konwencjonalnych metod.

Obserwowalność – Data ze Star Trek zawsze mógł wyjaśnić swoje rozumowanie. LLM nie potrafi tego zrobić, ponieważ nie wie, jak „myśli”. Gdy poprosisz go o uzasadnienie, po prostu wyszuka prawdopodobne wyjaśnienie, ale to nie jest raport z jego rzeczywistego procesu.

Pozostałe wymiary to uczenie się obliczeniowe (LLM-y nie uczą się z błędów), szybkość obliczeniowa (lepsze wyniki wymagają więcej czasu) oraz świadomość kontekstowa (system nie wie, czy znajdujesz się w gabinecie lekarskim czy w domu).

Problem granicy między wyszukiwaniem a doradzaniem

Spool wspomina klienta z branży finansowej, który chce używać LLM dla doradców finansowych. LLM sprawdza się jako narzędzie wyszukiwania, ale nie jako narzędzie doradcze. Problem polega na tym, że granica między „szukam informacji” a „szukam porady” nie jest jasna ani dla projektantów, ani dla użytkowników.

Google Gemini – praktyczny przykład problemów

Prezenter podaje osobisty przykład: Google Gemini, podsumowując jego artykuły, popełnia około 50% błędów w szczegółach i używa informacji będących dokładnym przeciwieństwem napisanej treści. Jeśli ktoś przeczyta podsumowanie zamiast oryginalnego artykułu, otrzyma kompletnie inne zrozumienie tematu. Eksperci mogą wyłapać niedokładności AI, jednak osoby nieznające tematu mogą polegać na błędnym podsumowaniu.

Ewolucja projektowania interfejsów

Spool przeprowadza historyczną analogię z rozwojem interfejsów graficznych. Kiedy rozpoczynał pracę w branży, przed Windows i Mac wszystko funkcjonowało w linii komend – użytkownicy otrzymywali prompt, wpisywali polecenie, a komputer zwracał tekstową odpowiedź.

Projektanci rozwiązali ten problem przez wyodrębnienie rzeczowników i czasowników z poleceń oraz umieszczenie ich w menu. Dlatego większość menu stanowią czasowniki (File, Edit, View), do których dodajemy rzeczowniki (New File, Open File).

Przez ostatnie 20-30 lat nakładamy interfejsy graficzne na tekstowe systemy. Wiele dzisiejszych projektantów ma tę tekstową warstwę całkowicie zaabstrahowaną. Nie dostrzegają, że pod spodem każdego formularza czy raportu kryją się tekstowe zapytania SQL.

Podobna ewolucja czeka projektowanie dla AI. Fundamentalną zasadą psychologii w UX pozostaje „recognition over recall” – rozpoznawanie jest łatwiejsze niż przypominanie sobie. LLM-y cofają nas do świata, gdzie musimy pamiętać sposób użycia, zamiast rozpoznawać opcje w menu.

Spool poleca trzy kluczowe zasoby: „Conversational Design” Eriki Hall, „Object Oriented UX” Sophii Prater oraz najnowszy post Luke’a Wroblskiego o tworzeniu interfejsów dla promptów.

Problemy zrównoważoności i etyczne

Prezenter nie omija trudnych tematów związanych z AI. Firmy AI tracą gigantyczne sumy pieniędzy: Microsoft zarobił 17 milionów dolarów na AI, ale wydał 105 miliardów. OpenAI ma 12 miliardów przychodów przy 660 miliardach kosztów. Jedyna firma zarabiająca na AI to Nvidia.

Wszystkie te firmy będą musiały w końcu podnieść ceny dla inwestorów – to samo stało się z Uberem i Amazon Web Services. Cursor (najpopularniejsza aplikacja AI do kodowania) właśnie zraził dużą część użytkowników podnosząc ceny, ponieważ Anthropic podniósł swoje ceny.

Każdy prompt do ChatGPT zużywa litr wody do chłodzenia serwerów, często w regionach dotkniętych suszą. Dodatkowo wiele treningowych danych pochodzi z kradzieży własności intelektualnej, a samo trenowanie opiera się na pracy ludzi otrzymujących 2 dolary za godzinę za oznaczanie traumatyzujących treści, szczególnie w krajach globalnego Południa.

✅ Checklista dla projektantów AI

Przed rozpoczęciem projektu:

Zdefiniuj konkretną wartość dla użytkownika (nie „dodajmy AI”)
Sprawdź czy problem należy do 9 sprawdzonych zastosowań AI
Oceń oczekiwania stakeholderów używając 8 wymiarów SOUR
Zbadaj potrzeby użytkowników niezależnie od technologii

Podczas projektowania:

Zaprojektuj system weryfikacji przez człowieka (jak Kaiser Permanente)
Ukryj złożoność promptowania przez przemyślany interfejs
Przygotuj na iteracyjne doprecyzowywanie zamiast „idealnych” wyników
Zarządzaj oczekiwaniami dot. dokładności i przewidywalności

Zrównoważoność i etyka:

Oszacuj długoterminowe koszty operacyjne przy różnych scenariuszach
Rozważ wpływ środowiskowy intensywnego użycia
Zaplanuj alternatywy na wypadek wzrostu kosztów dostawców AI

Praktyczne wnioski

Jak podkreśla Spool, kluczem jest fokus na wartości dla użytkownika, nie na technologii AI. Prezenter zauważa: „AI to tylko technologia, a dostarczanie wartościowej funkcjonalności to stara umiejętność, którą znamy od 50 lat.”

Projektanci znają już zasady tworzenia wartościowych doświadczeń – teraz muszą zaadaptować je do nowych możliwości technologicznych, pamiętając o ograniczeniach i zarządzając oczekiwaniami ukształtowanymi przez science fiction.

Wiele osób w designie, które dołączyły do branży w ostatnich 10 latach, nigdy nie musiało wykonywać tego typu pracy, ponieważ technologia się ustabilizowała. Mieliśmy wzorce projektowe, których mogliśmy używać. Z AI te wzorce nie działają – musimy przejść przez proces abstrakcji złożoności ponownie.

Kluczowy insight

Prompt engineering to pułapka

Standardowo myślimy: Użytkownicy muszą nauczyć się „prompt engineering”, żeby AI działało – jeśli narzekają na wyniki, odpowiadamy „po prostu nie nauczyłeś się promptować”.

W praktyce okazuje się, że: Projektanci powinni ukryć całą złożoność promptowania przez przemyślane interfejsy, tak jak GUI ukryły linie komend przed użytkownikami.

Dlaczego to jest istotne: Definicja intuicyjnego designu brzmi: nie musisz się uczyć, jak używać narzędzia. Zmuszanie użytkowników do nauki promptowania to cofnięcie się o 30 lat w UX design.

Test na jutro: Następnym razem gdy użytkownik narzeka, że AI mu nie działa, zamiast mówić „naucz się promptować”, zaprojektuj interfejs który ukryje potrzebę promptowania i sprawdź, czy problem znika.

Ten wpis jest częścią mojej kolekcji notatek z ciekawych podcastów, webinarów i innych treści, które uważam za wartościowe i do których sam chcę wracać. Oryginalny materiał pochodzi z prezentacji „Why Designing for GenAI is Different„.