Poniższy tekst stanowi notatki z prezentacji Jareda Spoola „Why Designing for GenAI is Different”. Wszystkie przemyślenia, obserwacje i wnioski pochodzą bezpośrednio od prelegenta.
TL;DR
- AI generatywne to „papuga prawdopodobieństwa” – tokenizuje tekst, znajduje podobne wzorce i generuje odpowiedzi na podstawie matematycznych połączeń, nie rozumienia
- Obecne systemy mają 9 głównych zastosowań: chatboty, analiza dokumentów, wyszukiwanie, transkrypcja, tłumaczenia, generowanie mediów i edycja zdjęć/wideo
- Framework SOUR ocenia 8 wymiarów przepaści między sci-fi oczekiwaniami użytkowników a rzeczywistymi możliwościami AI
- Dokładność systemów wynosi 50-95% – nawet najnowsze wersje ChatGPT mają co najmniej 5% wskaźnik halucynacji
- Projektanci muszą abstrakcyjnie ukrywać złożoność podobnie jak w ewolucji od linii komend do interfejsów graficznych
- Zrównoważoność to poważny problem – firmy AI tracą miliardy dolarów, a każdy prompt zużywa litr wody
- Fokus na wartość, nie technologię – kluczem jest dostarczanie użytkownikom rzeczywistej korzyści, nie implementowanie AI dla samego AI
Demistyfikacja sztucznej inteligencji
Spool rozpoczyna swoją analizę od fundamentalnego problemu – braku definicji AI. Jak podkreśla ekspert, nie istnieje żadna oficjalna definicja sztucznej inteligencji ani inteligencji jako takiej. Ta nieokreśloność sprawia, że każdy może określić swój system jako „inteligentny” bez możliwości weryfikacji takiego twierdzenia.
Typologie sztucznej inteligencji
Prezenter wyróżnia kilka rodzajów tego, co powszechnie nazywamy „AI”:
- Algorytmy predykcyjne – działają od dekad, jak aplikacja pogodowa przewidująca deszcz za 22 minuty
- Agentic AI/AI agents – w rzeczywistości to automacje; wszyscy którzy 3 lata temu robili automatyzację biznesową, teraz tworzą agentów
- Artificial General Intelligence – nie istnieje; Sam Altman twierdzi, że może nigdy nie będzie, jednak CEO Anthropic przewiduje jego powstanie za 2,5 roku
Mechanizm działania Large Language Models
Według analizy Spoola, AI generatywne to zaawansowana „papuga prawdopodobieństwa”. System funkcjonuje według czterech kroków:
- Tokenizuje wprowadzony tekst na liczby
- Znajduje tokeny często powiązane z wprowadzonymi
- Przekształca je z powrotem w naturalny język
- Tworzy iluzję konwersacji
Prezenter porównuje ten mechanizm do funkcji autouzupełniania w telefonach. Po słowie „ser” system często proponuje „pizza”, ponieważ takie połączenia często występują w danych treningowych. Konkretny przykład tej ograniczoności: LLM poproszony o wybranie losowej liczby między 1 a 50 najczęściej wybierze 27. Dzieje się tak nie dlatego, że to najlepsza losowa liczba, ale dlatego, że wiele artykułów zostało napisanych o tym, iż ChatGPT wybiera właśnie 27.
Brak rozumienia podstawowych praw fizyki
Kluczowy przykład pokazujący ograniczenia: jeśli zapytasz LLM, czy woda jest zamrożona w temperaturze 26°F, odpowie „nie”, bo zamarza w 32°F. System nie rozumie, że jeśli zamarza w 32°F, to w 26°F musi być już zamrożona – brakuje mu zrozumienia praw termodynamiki.
Rzeczywiste możliwości obecnych systemów
Spool identyfikuje 9 konkretnych zastosowań, w których AI generatywne sprawdza się obecnie:
- Chatboty i podstawowe konwersacje
- Wyszukiwanie i podsumowywanie złożonych dokumentów
- Zadawanie pytań repositoriów dokumentów
- Wyszukiwanie webowe i „deep research”
- Generowanie treści – tekst, wideo, audio i obrazy
- Transkrypcja mowy na tekst
- Tłumaczenia między językami
- Edycja zdjęć i wideo
- Symulowanie kontekstu poprzez „okno kontekstowe”
Prezenter zauważa, że Google Translate działa dzięki treningowi na dokumentach ONZ, które są tłumaczone przez ludzi i służą jako współczesny „kamień z Rosetty” do porównywania języków.
Studium przypadku: Kaiser Permanente
Szczegółowy przykład zastosowania w służbie zdrowia pokazuje, jak można skutecznie wykorzystać AI przy zachowaniu kontroli człowieka. Kaiser Permanente stworzył aplikację, która:
- Transkrybuje rozmowy między lekarzem a pacjentem w czasie rzeczywistym
- Wyciąga kluczowe informacje: historię pacjenta, omawiane leczenie, diagnostykę, zalecane leki
- Formatuje dane zgodnie z systemem elektronicznej dokumentacji medycznej
- Wymaga zatwierdzenia lekarza przed zapisaniem czegokolwiek do systemu
- Pozwala na korekty błędnych lub niepełnych informacji
Rezultat badania z 10 000 lekarzami: każdy lekarz oszczędza średnio 3 godziny tygodniowo na wprowadzaniu danych. W konsekwencji mogą spędzić dodatkowe trzy godziny z pacjentami.
Framework SOUR – Analiza przepaści oczekiwań
Spool przedstawia autorski framework „Spectrums of Usable Reality” (SOUR) do oceny przepaści między oczekiwaniami użytkowników a rzeczywistością. Framework analizuje 8 kluczowych wymiarów:
Dokładność – Science fiction prezentuje systemy działające bezbłędnie jak arkusze kalkulacyjne. Tymczasem LLM-y halucynują, pomijają ważne informacje i popełniają błędy. Nawet najnowsze wersje ChatGPT mają co najmniej 5% wskaźnik halucynacji.
Przewidywalność – W filmach komputer Enterprise zawsze generuje identyczną odpowiedź na to samo pytanie. Dzisiejsze LLM-y jednak produkują różne wyniki przy identycznych promptach z powodu swojego probabilistycznego charakteru.
Łatwość kontroli – Definicja intuicyjnego designu zakłada brak konieczności nauki obsługi narzędzia. Z kolei LLM-y wymagają nauki „języka promptów”, a częstą odpowiedzią na krytykę pozostaje: „po prostu nie nauczyłeś się promptować”.
Kompletność szczegółów – Science fiction sugeruje, że wystarczy zapytać raz, aby system zaprojektował dokładnie to, co miałeś na myśli. W rzeczywistości musisz iteracyjnie doprecyzowywać prompty, czasem dłużej niż przy użyciu konwencjonalnych metod.
Obserwowalność – Data ze Star Trek zawsze mógł wyjaśnić swoje rozumowanie. LLM nie potrafi tego zrobić, ponieważ nie wie, jak „myśli”. Gdy poprosisz go o uzasadnienie, po prostu wyszuka prawdopodobne wyjaśnienie, ale to nie jest raport z jego rzeczywistego procesu.
Pozostałe wymiary to uczenie się obliczeniowe (LLM-y nie uczą się z błędów), szybkość obliczeniowa (lepsze wyniki wymagają więcej czasu) oraz świadomość kontekstowa (system nie wie, czy znajdujesz się w gabinecie lekarskim czy w domu).
Problem granicy między wyszukiwaniem a doradzaniem
Spool wspomina klienta z branży finansowej, który chce używać LLM dla doradców finansowych. LLM sprawdza się jako narzędzie wyszukiwania, ale nie jako narzędzie doradcze. Problem polega na tym, że granica między „szukam informacji” a „szukam porady” nie jest jasna ani dla projektantów, ani dla użytkowników.
Google Gemini – praktyczny przykład problemów
Prezenter podaje osobisty przykład: Google Gemini, podsumowując jego artykuły, popełnia około 50% błędów w szczegółach i używa informacji będących dokładnym przeciwieństwem napisanej treści. Jeśli ktoś przeczyta podsumowanie zamiast oryginalnego artykułu, otrzyma kompletnie inne zrozumienie tematu. Eksperci mogą wyłapać niedokładności AI, jednak osoby nieznające tematu mogą polegać na błędnym podsumowaniu.
Ewolucja projektowania interfejsów
Spool przeprowadza historyczną analogię z rozwojem interfejsów graficznych. Kiedy rozpoczynał pracę w branży, przed Windows i Mac wszystko funkcjonowało w linii komend – użytkownicy otrzymywali prompt, wpisywali polecenie, a komputer zwracał tekstową odpowiedź.
Projektanci rozwiązali ten problem przez wyodrębnienie rzeczowników i czasowników z poleceń oraz umieszczenie ich w menu. Dlatego większość menu stanowią czasowniki (File, Edit, View), do których dodajemy rzeczowniki (New File, Open File).
Przez ostatnie 20-30 lat nakładamy interfejsy graficzne na tekstowe systemy. Wiele dzisiejszych projektantów ma tę tekstową warstwę całkowicie zaabstrahowaną. Nie dostrzegają, że pod spodem każdego formularza czy raportu kryją się tekstowe zapytania SQL.
Podobna ewolucja czeka projektowanie dla AI. Fundamentalną zasadą psychologii w UX pozostaje „recognition over recall” – rozpoznawanie jest łatwiejsze niż przypominanie sobie. LLM-y cofają nas do świata, gdzie musimy pamiętać sposób użycia, zamiast rozpoznawać opcje w menu.
Spool poleca trzy kluczowe zasoby: „Conversational Design” Eriki Hall, „Object Oriented UX” Sophii Prater oraz najnowszy post Luke’a Wroblskiego o tworzeniu interfejsów dla promptów.
Problemy zrównoważoności i etyczne
Prezenter nie omija trudnych tematów związanych z AI. Firmy AI tracą gigantyczne sumy pieniędzy: Microsoft zarobił 17 milionów dolarów na AI, ale wydał 105 miliardów. OpenAI ma 12 miliardów przychodów przy 660 miliardach kosztów. Jedyna firma zarabiająca na AI to Nvidia.
Wszystkie te firmy będą musiały w końcu podnieść ceny dla inwestorów – to samo stało się z Uberem i Amazon Web Services. Cursor (najpopularniejsza aplikacja AI do kodowania) właśnie zraził dużą część użytkowników podnosząc ceny, ponieważ Anthropic podniósł swoje ceny.
Każdy prompt do ChatGPT zużywa litr wody do chłodzenia serwerów, często w regionach dotkniętych suszą. Dodatkowo wiele treningowych danych pochodzi z kradzieży własności intelektualnej, a samo trenowanie opiera się na pracy ludzi otrzymujących 2 dolary za godzinę za oznaczanie traumatyzujących treści, szczególnie w krajach globalnego Południa.
✅ Checklista dla projektantów AI
Przed rozpoczęciem projektu:
- Zdefiniuj konkretną wartość dla użytkownika (nie „dodajmy AI”)
- Sprawdź czy problem należy do 9 sprawdzonych zastosowań AI
- Oceń oczekiwania stakeholderów używając 8 wymiarów SOUR
- Zbadaj potrzeby użytkowników niezależnie od technologii
Podczas projektowania:
- Zaprojektuj system weryfikacji przez człowieka (jak Kaiser Permanente)
- Ukryj złożoność promptowania przez przemyślany interfejs
- Przygotuj na iteracyjne doprecyzowywanie zamiast „idealnych” wyników
- Zarządzaj oczekiwaniami dot. dokładności i przewidywalności
Zrównoważoność i etyka:
- Oszacuj długoterminowe koszty operacyjne przy różnych scenariuszach
- Rozważ wpływ środowiskowy intensywnego użycia
- Zaplanuj alternatywy na wypadek wzrostu kosztów dostawców AI
Praktyczne wnioski
Jak podkreśla Spool, kluczem jest fokus na wartości dla użytkownika, nie na technologii AI. Prezenter zauważa: „AI to tylko technologia, a dostarczanie wartościowej funkcjonalności to stara umiejętność, którą znamy od 50 lat.”
Projektanci znają już zasady tworzenia wartościowych doświadczeń – teraz muszą zaadaptować je do nowych możliwości technologicznych, pamiętając o ograniczeniach i zarządzając oczekiwaniami ukształtowanymi przez science fiction.
Wiele osób w designie, które dołączyły do branży w ostatnich 10 latach, nigdy nie musiało wykonywać tego typu pracy, ponieważ technologia się ustabilizowała. Mieliśmy wzorce projektowe, których mogliśmy używać. Z AI te wzorce nie działają – musimy przejść przez proces abstrakcji złożoności ponownie.
Kluczowy insight
Prompt engineering to pułapka
Standardowo myślimy: Użytkownicy muszą nauczyć się „prompt engineering”, żeby AI działało – jeśli narzekają na wyniki, odpowiadamy „po prostu nie nauczyłeś się promptować”.
W praktyce okazuje się, że: Projektanci powinni ukryć całą złożoność promptowania przez przemyślane interfejsy, tak jak GUI ukryły linie komend przed użytkownikami.
Dlaczego to jest istotne: Definicja intuicyjnego designu brzmi: nie musisz się uczyć, jak używać narzędzia. Zmuszanie użytkowników do nauki promptowania to cofnięcie się o 30 lat w UX design.
Test na jutro: Następnym razem gdy użytkownik narzeka, że AI mu nie działa, zamiast mówić „naucz się promptować”, zaprojektuj interfejs który ukryje potrzebę promptowania i sprawdź, czy problem znika.
Ten wpis jest częścią mojej kolekcji notatek z ciekawych podcastów, webinarów i innych treści, które uważam za wartościowe i do których sam chcę wracać. Oryginalny materiał pochodzi z prezentacji „Why Designing for GenAI is Different„.
Dodaj komentarz
Musisz się zalogować, aby móc dodać komentarz.