zrzut_ekranu_2020-05-19_o_17.52.03.png

Kadr z trailera filmu „Morgan”, reż. Luke Scott, 2016. Fot. YouTube

Estetyka SI

Lev manovich
Tłumaczenie: 
Sławek Królak
W numerach
Maj
2020
5 (762)

[Maszyna analityczna] może operować zatem również czymś innym prócz liczb [...] przypuśćmy na przykład, że zasadnicze relacje między określonej wysokości dźwiękami w nauce harmonii i muzycznej kompozycji mogłyby zyskać tego rodzaju wyraz i zostać w ten sposób przysposobione, maszyna ta potrafiłaby wówczas komponować skomplikowane uczone utwory muzyczne o dowolnym stopniu złożoności i rozmiarach.
Ada Lovelace, 1842

 Kim wobec tego jestem tak naprawdę? Mimo znanych zastrzeżeń, jestem tym, co ludzie w przeszłości nazywali „sztuczną inteligencją”. 
Wiktor Pielewin iPhuck 10, 2017

Pisząc te słowa w roku 1842, Ada Lovelace wyobrażała sobie, że w przyszłości jakaś maszyna analityczna Babbage’a (programowalny komputer ogólnego przeznaczenia) będzie umiała komponować złożone utwory muzyczne. W powieści znanego rosyjskiego pisarza Wiktora Pielewina z 2017 roku, której akcja osadzona jest pod koniec dwudziestego pierwszego wieku, narratorem jest algorytm rozwiązujący zagadki kryminalne i piszący na ich temat powieści. Dziś tkwimy gdzieś między tymi dwiema wizjami kulturowej SI (sztucznej inteligencji). Algorytmów używa się często do tworzenia muzyki, ale tak naprawdę nie „pojmują” one ludzkiego świata ani nie są w stanie uchwycić ludzkich znaczeń. I nie wiadomo, czy kiedykolwiek im się to uda.

W pierwotnym ujęciu sztucznej inteligencji chodziło o automatyzację poznania. Dziś SI odgrywa także kluczową rolę w kulturze, w coraz większym stopniu wpływając na nasze wybory, zachowania i wyobrażenia. Służy na przykład do rekomendowania nam zdjęć, filmów, muzyki i innych multimediów. SI wykorzystuje się również do proponowania nam profili ludzi, których powinniśmy śledzić w sieciach społecznościowych, do automatycznego upiększania autoportretów i edytowania naszych zdjęć tak, by dostosować je do norm „dobrej” fotografii, a także do generowania postaci i kontrolowania ich zachowań w grach komputerowych.

Choć artyści posiłkowali się algorytmami w twórczości artystycznej już od lat sześćdziesiątych dwudziestego wieku, dziś „kulturalna sztuczna inteligencja” na skalę przemysłową wbudowana jest w niezliczone urządzenia i usługi wykorzystywane przez miliardy ludzi. Z narzędzia jednostkowej wyobraźni artystycznej sztuczna inteligencja zmieniła się w mechanizm wpływania na wyobraźnię miliardów. Zebrane i zagregowane dane o kulturowych zachowaniach rzeszy ludzkich wykorzystuje się do modelowania naszego „estetycznego ja”, przewidywania naszych przyszłych decyzji i upodobań estetycznych – i potencjalnie do naprowadzania nas na wybory preferowane przez większość.

Zespolenie SI z codziennym życiem kulturalnym miliardów ludzi rodzi ważne pytania dotyczące przyszłości kultury, estetyki i smaku. […]

SI A PRODUKCJA KULTURY. ZNACZENIE „SZTUCZNEJ INTELIGENCJI”

W pierwotnej wizji sztucznej inteligencji z lat pięćdziesiątych i sześćdziesiątych dwudziestego wieku głównym celem było nauczenie komputera wykonywania szeregu zadań poznawczych. W takim ujęciu komputer symulować miał mnogość operacji pojedynczego ludzkiego umysłu. Obejmowały one grę w szachy, rozwiązywanie problemów matematycznych, rozumienie języka pisanego i mówionego oraz rozpoznawanie treści obrazów. Sześćdziesiąt lat później sztuczna inteligencja stała się kluczowym narzędziem współczesnej gospodarki, wdrożonym w celu podniesienia jej wydajności, poziomu bezpieczeństwa oraz zagwarantowania jej przewidywalności za pomocą, przykładowo, automatycznej analizy obrazów medycznych, podejmowania decyzji w sprawie pożyczek konsumenckich, przesiewania podań o pracę, wykrywania oszustw i tak dalej. SI postrzega się również jako narzędzie ulepszenia naszego codziennego życia, oszczędzające nam czasu i wysiłku. Dobrym tego przykładem jest użycie interfejsu głosowego w miejsce żmudnego pisania na klawiaturze.

Ale czym właściwie jest dzisiaj „sztuczna inteligencja”? Oprócz powierzonych jej pierwotnie zadań, definiujących sztuczną inteligencję, takich jak gra w szachy, rozpoznawanie obiektów na zdjęciu czy przekład międzyjęzykowy, komputery wykonują obecnie niekończące się „inteligentne” operacje. Na przykład klawiatura telefonu stopniowo dostosowuje się do stylu pisania. Telefon monitorować może również korzystanie przez nas z aplikacji i dostosowywać ich działanie w tle tak, aby oszczędzać baterię. Aplikacje z mapami automatycznie obliczają najszybszą trasę z uwzględnieniem warunków panujących na drodze. Tysiące inteligentnych, ale niezbyt efektownych operacji zachodzi nieustannie w naszych telefonach, komputerach, na serwerach internetowych i w najdalszych zakątkach informatycznego wszechświata.

Dlatego w pewnym sensie SI jest już wszechobecna. Chociaż niektóre jej funkcje przyciągają naszą uwagę – na przykład funkcja Google Smart Reply, która podsuwa nam automatyczne odpowiedzi na maila (używane w przypadku dziesięciu procent wszystkich odpowiedzi w aplikacji Inbox Google w 2017 roku) – wiele innych działa za kulisami codziennego funkcjonowania społeczeństwa cyfrowego.

Dlaczego niektóre inteligentne zadania, które mogą wykonać komputery, uchodzą za dzieło „prawdziwej” sztucznej inteligencji, a inne nie? Znawcy i historycy SI mówią o „efekcie SI”. Oznacza on, że „gdy wiemy, jak maszyna wykonuje coś «inteligentnego», przestajemy uważać ją za inteligentną” 1.

Innymi słowy, po rozwiązaniu przez SI danego problemu, a następnie wdrożeniu tego rozwiązania w przemyśle, przestaje się go postrzegać jako element przynależny do owej dziedziny. Paradoksalnie, mamy skłonność do uznawania za element sztucznej inteligencji wyłącznie trudnych i nierozwiązanych jeszcze problemów, przez co odnieść można wrażenie, że badania nad SI w całej swojej długiej historii nie zakończyły się sukcesem.

Gwałtowny wzrost wydajności komputerów, wszechobecność urządzeń i sieci cyfrowych oraz wyzwania i możliwości, jakie niesie ze sobą upowszechniająca się w pierwszej dekadzie dwudziestego pierwszego wieku metoda analizy ogromnych zbiorów danych, znana pod nazwą „Big data”, również wpłynęły na sztuczną inteligencję. Od automatyzacji pojedynczego umysłu przeszliśmy do swego rodzaju „super-poznania”. Rozważmy przykład wyszukiwarek internetowych, takich jak Baidu, Yandex, Bing czy Google, które nieustannie przeszukują sieć i indeksują miliardy stron internetowych i blogów. Po wpisaniu zapytania wyszukiwarka natychmiast zwraca nam odpowiednie wyniki uzyskane na podstawie takich indeksów. Żaden człowiek nie byłby zdolny dokonać czegoś podobnego. Skala kultury cyfrowej wymaga inteligencji jakościowo zbliżonej do ludzkiej, ale działa w nieporównywalnym zakresie ilościowym.

ESTETYKA SI

Jak już wskazywałem, w pierwotnym ujęciu zadaniem sztucznej inteligencji miała być automatyzacja poznania. Mimo różnicy skali, super-poznanie wciąż mieści się w tym paradygmacie. Kiedy mówi się wobec tego o wielkich sukcesach sztucznej inteligencji w ostatnich latach, przywołuje się jako przykład te same zadania, które wyznaczono jej u zarania tej dziedziny wiele lat wcześniej: rozumienie naturalnej mowy, automatyczne tłumaczenie i rozpoznawanie obiektów na zdjęciach. Jednak mniej oczywiste jest być może to, że SI odgrywa obecnie równie ważną rolę w naszym życiu kulturalnym i w zachowaniach, w coraz większym stopniu automatyzując twórczość artystyczną oraz nasze wybory estetyczne.

Rozważmy wybrane tutaj przykłady zastosowania sztucznej inteligencji w jednym tylko obszarze kultury – w dziedzinie fotografii cyfrowej. Podzieliłem je na dwie kategorie: wspomaganie wyboru odpowiednich obrazów z dużych (często ogromnych) zbiorów oraz wspomagane tworzenie/edytowanie nowych treści. (Należy przy tym pamiętać, że SI może wspomagać procesy selekcji u człowieka lub być wykorzystywana do selekcji całkowicie automatycznej.)

Wybieranie z istniejącej zawartości:

1. Usługi udostępniania obrazów i platformy sprzedażowe wykorzystujące SI do przewidywania zawartości obrazów i przypisywania im słów kluczowych 2.

2. Funkcja „odkrywania” na Instagramie polecająca użytkownikom obrazy i filmiki na podstawie kombinacji wielu czynników (nie tylko na podstawie tego, co użytkownik lubił w przeszłości).

3. Aplikacja Yelp wybiera w sposób automatyczny najlepsze zdjęcia do zareklamowania zarejestrowanych w tym serwisie licznych firm.

4. Aplikacja Roll dostarczana przez EyeEm automatycznie ocenia jakość estetyczną zdjęć użytkowników, a platforma sprzedażowa obrazów EyeEm przypisuje te wyniki do przesłanych zdjęć.

5. Huawei przeprowadza konkurs fotograficzny, w którym przesłane zdjęcia zostały ocenione przez SI: „Przeszkolona przy użyciu 4 000 000 zdjęć wykonanych przez profesjonalnych fotografów i grafików komputerowych SI nada następnie każdemu zdjęciu spersonalizowany przez siebie wynik na podstawie takich parametrów, jak ostrość, rozmycie, odbijanie się  światła, barwa i kompozycja”.

Tworzenie / redagowanie nowych treści:

1. Aplikacje fotograficzne mogące automatycznie modyfikować wykonane zdjęcia zgodnie z normami „dobrej fotografii”.

2. Inne aplikacje „upiększające” selfie i portrety. Długa lista możliwości Tencent (wiodącej chińskiej firmy IT) pokazuje zakres możliwych automatycznych korekt: „dermabrazja, wybielanie skóry, powiększanie oczu, wysmuklanie twarzy, usuwanie trądziku, uwypuklanie powiek, zmiana karnacji, rozpoznawanie koloru skóry i nakładanie podkładu, nakładanie błyszczyka, modelowanie brwi i inne sposoby sztucznego kształtowania rysów twarzy”.

3. Photoshop 9.1 korzystający z SI w swojej funkcji „wyboru tematu” w celu automatycznego dobrania obiektów z tła.

4. Aparaty fotograficzne w telefonach komórkowych analizujące trójwymiarowy układ sceny oraz rozmywające tło w portretach i autoportretach.

5. Aparat w telefonie komórkowym marki Huawei Mate 10 (premiera 10/2017) wykorzystujący SI do analizy fotografowanego obiektu. Następnie przyporządkowujący go do jednego z kilku typów scen i dobierający odpowiednie parametry ujęcia danej sceny – jeszcze zanim samemu postanowimy zrobić zdjęcie.

Inne zastosowania SI w fotografii są jeszcze w fazie testowania w chwili pisania tej książki lub dopiero klarują się na płaszczyźnie teoretycznej i nie zostały jeszcze zaimplementowane w odpowiednich produktach. Inżynierowie z firmy EyeEm na przykład opisali eksperyment, w którym opracowany przez nich system nauczył się stylów typowych dla różnych kuratorów wystaw fotograficznych na podstawie zaledwie dwudziestu przykładowych zdjęć z ich dorobku, a następnie wybrał podobne obrazy z obszernej kolekcji EyeEm, aby kuratorzy mogli dokonać dalszej selekcji. Firma Google z kolei zaprojektowała system naśladujący umiejętności profesjonalnego fotografa przy doborze odpowiednich zdjęć do edycji, kadrowania i zastosowania filtrów. Postępy w komercyjnym wdrażaniu nowych sposobów rozumienia kolejnych aspektów fotografii przez SI śledzić można odwiedzając od czasu do czasu stronę internetową firmy Clarifai, jednego z liderów w tej dziedzinie.

Poza fotografią kulturowe zastosowania sztucznej inteligencji obejmują również rekomendowanie utworów muzycznych w Spotify, iTunes oraz w innych serwisach muzycznych; aplikacje automatycznie edytujące surowe nagrania od użytkowników w celu tworzenia krótkich filmików utrzymanych w różnego rodzaju stylistyce, a także tworzenie nowych akcesoriów i stylów w dziedzinie mody. Ponieważ zakres zastosowań sztucznej inteligencji w dziedzinie kultury nieustannie się poszerza, zmienia się również koncepcja sztucznej inteligencji i istotnym wyzwaniem dla nas staje się wypracowanie określonej systematyki dla wyczerpującego jej opisania. Opierając się na dwóch kategoriach wykorzystanych przeze mnie do uporządkowania przykładów zastosowania SI w dziedzinie fotografii, przedstawiam poniżej jedną z możliwych systematyk rozmaitych odmian kulturowej SI, które dzisiaj daje się zaobserwować:

1. Dobór treści z obszernych kolekcji: wyszukiwanie, odkrywanie, przechowywanie, opracowywanie, rekomendowanie i filtrowanie.

2. Kierowanie treści do określonego odbiorcy (na przykład personalizacja, targetowanie behawioralne i segmentowanie rynku).

3. Wspomaganie w tworzeniu / edytowaniu nowych treści. (Jeśli pomyśleć o SI jako inteligentnej w sensie biologicznym, możemy to nazwać „uczestnictwem” w tworzeniu treści.)

4. W pełni autonomiczne tworzenie (na przykład SI komponująca utwory muzyczne w określonym stylu, pisanie artykułów biznesowych i redagowanie wiadomości sportowych, tworzenie wizualizacji na podstawie danych z określonego zestawu, projektowanie stron internetowych, generowanie odpowiedzi mailowych etc.)

SI A ESTETYCZNA RÓŻNORODNOŚĆ

Jednym z ważniejszych trendów uwidaczniających się w powyższych przykładach jest posuwanie się w kierunku stopniowej (częściowej lub pełnej) automatyzacji decyzji estetycznych – silniki rekomendacji sugerują, co powinniśmy oglądać, słuchać, czytać, pisać lub nosić; urządzenia i usługi automatycznie dostosowujące estetykę przechwyconych mediów do określonych kryteriów; oprogramowanie oceniające estetyczną wartość naszych zdjęć etc. Postęp ten rodzi jednak poważne pytania dotyczące przyszłości kultury. Czy taka automatyzacja nie doprowadzi z czasem do estetycznego zubożenia? Czy jest ono nieuniknione, czy też istnieją inne jeszcze siły, które mogłyby przeciwstawić się temu trendowi, zwiększając estetyczną różnorodność?

Dla zilustrowania, co miałoby to oznaczać dla kultury wizualnej, pytanie to można przeformułować do następującej postaci: czy zautomatyzowane poprawki i edycje, które w aparatach fotograficznych zamontowanych w naszych telefonach komórkowych oraz w serwisach służących do udostępniania zdjęć, stosuje się do zdjęć użytkowników, ujmują im różnorodności estetycznej? Czy dalsze integrowanie SI z urządzeniami fotograficznymi użytkowników oraz platformami do udostępniania obrazów doprowadzi do standaryzacji „wyobraźni fotograficznej”? Czy wyszukiwarki internetowe, silniki rekomendujące czy funkcje typu „odkrywanie” oferowane w serwisie Instagram wykazują tendencję do pokazywania wielu osobom tych samych obrazów (lub wielu odmian obrazów o określonej zawartości, a być może jedynie obrazów o określonej „profesjonalnej” estetyce), co zmniejsza różnorodność tego, co w ogóle można zobaczyć?

Ale sztuczna inteligencja, algorytmy i interfejsy użytkownika usług cyfrowych, aplikacji i produktów mogą również przyczyniać się do zwiększenia estetycznej różnorodności. Na przykład aparaty cyfrowe i aplikacje fotograficzne z wieloma funkcjami dostosowywania do potrzeb indywidualnych. W moim aparacie Fuji E-3 mogę wybrać czas otwarcia migawki, przysłonę, ISO, pożądany poziom światła i cienia, gęstość kolorów, wyostrzenie, ziarno, rozpiętość tonalną, redukcję szumów i filtry filmowej symulacji. Bezpłatne aplikacje do edycji zdjęć, takie jak Snapseed, używane przez wiele osób do obróbki zdjęć udostępnianych następnie na Instagramie, oferują również wiele narzędzi do edycji porównywalnych z profesjonalnym oprogramowaniem komputerowym, takim jak Photoshop czy Lightroom. Z czasem aparaty telefoniczne i aplikacje do edycji zdjęć dodają coraz to nowsze elementy sterujące, a wiele z nich jest obecnie bezpłatnych. Dlatego, chociaż stopniowa integracja SI z aparatami telefonicznymi i platformami udostępniania treści przyczynić się może do zmniejszenia różnorodności estetycznej, jednoczesne dodawanie coraz większej liczby elementów sterujących do aparatów oraz aplikacji fotograficznych może przynieść skutek odwrotny.

Rozpatrzmy teraz silniki rekomendacyjne. Można je zaprogramować w taki sposób, aby polecały te przedmioty, które już i tak są najpopularniejsze wśród innych użytkowników, zmniejszając w ten sposób szanse na zapoznanie się z bardziej zróżnicowanym ich wachlarzem. Można je jednak zaprogramować również tak, aby pokazywały użytkownikom bardziej różnorodne elementy, w tym takie, których samodzielnie prawdopodobnie nigdy by nie znaleźli. Osoba może codziennie używać wielu silników rekomendujących dla różnych mediów i wszystkie one mogą być zaprogramowane inaczej, nierozsądne byłoby wobec tego zakładać, że wszystkie te silniki razem pchają użytkowników w jednym ściśle określonym kierunku. A ponieważ każdy silnik z danej branży wykorzystuje wiele różnych danych wejściowych do opracowania rekomendacji, polecane użytkownikowi przedmioty mogą prezentować mu zarówno to, co już i tak jest popularne, jak i to, czego sam by nie znalazł. W jednym z badań ilościowych z roku 2010 naukowcy postanowili „prześledzić wpływ systemu rekomendacji YouTube’a na różnorodność wyświetleń celem dowiedzenia się, czy system rekomendacji pomaga użytkownikom odkryć interesujące, ale niekoniecznie popularne filmy, czy też raczej poleca najprawdopodobniej wyłącznie te i tak już cieszące się popularnością”. Wynikało z niego, że „obecny system rekomendacji pomaga zwiększyć sumarycznie różnorodność wyświetleń rozmaitych nagrań” – ale wynik ten może okazać się różny w zależności od okresu czasu branego pod uwagę, gdyż YouTube nieustannie zmienia swoje algorytmy.

Oczywiście oprócz technologii obliczeniowych jeszcze parę innych trendów wpływa na estetyczną różnorodność współczesnej kultury. Rozwój internetu i sieci społecznościowych, gwałtownie rosnąca częstotliwość podróży międzynarodowych, globalizacja konsumpcyjnych gospodarek i reklamy, bezkosztowej telekomunikacji, wzrost liczby zagranicznych studentów, rozwój pracy zdalnej, a także wzrost potęgi Japonii, a za nią Korei, a następnie Chin jako eksporterów produktów kulturalnych i obrazów, to tylko niektóre przykłady osiągnięć spośród wielu innych, które odgrywają tutaj pewną rolę. Z jednej strony, zjawiska te przekształcają świat w jedną globalną wioskę, lub – ujmując inaczej – w jeden rynek kultury, na którym pewne obrazy, pomysły, wartości, narracje, produkty i style sprzedawane są wszystkim i dostępne są wszędzie, a to może ograniczyć tę różnorodność. Z drugiej strony, te same trendy mogą również zwiększać zakres różnorodności, ponieważ lokalne kulturowe DNA stają się dostępne na całym świecie.

Biorąc pod uwagę fakt, że wiele zmian wpływa na globalną różnorodność estetyczną, rola kulturowej sztucznej inteligencji najprawdopodobniej jeszcze nie jest najważniejsza – ale w przyszłości z pewnością wzrośnie z co najmniej dwóch powodów. Po pierwsze, miliardy ludzi, którzy nadal nie mają dostępu do internetu i smartfonów, w końcu go uzyskają i zaczną korzystać z tych samych silników rekomendujących opartych na sztucznej inteligencji, z metod automatycznej edycji estetycznej przechwyconych multimediów, z aplikacji upiększających selfie i tak dalej. Po drugie, automatyzacja decyzji estetycznych, jakiej do tej pory byliśmy świadkami, jest wciąż na wczesnym etapie i wiele jeszcze przed nami. Ludzie przecież nie przestali sami robić zdjęć, aparaty dokonują jedynie pewnych korekt estetycznych w momencie naciśnięcia spustu migawki, a następnie pozwalają na użycie odpowiedniego oprogramowania do edycji, umożliwiającego dokonanie dalszych poprawek. Łatwo jednak wyobrazić sobie taki scenariusz na przyszłość, w którym aparaty fotograficzne same będą wybierać, co i kiedy należy sfotografować, aby zapewnić nam jak najbardziej zadowalające zdjęcia, które pasować będą do określonych koncepcji i ideałów estetycznych. Faktycznie, kamera wideo Google Clips, której premiera miała miejsce w styczniu 2018 roku, już wyposażona jest w taką funkcję. W pełni oparta jest na sztucznej inteligencji. Wykorzystuje komputerowe widzenie do rozpoznawania postaci ludzi i zwierząt oraz ekspresji niektórych emocji, a także została przeszkolona przez profesjonalnych fotografów do nagrywania „dobrych” filmów z odpowiednią kompozycją, ciekawą akcją etc.

POMIAR RÓŻNORODNOŚCI

Skąd możemy wiedzieć, czy różnorodność estetyczna we współczesnej kulturze – a nawet tylko w jednym jej obszarze, takim jak fotografia – rośnie czy maleje? Może moglibyśmy użyć samej sztucznej inteligencji, aby precyzyjniej odpowiedzieć na takie pytania, zamiast zgadywać lub kierować się intuicjami, które często okazują się błędne?

Od połowy pierwszej dekady dwudziestego pierwszego wieku setki tysięcy informatyków i badaczy społecznych prowadzi analizy ilościowe obszernych próbek współczesnej kultury cyfrowej, w tym miliardów postów i interakcji użytkowników na Facebooku, Twitterze, Instagramie, w serwisach Flickr, Pinterest i na innych portalach społecznościowych, a także w serwisach polecających takich jak Yelp i na platformach kreatywności takich jak Behance etc. (Poniżej opiszę odpowiednie przykłady takich badań.) Opracowali oni wiele ilościowych mierników, które opisują – albo próbują opisywać – niektóre aspekty kultury, takie jak rozkłady udostępnień w sieciach społecznościowych czy wyjątkowość i oryginalność obrazów tworzonych przez użytkowników. W ramach tego paradygmatu możemy również zaproponować podobne miaryróżnorodności estetycznej i zastosować je w niektórych obszarach kulturowych i w odniesieniu do różnego typu mediów. Ponieważ mamy dostęp do treści użytkowników udostępnianych online w przeszłości (na przykład treści udostępnianych w serwisie Flickr od 2004 roku i na Instagramie od 2010 roku), możemy również obliczyć, jak z upływem czasu zmienia się różnorodność w niektórych obszarach kulturowych.

Wymagałoby to jednak opracowania formalnych mierników różnorodności estetycznej dla różnego typu mediów i dziedzin kultury, od mody i wystroju wnętrz po kino i muzykę. Byłoby to bardzo przydatne samo w sobie, ponieważ pozwoliłoby nam spojrzeć na współczesną kulturę w nowy sposób. Chociaż takie formalne definicje w wielu przypadkach nigdy nie ujmą pełni naszych doświadczeń estetycznych, nadal mogą nam pomóc, dostarczając nowych pojęć nieodzownych do uchwycenia globalnej kultury cyfrowej.

Trzeba zauważyć, że należałoby wprowadzić rozróżnienie na różne rodzaje różnorodności. Jednym z nich jest różnorodność treściowa, czyli odnosząca się do przedmiotów tworzonych w danym obszarze kultury. Na przykład w przypadku fotografii różnorodność ta obejmowałaby rodzaje tematów, technik i stylów fotograficznych. Kolejnym z nich byłoby zróżnicowanie wyborów dokonywanych przez użytkowników, co przeanalizowano w przywołanym wcześniej badaniu dotyczącym YouTube’a. Przykładowo, współcześni projektanci mody na całym świecie wytwarzają produkty o nader różnorodnych stylach, kształtach, formach, objętościach, wykonanych z odmiennych materiałów, o różnych fakturach i kolorach, a mimo to sama różnorodność kupowanych i noszonych przez ludzi na całym świecie ubrań może okazać się w istocie znacznie skromniejsza. Może też być znacznie większa, ponieważ dziś wiele osób miesza różne elementy w ubiorze, tworząc z nich złożone zestawy, których nie oferują projektanci i sprzedawcy detaliczni. Podobnie da się również zdefiniować inne rodzaje różnorodności.

Pomysł mierzenia różnorodności estetycznej w globalnej kulturze współczesnej pozwala nam dokonać innych interesujących rozróżnień. Jednym z nich będzie podział na różnorodność globalną i lokalną. Jeśli ująć dostatecznie dużą liczbę pozycji na całym świecie, lokalna kultura w wielu miejscach może okazać się nad wyraz jednorodna w porównaniu z pełnym zakresem możliwości występujących na całym świecie. Ale jeśli bliżej się im przyjrzeć, coś, co wyglądało na pagórek w takich miejscach, okazać się może olbrzymią górą, jeśli można tak to ująć, innymi słowy, miejsca te odsłonią swe całkiem spore zróżnicowanie, jeśli rozważyć je same w sobie.

Z powyższym wiąże się jeszcze kolejne rozróżnienie: na miarę obiektywną i subiektywną. (Możemy to również ująć pod postacią rozróżnienia na perspektywę analityka i perspektywę użytkownika.) Do tej pory zakładaliśmy, że nasze pomiary dokonują się z jakiegoś abstrakcyjnego, uniwersalnego punktu widzenia. Wszystkie elementy czy wybory dokonywane przez użytkownika umieszczało się na jednej skali, ujmowało i mierzyło z zewnątrz. Taka perspektywa jest standardem w biologii przy pomiarach bioróżnorodności Ziemi, na przykład przy zliczaniu różnych gatunków w danym siedlisku albo na całym globie. Do kultury można jednak podejść w alternatywny sposób, uwzględniając to, jak różnorodność i różnice między jednostkami w danym siedlisku postrzegane są przez samych zajmujących je użytkowników. W takiej perspektywie lokalne tradycje i konwencje decydować będą o tym, czy dane przedmioty albo wybory postrzega się jako skrajne, czy też nie – a nie tylko o ich cechach obiektywnych. Odwołując się znów do przykładu mody, w wielu miastach zachodnich ludzie noszą często wielobarwne ubrania, co nie uchodzi za nic wyjątkowego. Ale w mieście takim jak Seul, gdzie w ubiorze dominuje paleta szarości, bieli i czerni, strój w bardzo jaskrawych kolorach, a zwłaszcza w więcej niż jednym tego typu kolorze, nie ujdzie niczyjej uwagi i będzie uznawany za niezgodny z przyjętą tam normą.

GRANICE AUTOMATYZACJI

Czy sztuczna inteligencja zastąpi profesjonalnych twórców kultury – projektantów mediów, przemysłu i mody, fotografów i filmowców, architektów, urbanistów etc.? Czy kraje i miasta na całym świecie będą konkurować o to, któremu z nich szybciej i lepiej uda się zautomatyzować branże twórcze? Czy kraje i miasta (lub osobne firmy), które wymyślą, jak najlepiej zespolić SI z umiejętnościami i talentami ludzkimi, wyprzedzą pozostałe?

Już dzisiaj SI daje nam możliwość zautomatyzowania (dzięki silnikom rekomendacyjnym) naszych wyborów estetycznych, pomaga w niektórych obszarach produkcji estetycznej, takich jak fotografia konsumencka, i automatyzuje inne jeszcze doświadczenia kulturowe (na przykład automatycznie dobiera reklamy, które wyświetlają się nam w internecie). Ale w przyszłości będzie odgrywać jeszcze większą rolę w dziedzinie profesjonalnej produkcji kulturalnej. Jej wykorzystanie w projektowaniu mody, znaków firmowych, muzyki, reklam telewizyjnych i prac w innych obszarach kultury upowszechnia się już teraz. Nadal jednak to ludzie w roli ekspertów podejmują zwykle ostateczne decyzje i na podstawie pomysłów i z użyciem środków wyrazu generowanych przez SI zajmują się faktycznym ich wykonaniem.

Przykładem tutaj może być powszechnie znany amerykański serial telewizyjny z gatunku fantasy, Gra o tron, którego premiera odbyła się w 2011 roku. Komputer podsuwał wprawdzie w jego przypadku pewne pomysły fabularne, ale dzieło napisania scenariusza i realizacji tego serialu przypadło faktycznie w udziale ludziom. O kulturze w pełni opartej na sztucznej inteligencji można mówić tylko w takim wypadku, w którym SI będzie w stanie stworzyć gotowy projekt i służące jego realizacji narzędzia (media) od początku do samego końca. W przyszłości ludzie nie będą już decydować, które produkty zostaną pokazane odbiorcom; będą mogli liczyć tylko na to, że systemy SI wszystko będą wiedzieć najlepiej – tak samo, jak dziś to SI jest już najbardziej godnym zaufania podmiotem w zakresie podejmowania decyzji o tym, kiedy i gdzie wyświetlać należy określone reklamy, a także, kto powinien je obejrzeć.

Daleko nam jeszcze jednak do pełnej automatyzacji. Wprawdzie już w 2016 roku IBM Watson wypuściło pierwszy „stworzony przez SI zwiastun filmu” na potrzeby promocji fabuły zatytułowanej Morgan, sztuczna inteligencja wybrała jednak w tym przypadku tylko różne ujęcia z ukończonego wcześniej filmu, które „jej zdaniem” były najbardziej odpowiednie, by trafić do zwiastuna: ostatecznej selekcji i montażu dokonał wciąż jednak człowiek. Kolejnym przykładem jest stworzenie systemu automatycznie podsuwającego najwłaściwsze odpowiedzi na maile otrzymywane przez użytkowników: pracownicy Google’a na jego potrzeby utworzyli najpierw zbiór wszystkich takich odpowiedzi ręcznie. SI decydowała jedynie o tym, które spośród nich zasugerować w danym przypadku, sama ich nie wysyłając. (Szef nowojorskiego działu sztucznej inteligencji koncernu Google’a wyjaśniał, że nawet jeden fatalny błąd w działaniu tego typu systemu mógłby ściągnąć na firmę złą prasę, dlatego nie może ryzykować, że sztuczna inteligencja samodzielnie będzie w odpowiedzi dobierać określone zdania czy sformułowania.)

Nasuwa się stąd logiczny wniosek, że każdy obszar produkcji kulturalnej, w którym obowiązują wyraźne zasady lub występują systematyczne wzorce, może w zasadzie podlegać automatyzacji. Toteż wiele komercyjnych produktów kultury, takich jak filmy telewizyjne, romantyczne powieści, profesjonalna fotografia, teledyski, wiadomości, strony internetowe i projekty graficzne oraz architektura mieszkaniowa, nadaje się do zautomatyzowania. Przykładowo, komputery nauczyć można pisania scenariuszy telewizyjnych, fotografowania dań czy redagowania wiadomości z wielu dziedzin (jak dotąd systemów sztucznej inteligencji używa się tylko do automatycznego redagowania doniesień sportowych i biznesowych). Zamiast pytać, czy którekolwiek z takich obszarów któregoś dnia zostaną zautomatyzowane, czy też nie, powinniśmy założyć, że tak się stanie i zapytać tylko, kiedy?

Brzmi to logicznie, ale rzeczywistość nie jest taka prosta. Począwszy od lat sześćdziesiątych dwudziestego wieku, artyści, kompozytorzy i architekci używali algorytmów do generowania obrazów, animacji, muzyki i projektów 3D. Niektóre z tych dzieł weszły do  kanonów kultury. Wykazują się one wspaniałą inwencją estetyczną i wyrafinowaniem. Jednak w większości przypadków są to kompozycje abstrakcyjne o ciekawych i złożonych wzorach, ale pozbawione bezpośrednich odniesień do świata człowieka. Weźmy za przykład takie klasyczne dzieła jak abstrakcje geometryczne autorstwa Manfreda Mohra (1969-1973), animacja komputerowa Johna Whitneya pod tytułem Arabesque (1975) czy utwory muzyczne Iannisa Xenakisa Atrées i Morsima-Amorsima (1962). W tych generowanych algorytmicznie pracach brak figuracji, nie ma w nich postaci z powieści ani ujęć realnego świata zmontowanych w formie narracji rodem z filmów fabularnych.

Porównajmy teraz te abstrakcyjne, algorytmiczne, klasyczne prace z podejmowanymi obecnie próbami zautomatyzowanego syntetyzowania kompozycji odnoszących się do ludzi, nawiązujących do ich światów, zainteresowań, emocji i znaczeń. Przykładowo, serwisy Google’a czy Facebook oferują swoim użytkownikom możliwość automatycznego tworzenia z ich zdjęć pokazów slajdów oraz montowania filmów. Wynik jest czasem zabawny, a czasem pożyteczny, ale nadal nie sposób ich porównać z mediami tworzonymi profesjonalnie. To samo dotyczy obrazów generowanych przez inżynierów Google’a korzystających z sieci neuronowej DeepDream, a później przez innych, korzystających z tej samej technologii. Te twory sztucznej inteligencji są moim zdaniem bardziej udane niż automatycznie generowane pokazy slajdów na podstawie zdjęć dostarczonych przez użytkowników, ale to nie dlatego, że DeepDream jest lepszą SI. Powodem jest to, że dwudziestowieczne style sztuki wizualnej tolerują większą dozę przypadkowości i mniejszą precyzję niż na przykład fotograficzna narracja o podróży, która ma wyraźne konwencje i ograniczenia dotyczące tego, co i kiedy może zostać w niej zawarte. W przypadku DeepDream sztuczna inteligencja może tworzyć artystycznie wiarygodne obrazy, które odnoszą się do ludzkiego świata, ponieważ uważamy je za „sztukę współczesną” i spodziewamy się po niej znacznej różnorodności. Ale w przypadku automatycznie montowanych pokazów slajdów od początku już wiemy, że komputer tak naprawdę nie rozumie, co dobiera i montuje jednocześnie.

KONWENCJE SI A KONWENCJE GATUNKOWE

Tworzenie zadowalających estetycznie i semantycznie wiarygodnych artefaktów medialnych o ludziach i ich świecie może stać się możliwe dopiero po osiągnięciu wystarczającego postępu w dziedzinie „ogólnej sztucznej inteligencji” (OSI, zwanej również „silną sztuczną inteligencją”, SSI). Innymi słowy, komputer musiałby zostać wyposażony w przybliżeniu w taką samą wiedzę o świecie, jaką dysponuje dorosły człowiek.

Nie jest to jednak tylko kwestia postępu w badaniach nad SI. To, czy wytwór algorytmu wyglądać będzie wiarygodnie, czy też nie, zależy również od konwencji gatunkowych. W niektórych przypadkach nawet bardzo prosta sztuczna inteligencja może dawać zadowalające wyniki.

W latach 2002-2005 współpracowałem z Andreasem Kratkim przy Soft Cinema, półautomatycznym systemie do tworzenia proceduralnych filmów narracyjnych3. Za pomocą opracowanego przez nas oprogramowania wyprodukowaliśmy trzy takie filmy. W każdym przypadku wykorzystano bazę danych zawierającą kilkaset nagranych krótkich ujęć wideo. Wyboru ujęć do filmów i ich montażu w czasie dokonało oprogramowanie na podstawie dobranych przez nas parametrów.

Projekt ten pokazywano jako instalację na czterdziestu pięciu wystawach. Podczas każdej takiej wystawy, trwającej niekiedy nawet kilka miesięcy, nasze oprogramowanie nieustannie montowało film w czasie rzeczywistym, wybierając krótkie klipy wideo z dostarczonej bazy danych. Pełna narracja każdego filmu trwała od siedmiu do trzynastu minut, w zależności od filmu. Po odtworzeniu jednej wersji komputer natychmiast zaczynał montować i wyświetlać kolejną.

Rezygnując z prób symulowania konwencji z głównego nurtu kina lub filmu dokumentalnego, inspirację zaczerpnęliśmy z eksperymentalnych filmów dwudziestego wieku. W szczególności kierowaliśmy się zasadą, że narracja i wizualność nie zawsze muszą iść ze sobą w parze.

Gdy głos zza kadru snuł opowieść, program komputerowy wybierał krótkie klipy wideo z bazy danych i jednocześnie je montował, korzystając z określonych przez nas metadanych oraz reguł. Program generował także układy ekranów, które wykorzystywały siatkę w stylu Mondriana, aby wyświetlać gdzie popadnie od jednego do sześciu filmów w tej samej klatce. Sekwencje klipów nie ilustrowały narracji w sposób bezpośredni. Ponieważ jednak wszystkie klipy w każdej z baz danych filmów zawierały te same odniesienia semantyczne i wizualne, ogólny wynik tego półautomatycznego procesu nosił znamiona sensowności. Umysł widza tworzył powiązania między treścią narracyjną a oprawą wizualną klipów odtwarzanych na ekranie. W ten sposób „luźniejsze” i w większym stopniu oparte na skojarzeniach konwencje kina „awangardowego” czy „eksperymentalnego” okazały się znacznie łatwiejsze do zasymulowania niż konwencje typowego filmu fabularnego.

Ten ostatni wymaga znacznie ściślejszej koordynacji wszystkich ujęć. Widz natychmiast zauważyłby najdrobniejsze błędy popełnione przez SI, podczas gdy w naszym Soft Cinema błędy z zasady wystąpić nie mogły, ponieważ dobór i rozmieszczenie klipów na ekranie nie ilustrowały bezpośrednio żadnej fabuły.

Najprawdopodobniej jednak stopniowo nauczymy się wykorzystywać sztuczną inteligencję do tworzenia dzieł z gatunków silniej osadzonych w kulturze, z mnóstwem ich zasad i ograniczeń. Syntetyzowane w 3D ludzkie postacie oraz wirtualni rozmówcy stają się przecież coraz bardziej realistyczni. To nader trudny obszar, ponieważ nie ulega wątpliwości, że komunikacja werbalna człowieka jest „gatunkiem” wyjątkowo ściśle określonym – jeśli mówiący wykona jakikolwiek gest bądź na jego twarzy pojawi się grymas nieprzystający do jego wypowiedzi, natychmiast to zauważymy.

Zastosowanie algorytmów SI w urbanistyce, architekturze i wzornictwie (często nazywane „projektowaniem parametrycznym”) to kolejne z wysoce rozwiniętych dziedzin. Być może któregoś dnia powierzyć będziemy mogli komputerom zadanie zaprojektowania w najdrobniejszych szczegółach całego miasta, od zaplanowania przestrzennego po budowle, architekturę krajobrazu, zarządzanie ruchem i całą infrastrukturę. Ale kiedy do tego już dojdzie, czy będziemy w stanie powstrzymać taką w pełni sztucznie inteligentną metropolię przed narzucaniem nam, nadzorowaniem i racjonalizowaniem naszego istnienia w imię postępu i szczęścia całej ludzkości, niczym w wizjach miast snutych od siedemnastego do dziewiętnastego wieku, w europejskich utopiach idealnej społeczności, radykalnych propozycjach urbanistycznej racjonalizacji Le Corbusiera z lat dwudziestych dwudziestego wieku czy w cybernetycznych i mechanicystycznych wizjach rodem z filmu Alphaville Godarda albo Playtime Tatiego?

Jeśli cała twórczość i cała nasza wiedza staną się domeną sztucznej inteligencji, co pozostanie ludziom? Jaki będzie cel naszego dalszego istnienia? Oglądanie niekończących się filmów stworzonych przez SI, słuchanie muzyki generowanej przez SI i jeżdżenie samochodami bez kierowcy w miastach zakładanych i budowanych przez SI?

Wielu współczesnych myślicieli i artystów wyobraża sobie przyszłość, w której ludzie, uwolnieni przez maszyny od mechanicznej i nudnej pracy, oddawać się będą wyłącznie zabawie i tworzeniu sztuki (na przykład Nowy Babilon Constanta). Ale jeśli automatyzacja produkcji kulturalnej przez SI będzie postępować, ostatecznie to właśnie SI będzie się bawić i tworzyć sztukę – nie my.

TEORIA KULTURY W WYDANIU SI

Automatyzacja produkcji kulturalnej wykorzystywać może sztuczną inteligencję opartą na systemie wyraźnych zasad albo stosować inne podejście zwane „nadzorowanym uczeniem maszynowym”. Postępy w „głębokim uczeniu” (szczególnie w zakresie metod nadzorowanego uczenia maszynowego) po 2010 roku sprawiły, że drugie z tych podejść cieszy się dziś większą popularnością. W jednym z powszechnych kulturowych zastosowań nadzorowanego uczenia komputer karmi się najpierw wieloma przykładami dzieł reprezentujących poszczególne gatunki, style i środki wyrazu, przez co stopniowo poznaje on wzorce typowe dla danego gatunku lub stylu. Następnie komputerowi przedstawia się nowe dzieła, których wcześniej nie znał, a ten wykorzystuje przyswojone wcześniej wzorce do zaklasyfikowania owych dzieł. Na przykład przy tworzeniu zwiastuna filmu Morgan komputer korzystał z zaprezentowanych mu wcześniej stu horrorów. W filmach tych „każdą scenę otagowano emocją zaczerpniętą z obszernego zasobu dwudziestu czterech różnych emocji i etykiet spośród przeszło dwudziestu dwóch tysięcy kategorii scen, takich jak «upiorne», «przerażające» czy «urocze»”. Komputer nauczył się „typów scen pasujących kategorialnie do struktury zwiastuna filmu grozy / horroru”. Po zaprezentowaniu mu Morgana dobrał on sceny, które uważał za najlepiej nadające się do zwiastuna.

Można uznać, że zastosowana w ten sposób sztuczna inteligencja działa w charakterze czy w roli teoretyka czy historyka kina (lub sztuki, gier wideo, mody etc.). Tego typu badacze przecież również zgłębiają wcześniej całą mnogość dzieł stworzonych w określonym miejscu i okresie historycznym po to, by znaleźć jakieś wspólne wzorce. Ich odkrycia i ustalenia stają się następnie częścią historii i teorii tego obszaru.

Zachodzi jednak zasadnicza różnica między „teorią kultury opartą na sztucznej inteligencji” a człowiekiem w roli teoretyka / historyka kultury. Ten ostatni wynajduje jasno określone zasady opisujące funkcjonowanie danego obszaru kulturowego. Przykładowo, typowy podręcznik używany na uniwersytetach podczas licznych kursów filmowych, The Classical Hollywood Cinema, zawiera odpowiedzi na pytania w stylu „W jaki sposób typowy film hollywoodzki wykorzystuje techniki i formy opowiadania historii w medium filmowym?”. W przypadku sztucznej inteligencji jednak często w rezultacie jej wyuczenia (z użyciem głębokich sieci neuronowych) na wielu przykładach wytworów kulturowych otrzymujemy czarną skrzynkę. W zetknięciu z nowymi prezentowanymi jej przykładami jest ona w stanie poprawnie je sklasyfikować: potrafi przykładowo odpowiedzieć na pytanie, czy dany film należy do „klasycznego kina hollywoodzkiego” czy też nie. Ale często nie wiadomo, w jaki sposób sieć neuronowa dochodzi do takiego wniosku.  W podobny sposób wyszkolić można sieć neuronową, aby potrafiła rozróżniać dzieła rozmaitych artystów, projektantów mody czy reżyserów filmowych. Może ona generować także nowe obiekty w tym samym stylu. Częstokroć jednak nie wiemy, czego tak naprawdę nauczył się nasz komputer. (Dlatego wielu informatyków pracuje obecnie nad opracowaniem takich metod budowy czarnych skrzynek przez sieci neuronowe, które byłyby bardziej przejrzyste i umożliwiały ich „kontrolowanie”.)

To jedna z kluczowych kwestii związanych z kulturowymi sposobami wykorzystywania SI. Czy wyniki uczenia maszynowego są interpretowalne, czy stanowią jedynie czarną skrzynkę, sprawną przy produkcji, ale bezużyteczną dla zrozumienia danej dziedziny przez człowieka? Czy coraz powszechniejsze korzystanie z metod uczenia maszynowego do tworzenia nowych obiektów kultury ujawni wyraźne wzorce w jej wielu dziedzinach, których być może nie jesteśmy świadomi? A jeśli tak, to czy dokona się to w formie zrozumiałej dla osób bez dyplomu z informatyki? Czy firmy wdrażające uczenie maszynowe do produkcji filmów, reklam, projektów, obrazów, muzyki, projektów urbanistycznych etc. ujawniać będą to, czego nauczyły się ich systemy?

  • 1.  Promise of AI Not So Bright, „The Washington Times” z 13 kwietnia 2006. 
  • 2. Hillary K. Grigonis Searching for a photo? Updated EyeEm app’s AI uses keywords to find it, „Digital Trends” z 26 sierpnia 2016.
  • 3.  Lev Manovich, Andreas Kratky Soft Cinema. Navigating the Database; Lev Manovich Soft Cinema 

Udostępnij

Teoretyk kultury cyfrowej, autor książek o teorii nowych mediów, między innymi AI Aesthetics (2018 (2013)), Instagram and Contemporary Image (2017), Software Takes Command (2013), Soft Cinema: Navigating the Database (2005) i The Language of New Media (2001). Profesor The Graduate Center w City University of New York i dyrektor Software Studies Initiative.