Trwają prace nad przygotowaniem platformy dotyczącej korpusów diachronicznych polszczyzny

Lingwistyka cyfrowa

Badania językoznawcze pozwalają z jednej strony przyjrzeć się naszemu językowi sprzed kilkuset lat, z drugiej – dostarczają wielu danych, na podstawie których eksperci mogą prognozować, jak polszczyzna będzie wyglądała w przyszłości. Tego typu analizy ułatwiają m.in. korpusy językowe będące komputerowymi zbiorami autentycznych tekstów reprezentujących różne odmiany, style i typy. Wraz z rozwojem technologii informatycznych lingwiści, historycy języka, socjolodzy czy literaturoznawcy zyskują nowe narzędzia pozwalające jeszcze efektywniej korzystać z owych zasobów. Nad przygotowaniem platformy cyfrowej dotyczącej korpusów diachronicznych polszczyzny pracuje zespół naukowców z Wydziału Filologicznego Uniwersytetu Śląskiego pod kierunkiem dr hab. prof. UŚ Magdaleny Pastuch.

Dr hab. prof. UŚ Magdalena Pastuch
Dr hab. prof. UŚ Magdalena Pastuch

W przestrzeni humanistyki cyfrowej spotykają się przedstawiciele różnych dyscyplin naukowych – językoznawcy, historycy, socjolodzy, bibliolodzy czy literaturoznawcy. Pojęcie to jest niezwykle szerokie (warto zauważyć, że na stronie https://whatisdigitalhumanities.com jest ponad 800 jego definicji) i trudno je jednoznacznie zdefiniować, przy czym najczęściej mówi się o trzech aspektach. Po pierwsze – obejmuje badanie szeroko rozumianej działalności człowieka w wirtualnej rzeczywistości, w tym publikowanych i udostępnianych tam tekstów, po drugie – jest synonimem digitalizacji, a zatem nadawania formy cyfrowej tekstom kultury spoza rzeczywistości wirtualnej, po trzecie wreszcie – oznaczać może wykorzystanie metod i narzędzi powstających w oparciu o technologie informatyczne, takich jak bazy danych czy specjalistyczne oprogramowanie.

– Mój zespół realizuje badania z zakresu lingwistyki cyfrowej, w związku z czym bliższe jest nam to trzecie rozumienie humanistyki cyfrowej – mówi prof. Magdalena Pastuch. Zespół, którym kieruje, powstał w 2016 roku. Tworzy go siedem kobiet, językoznawczyń z Instytutu Języka Polskiego im. Ireny Bajerowej Uniwersytetu Śląskiego. – Uznałyśmy wspólnie, że rozwój technologii informatycznych otwiera nowe możliwości także przed interesującą nas dyscypliną naukową, jaką jest lingwistyka. Narzędzia cyfrowe umożliwiają odmienne, naszym zdaniem pełniejsze, spojrzenie na dostępny materiał językowy – komentuje kierownik projektu.

Korpusy są podstawą nie tylko dla nowo powstających słowników, ale stanowią również świetne źródło badań językoznawczych, historycznych czy socjologicznych – mówi prof. Magdalena Pastuch.

- Możemy skorzystać na przykład z bazy Narodowego Korpusu Języka Polskiego, na stronie którego wystarczy wpisać interesujące nas słowo. W ten sposób otrzymamy fragmenty pochodzące z literatury polskiej, codziennej prasy czy tekstów internetowych, będące przykładami użycia wybranego słowa – dodaje.

Powstają również korpusy polszczyzny historycznej, których przygotowanie jest trudne i niezwykle czasochłonne przede wszystkim ze względu na sposób zapisu dawnych tekstów, ich ograniczoną liczbę i dostępność oraz stan zachowania. – My rzadko zdajemy sobie sprawę z tego, że nasza kompetencja w odniesieniu do tekstów dawnych jest mocno ograniczona. Oczywiście rozumiemy utwory Kochanowskiego czy Reja, ale przecież mamy kłopoty z ich interpretacją. Przyczyną takiego stanu rzeczy jest nie tylko odmienna konwencja zapisu, ale też zachodzące w języku zmiany natury morfologicznej czy semantycznej. Eksperci potrafią takie teksty czytać i prawidłowo interpretować, ale nie ma tu mowy o kompetencji czynnej, czyli tworzeniu tekstów, chyba że mówimy o stylizacjach językowych – mówi lingwistka.

Przygotowując korpusy polszczyzny historycznej, naukowcy opracowują między innymi starodruki i rękopisy. Muszą również uwzględnić wiele nieistniejących już dziś kategorii językowych – dotyczy to zarówno gramatyki, jak i semantyki. Nie mamy dziś na przykład liczby podwójnej czy pewnych typów liczebników. Zmieniło się nie tylko znaczenie wyrazów, ale też rozumienie pojęć, przykładem niech będą emancypacja czy patriotyzm. Dostęp do obszernych zbiorów danych językowych, którą umożliwiają właśnie korpusy, umożliwia rzetelne, weryfikowalne prowadzenie badań językoznawczych. Aby móc w pełni korzystać z dostępnych baz, potrzebujemy specjalistycznych narzędzi, które umożliwią językoznawcom poruszanie się w tym językowym gąszczu. Dlatego przy tego typu pracach niezbędna jest współpraca między językoznawcami a informatykami.

– Musimy znaleźć wspólny język, aby wypracować najlepsze rozwiązania i efektywnie korzystać z technologii informatycznych – podkreśla językoznawczyni.

W tym roku udostępniony został „Korpus Barokowy” zwany w skrócie KorBa. Jest to elektroniczny zbiór tekstów polskich z XVII i XVIII wieku (do 1772 roku) będący nowym, niezwykle interesującym narzędziem badawczym, z którego korzystać mogą językoznawcy, kulturoznawcy czy historycy, ułatwia bowiem przeszukiwanie i analizę dawnych polskich tekstów i pozwala szukać odpowiedzi na pytania, które zadają sobie na przykład językoznawcy.

– Obecnie wraz z moimi współpracowniczkami z projektu badamy leksemy z poziomu metatekstowego, a zatem takie, które w pewien określony sposób odnoszą się do samego tekstu. I tu nieocenione są właśnie korpusy dawnej polszczyzny. Sięgamy więc do nich, definiujemy filtry i wyszukujemy interesujące nas konstrukcje. Jeden z naszych projektów poświęcony jest tak zwanym dopowiedzeniom i intensyfikatorom. Do pierwszej grupy możemy zaliczyć takie wyrazy, jak: tak, nie, chyba, być może, oczywiście itp., które mogą wystąpić jako samodzielne wypowiedzenia odpowiadające na pytanie rozstrzygnięcia (np. Mogę wejść? Naturalnie.) Drugą stanowią leksemy intensyfikujące typu: strasznie (np. strasznie cię kocham) czy diabelnie (np. diabelnie mi się podobasz) – tłumaczy prof. Magdalena Pastuch.

Jak dodaje, wspomniane leksemy częściej występują w roli przysłówków (np. Ona odżywia się naturalnie; Po tej operacji wyglądała strasznie). Sprawdzamy ich obecność w korpusie. W wyszukiwarce nie ma opcji filtrowania według funkcji, jakie pełni leksem w danym fragmencie tekstu, dlatego to badacz musi ocenić, czy ma do czynienia z przysłówkiem, czy właśnie z dopowiedzeniem lub intensyfikatorem. Może te dane analizować również w kontekście diachronicznym, porównując teksty dawne i współczesne, a także wyliczyć procentowo występowanie przysłówków w funkcji dopowiedzenia lub intensyfikatora i na tej podstawie sformułować wnioski. Co ważne, dzięki takim badaniom naukowcy nie tylko opisują przeszłość naszego języka, lecz wskazują też tendencje jego rozwoju.

Prof. Magdalena Pastuch podkreśla, że celem projektu nie jest tworzenie nowych korpusów językowych, lecz uruchomienie platformy internetowej dotyczącej korpusów diachronicznych.

– Wraz z niemieckim polonistą prof. dr. Björnem Wiemerem z Uniwersytetu Jana Gutenberga w Moguncji doszliśmy do wniosku, że brakuje w ogólnodostępnej przestrzeni zbiorów tekstów, na których moglibyśmy prowadzić interesujące nas badania. Często jest tak, że bazy danych powstają przy okazji realizowania różnych projektów naukowych, a następnie, już po ich ukończeniu, giną gdzieś w przestrzeni cyfrowej. Pomyśleliśmy, że przydałaby nam się platforma, która stanowiłaby nie tylko źródło informacji o istniejących już korpusach, lecz również dawałaby specjalistom interesującym się określonymi zagadnieniami możliwość dyskusji – mówi lingwistka. Przygotowywane narzędzie pozwoliłoby zatem wykorzystać korpusy już istniejące lub umożliwiałoby stworzenie nowych.

Aby rozpocząć prace nad przygotowaniem platformy, naukowcy z Instytutu Języka Polskiego im. Ireny Bajerowej UŚ oraz Instytutu Slawistyki na Uniwersytecie Jana Gutenberga w Moguncji postanowili w 2017 roku zorganizować seminarium poświęcone przestrzeniom humanistyki cyfrowej. Historycy języka, lingwiści korpusowi oraz specjaliści w dziedzinie wykorzystania technologii informatycznych, debatując, podjęli próbę wypracowania zasad współpracy. Rozmawiali m.in. na temat istniejących korpusów diachronicznych, zarządzania danymi oraz wyszukiwarek dostosowanych do potrzeb naukowców badających język.

– Dzięki takim spotkaniom wiemy, jakie kolejne kroki podejmować, aby zrealizować cele projektu – mówi prof. Magdalena Pastuch.

W ramach seminarium odbyły się również warsztaty prowadzone przez przedstawicieli konsorcjum CLARIN-PL (Common Language Resources & Technology Infrastructure). Jest to infrastruktura naukowa oferująca narzędzia oraz zasoby pozwalające zarządzać ogromnymi zbiorami tekstów, z którą współpracują naukowcy z Uniwersytetu Śląskiego.

– Wiele narzędzi cyfrowych jest już dostępnych. Podam może przykład. Załóżmy, że chcę dowiedzieć się, ile rzeczowników abstrakcyjnych występuje w powieściach Elizy Orzeszkowej, co będzie elementem badań nad językiem powieściopisarki. Wprowadzam więc interesujące mnie teksty do aplikacji Korpusomat, która automatycznie wyszukuje, podświetla i liczy interesujące nas elementy. Na tej podstawie możemy kontynuować badania, nie tracąc czasu na ręczne opracowanie materiału – wyjaśnia prof. Magdalena Pastuch. – Pamiętam, że na początku moich studiów podczas zajęć uczyliśmy się przygotowywać fiszki. Od tamtego czasu wiele się zmieniło, dziś studenci mogą już korzystać z nowych, świetnych narzędzi cyfrowych. Muszą jednak wiedzieć o ich istnieniu, dlatego jednym z naszych celów jest również rozpowszechnianie wiedzy o zaletach humanistyki cyfrowej – dodaje lingwistka.

Zespół realizujący projekt pn. „Przestrzenie humanistyki cyfrowej – korpusy diachroniczne polszczyzny” tworzą językoznawczynie z Wydziału Filologicznego Uniwersytetu Śląskiego: dr hab. prof. UŚ Magdalena Pastuch (kierownik), dr Katarzyna Sujkowska-Sobisz, dr Joanna Przyklenk, dr Beata Duda, dr Karolina Lisczyk, dr Barbara Mitrenga oraz dr Kinga Wąsińska.

Szczegółowe informacje na temat prowadzonych badań, którymi kieruje dr hab. prof. UŚ Magdalena Pastuch, można znaleźć na stronie: www.korpusydiachroniczne.pl.

Autorzy: Małgorzata Kłoskowicz
Fotografie: Agnieszka Nęcka