O roli samodzielnie przygotowanych korpusów w badaniach językoznawczych

Szczegóły
Opis

Tytuł:: O roli samodzielnie przygotowanych korpusów w badaniach językoznawczych
Self-compiled Corpora in Linguistic Research (On the Example of an Internet Corpus)
Autorzy:: Zabawa, Marcin
Tematy:: korpus
językoznawstwo korpusowe
język Internetu
język prasy
corpus
corpus linguistics
Internet language
press language
Data publikacji:: 2019
Wydawca:: Krakowskie Towarzystwo TERTIUM
Język:: polski
Prawa:: Wszystkie prawa zastrzeżone. Swoboda użytkownika ograniczona do ustawowego zakresu dozwolonego użytku
Źródło:: Półrocznik Językoznawczy Tertium; 2019, 4, 1
2543-7844
Dostawca treści:: Biblioteka Nauki
: Artykuł

Przejdź do źródła

Celem niniejszego artykułu, o charakterze teoretyczno-przeglądowym, jest omówienie problematyki związanej z budową własnego korpusu językowego. Badacz, chcący skupić się np. na analizie neologizmów, musi oprzeć swoje badania na określonych źródłach: o ile dawniej często wykorzystywano do tego celu prasę, o tyle obecnie znacznie częściej są to korpusy językowe (np. NKJP) oraz Internet. Autor artykułu stawia tezę, że zarówno NKJP, jak i Internet jako całość, nie są jednak najlepszym wyborem w wypadku chęci badania np. najnowszego słownictwa polszczyzny, a już na pewno nie są wystarczające. Jeszcze więcej problemów stwarza wybór języka mówionego jako podstawy analiz. Najlepszym wyjściem, choć jednocześnie najtrudniejszym i najbardziej czasochłonnym, jest budowa własnego korpusu językowego. W artykule wykazano, dlaczego użycie prasy czy Internetu jako całości niekoniecznie jest najlepszym rozwiązaniem, a także omówiono różnego rodzaju aspekty teoretyczne związane z budową własnego korpusu (np. wybór rodzaju tekstów, wielkość korpusu, wykorzystanie narzędzi informatycznych ułatwiających tworzenie korpusu).

The aim of the present paper, which is of a theoretical character, is to discuss the problems related to the process of the compilation of one’s own linguistic corpus. A linguist who wants to study e.g. neologisms must base his or her analysis on a certain source. Formerly, the language of the press was frequently used as such source; now, however, linguistic corpora and the Internet are utilized more frequently. The author of the paper points out that both the National Corpus of Polish (NKJP) and the Internet as a whole are not the best choices (and are definitely not sufficient) when a linguist intends to study e.g. the newest vocabulary items in Polish. The use of the spoken language as the main source is even more problematic. The best solution, albeit the most difficult and time-consuming at the same time, is the compilation of one’s own linguistic corpus. The paper discusses the inadequacy of regarding the press or the Internet as a whole as the best sources and then proceeds to discuss various theoretical aspects connected with the compilation of one’s own corpus (such as the choice of the type of texts, corpus size, the use of computer tools intended to aid in corpus compilation, etc.).

Informacja

O roli samodzielnie przygotowanych korpusów w badaniach językoznawczych