Wersja 5.0.0

Z Otwarty System Antyplagiatowy
Skocz do: nawigacja, szukaj
Jest to artykuł dotyczący wersji OSY w fazie testów. Jego treść może ulegać częstym zmianom
Parametry
Wersja 5.0.0 (prerelease)
Data wydania 9 luty 2018

OSA 5 - wersja systemu antyplagiatowego, któremu motywem przewodnim jest współpraca między poszczególnymi instancjami systemu na poszczególnych uczelniach. Zaletą takiego podejścia jest zwiększenie bazy porównawczej a tym samym zwiększenie jakości zwracanych wyników przez system.

Geneza zmian

System osiągnął swoją stabilność w wersji 4. Ilość awarii samych lokalnych instancji na poszczególnych uczelniach spadła niemalże do zera. Jakość przetwarzania systemu zawsze była wysoka. Zastosowane w nim algorytmy okazały się bardziej skuteczne i szybsze od komercyjnych rozwiązań, niejednokrotnie wyznaczając pułap dążeń. Cieszy nas to, gdyż OSA jako projekt naukowy miał za zadanie podnieść jakość kształcenia na polskich uczelniach właśnie poprzez wdrożenie możliwie najlepszych metod weryfikacji antyplagiatowej. Misja powiodła się - rozwiązania komercyjne także podniosły jakość takiej weryfikacji przyczyniając się do polepszenia jakości kształcenia w Polsce.

Źródłami sukcesu sprawdzania antyplagiatowego niezmiennie pozostają

  • jakość algorytmów wyszukujących podobieństwa dokumentów
  • wielkość baz referencyjnych, w których tych podobieństw należy szukać.

Przyjęty w algorytmicznych rozwiązaniach systemu model podobieństwa tekstów jest systematycznie poszerzany i jest już bardzo rozległy. Jest najrozleglejszy wśród systemów antyplagiatowych stosowanych na polskich uczelniach. Jednakże bazy referencyjne, z powodu restrykcji prawnych, zostały ograniczone do obrazu polskiego Internetu NEKST oraz do bazy własnej danej uczelni, składającej się z cyfrowych oryginałów obronionych na niej prac dyplomowych. Więzy prawne nie pozwalają uczelniom na przekazywanie en bloc tych oryginałów podmiotom zewnętrznym.

Zespół OSA znalazł jednak rozwiązanie mieszczące się w granicach prawnych i umożliwiające integrację danych znajdujących się we własnych bazach partnerskich uczelni. Dane te buduje się jedynie z tych elementów oryginalnych tekstów, które są wystarczające dla skutecznej weryfikacji antyplagiatowej i tak dobrane, że nie można z nich odtworzyć żadnego oryginału. Doprowadziło to do inicjacji Międzyuniwersyteckiego Programu Udostępnienia MAP i powstania najnowszej (piątej) wersji systemu wraz z jego nowymi funkcjonalnościami.

Szczegółowy wykaz zmian

Poniżej zamieszczono nowe funkcjonalności, które zostały zaimplementowane w OSA 5.

Moduł wymiany map

Algorytmiczny trzon OSA opiera swoje działanie opiera na przetwarzanie danych, z których nie da się odzyskać treści badanych prac. Są o tzw. mapy. Z analiz prawniczych wynika, że mapy, mogą zostać wyeksportowane poza uczelnię bez obaw o to, że zostaną złamane prawa autorskie studentów (lub innych twórców).

Moduł ten pozwala na znalezienie zapożyczeń między dowolnymi pracami znajdującymi się w lokalnych zasobach uczelni. Dzięki niemu zaplecze informacyjne, w którym OSA wyszukuje zapożyczenia znacznie się zwiększy i może - nawet w skali całego kraju - objąć mapy dowolnych dokumentów, które uczelnie zdecydują się udostępnić, bez ograniczeń dotyczących np. dat ich powstania i charakteru, jak to ma miejsce w odniesieniu do ORPPD.

Więcej przeczytasz w oddzielnym artykule: Międzyuniwersytecki Program Udostępnienia Map

Moduł wymiany statystyk wyrazów

Do poprawnego wyliczenia niektórych miar jakościowych w porównywaniu antyplagiatowym wymagane jest posiadanie odpowiednio dużego korpusu danych statystycznych używania słów w danym języku. Jeśli lokalna instancja OSA posiadała mało prac obronionych - zbiór ten był bardzo ubogi - i tym samym statystyki wyrazów były niskiej jakości. . W piątej wersji OSA statystyki występowania wyrazów są współdzielone z pozostałymi instancjami. Raz na jakiś czas każda instancja komunikuje się z serwerem centralnym i udostępnia mu swoje statystyki występowania słów. Miary te są średnimi wyliczanymi na podstawie zawartości prac i nie niosą ze sobą żadnej informacji wrażliwej. Po zagregowaniu dane te są przetwarzane na serwerze centralnym i udostępniane instancjom lokalnym. Dzięki temu każda instancja może posiadać znacznie większy korpus danych na temat statystycznego używania słów w danym języku, niż mogłaby go posiadać na podstawie prac z własnej bazy.

Moduł współdzielenia treści pracy między uczelniami

Moduł umożliwia wysłanie zapytania przez promotora uczelni X o treść pracy pochodzącej z uczelni Y, w której system znalazł elementy wspólne. Mechanizm (za zgodą uczelni Y) dostarczy tylko do wglądu promotorowi uczelni X treść pracy w celu pogłębienia informacji o podobieństwie prac. Moduł ten jest częścią wcześniej wspomnianego programu udostępniania map (tam można przeczytać o szczegółach i założeniach tego modułu)

Moduł komunikacji z użytkownikami lokalnych instancji systemu

Moduł powiadamiania użytkowników został całkowicie przebudowany. Wcześniej był dość rzadko wykorzystywany ze względu na swoją prostotę. Po przebudowie umożliwia wysłanie przez twórców OSA dowolnej informacji do użytkowników lub administratorów lokalny instancji, ustalaniu czasu ważności komunikatów itp. Narzędzie te będzie wykorzystywane dużo częściej (np. w przypadku awarii centralnej części systemu).

Moduł zbierania danych diagnostycznych

Każda lokalna instancja systemu raz dziennie będzie wysyłać na serwer centralne dane diagnostyczne, służące wykrywaniu anomalii w działaniu. Dane te mają wyłącznie charakter statystyczny. Nie są przesyłane żadne dane wrażliwe lub informacje o działaniach lokalnych administratorów.

Moduł analizy sylometrycznej

W module znajdują się pomocnicze narzędzie pomocnicze analizy tekstów, które nie korzystają z żadnych baz referencyjnych i odnoszą się jedynie do badanej pracy. Na ich podstawie nie należy wyrokować o popełnieniu plagiatu, bez odwoływania się do analiz popartych informacjami z baz referencyjnych.

Stylometria jest narzędziem umożliwiającym stwierdzenie, czy dana praca jest pisana przez tą samą osobę tj. czy całość pracy nie jest kompilacją tekstów pisanych przez różne osoby. Sposób pisania prac, stosowane słownictwo, długości zdań, kolejności pewnych sformułowań są charakterystyczne dla każdej osoby. Można więc badać czy cała praca odznacza się harmonią stylistyczną. OSA udostępnia dwa różne moduły stylometrii:

  • Stylometria bazująca na danych lingwistycznych. Analiza polega na wyliczeniu i porównaniu miar występowania wyrazów, zdań, fraz, akapitów, etc. we fragmentach pracy i próbie odnalezienia tych, których miary znacząco odbiegają od miar wyliczonych dla pozostałych części.
  • Stylometria "Alfa". Analiza polega na ustaleniu częstości użycia wyrazów słownikowych (tzw. lematów) we fragmentach pracy (jest to tzw. parametr "alfa") i porównaniu wyników odnoszących się do pozostałych części. Istotne różnice miedzy tymi parametrami zazwyczaj wskazują na kompilację.

Indywidualne klucze dla każdej uczelni

Moduł był zapowiedziany w wersji 4 jednakże konieczność jego wdrożenia pojawiła się dopiero w wersji 5 wymagającej rozróżnienia poszczególnych lokalnych instancji systemu. Więcej: Uzyskanie dostępu do API NEKST

Inne mniejsze

W wersji 5 wprowadzono również wiele zmian będących odpowiedzią na zgłoszone zapotrzebowanie poszczególnych uczelni, bądź błędy wykryte w poprzednich wersjach.

Prace badawcze

Znaczna część pracy zespołu OSA ma charakter badawczy. Wyniki tych badań będą sukcesywnie publikowane.