Wersja 5.0.0

Z Otwarty System Antyplagiatowy
Skocz do: nawigacja, szukaj
Jest to artykuł dotyczący wersji OSY w fazie testów. Jego treść może ulegać częstym zmianom
Parametry
Wersja 5.0.0 (prerelease)
Data wydania 9 luty 2018

OSA 5 - wersja systemu antyplagiatowego, któremu motywem przewodnim jest współpraca między poszczególnymi instancjami systemu na poszczególnych uczelniach. Zaletą takiego podejścia jest zwiększenie bazy porównawczej a tym samym zwiększenie jakości zwracanych wyników przez system.

Geneza zmian

System OSA osiągnął swoją stabilność w wersji 4. Ilość awarii samych lokalnych instancji na poszczególnych uczelniach spadła niemalże do zera. Jakość przetwarzania OSY zawsze była wysoka. Algorytmy zastosowane w systemie zawsze wyprzedzały rynek, który często zapożyczał rozwiązania do własnych produktów. Cieszy nas to - gdyż OSA jako projekt naukowy miał za zadanie podnieść jakość kształcenia na polskich uczelniach właśnie poprzez wdrożenie lepszej jakości sprawdzania antyplagiatowego niż było to przed powstaniem OSY. Misja powiodła się - rozwiązania komercyjnie ostatecznie przyznały rację i również wprowadziły podobne rozwiązania polepszając jakość kształcenia w całej Polsce.

Jakość sprawdzania plagiatowego wynika z dwóch elementów:

  • jakości algorytmów wyszukujących
  • odpowiednio wielkiej bazy w której można wyszukiwać plagiaty

Jakość algorytmów jest w OSIE ciągle rozwijana i należy do jednych z najlepszych (jeśli nie najlepsza) w obecnie użytkowanych systemach. Baza dokumentów z kolei wynika z ograniczeń prawnych i została ograniczona do bazy obrazu polskiego Internetu NEKST oraz do bazy własnej danej uczelni. Udostępnianie podmiotom zewnętrznym swoich zbiorów prac magisterskich po analizach prawnych jest niemożliwa, gdyż uczelnie nie są właścicielami prac i nawet umowy między Uczelnią a systemem antyplagiatowym nic nie pomogą.

Zespół OSY jednak postanowił zdziałać w tej materii tyle na ile pozwala prawo. Tak powstała OSA 5 wraz z jej nowymi funkcjonalnościami.

Szczegółowy wykaz zmian

Poniżej zamieszczono nowe funkcjonalności, które zostały zaimplementowane w OSA 5.

Moduł wymiany MAP

Nie można udostępniać podmiotom komercyjnym swoich prac magisterskich. OSA swoje działanie opiera o przetwarzanie danych z których nie da się odzyskać treści pracy. Z analiz prawniczych okazało się, że dane mogą zostać wyeksportowane poza uczelnię bez obaw o to, że dane osobowe zostały udostępnione oraz nie zostały złamane prawa autorskie studentów.

Moduł ten pozwala na znalezienie zapożyczeń między dowolnymi pracami znajdującymi się w OSAch lokalnych w całym kraju bez potrzeby udostępniania treści swoich prac przez uniwersytety. W ten sposób baza dokumentów w których OSA wyszukuje zapożyczenia zwiększa się znacznie - uniemożliwiając obronę tych samych prac magisterskich na kilku różnych uczelniach (proceder sprzedaży prac magisterskich)

Więcej przeczytasz w oddzielnym artykule: Międzyuniwersytecki Program Udostępnienia Map

Moduł wymiany statystyk wyrazów

Do poprawnego wyliczenia niektórych miar jakościowych w porównywaniu antyplagiatowym wymagane jest posiadanie odpowiednio dużego korpusu danych statystycznych występowania słów w danym języku. Jeśli OSA lokalna posiadała mało prac obronionych - zbiór ten był bardzo ubogi - a statystyki wyrazów były niskiej jakości. Objawiało się to pogorszeniem jakości wykrywania plagiatów oraz dość zgrubnym oszacowaniem poziomu plagiatu w analizowanym dokumencie. W wersji OSY 5 statystyki występowania wyrazów są współdzielone z pozostałymi instancjami. Raz na jakiś czas każda OSA komunikuje się z serwerem centralnym i udostępnia mu swoje statystyki występowania słów. Miary te są uogólnione za wszystkie prace i nie niosą ze sobą żadnej informacji "wrażliwej". Po zagregowaniu danych ze wszystkich uczelni - miary te są przetwarzane na serwerze centralnym i udostępniane OSOm lokalnym. Tym samym każda OSA posiada znacznie większy korpus danych na temat statystycznego występowania słów w danym języku, niż mogłaby go posiadać na podstawie tylko prac w swojej bazie.

Moduł współdzielenia treści pracy między Uniwersytytetami

Moduł umożliwia wysłanie zapytania przez promotora uczelni X o treść pracy pochodzącej z uczelni Y, w której OSA znalazła pewne zapożyczenia. Mechanizm (za zgodą uczelni Y) dostarczy tylko do wglądu promotorowi uczelni X treść pracy w celu weryfikacji skali plagiatu. Moduł ten jest częścią wcześniej wspomnianego programu udostępniania map (tam można przeczytać o szczegółach i założeniach tego modułu)

Moduł komunikacji z użytkownikami OS lokalnych

Moduł powiadamiania użytkowników został całkowicie przebudowany. Wcześniej był dość rzadko wykorzystywany ze względu na swoją prostotę. Rozbudowany moduł umożliwia wysłanie przez twórców OSY dowolnej informacji do użytkowników lub administratorów konkretnej OSY, ustalaniu czasu ważności komunikatów itp. Dzięki temu narzędzie te będzie wykorzystywane dużo częściej (np. podczas awarii części centralnej systemu)

Moduł zbierania danych diagnostycznych

Każda OSA lokalna raz dziennie będzie wysyłać na serwer centralne dane diagnostyczne, służące wykrywaniu anomalii w działaniu całego systemu. Dane te mają charakter statystyczny. Nie są przesyłane żadne dane wrażliwe czy też informacje o działaniu lokalnych administratorów.

Moduł analizy sylometrii

OSA rozwija wiele różnych rozwiązań dotyczących analizy pracy. Jeden z nich jest na tyle rozwinięty, że można opublikować go jako wersja beta w celu umożliwienia korzystania z niego przez użytkowników OSY. Należy jednak pamiętać, że moduł ten jest tylko jako narzędzie jeszcze niedopracowane. Należy je traktować jako narzędzie pomocnicze w analizie tekstów - jednakże nie wyrokować na ich podstawie żadnych zarzutów.

Stylometria jest narzędziem umożliwiającym stwierdzenie czy dana praca jest pisana przez tą samą osobę tj. czy całość pracy nie jest kompilacją kilku prac pisanych przez różne osoby. Sposób pisania prac, stosowane słownictwo, długości zdań, kolejności pewnych sformułowań są charakterystyczne dla każdej osoby. Można więc spróbować zbadać czy cała praca odznacza się podobnymi miarami czy też część pracy zdaje się być napisana przez kogoś innego. OSA udostępnia dwa różne moduły stylometrii:

  • Stylometria oparta o dane lingwistyczne - poprzez wyliczenie wielu miar wynikających ze stylu pisania danej pracy. Analiza polega na zbadaniu miar jakości wyrazów/zdań/akapitów pod względem lingwistycznym i próbie odnalezienia takich fragmentów, które znacząco odbiegają od "stylu" pozostałej części pracy
  • Stylometria oparta o współczynnik Alfa - poprzez analizę częstości występowania słów charakterystycznych we fragmentach pracy i porównaniu wyników z pozostałymi częściami pracy. Jeśli ktoś w danej części pracy stosuje dość ubogie słownictwo a nagle posługuje się wyrazami bardzo skomplikowanymi - jest to podejrzenie o stosowanie kompilacji treści innego autorstwa.

Indywidualne klucze dla każdej uczelni

Moduł był zapowiedziany w wersji 4 jednakże konieczność jego wdrożenia zainstniała dopiero w wersji OSY 5 gdzie należy obligatoryjnie rozróżniać poszczególne instancje między sobą. Więcej: Uzyskanie dostępu do API NEKST

Inne mniejsze

OSA posiada również wiele zmian, które wynikały z potrzeb implementacyjnych poszczególnych uczelni, bądź naprawy błędów wykrytych podczas pracy OSY 4.X.

Prace badawcze

Pracownicy OSY opracowują również inne rozwiązania nowatorskie w skali światowej - jednakże na tą chwilę nie mogą jeszcze zostać opublikowane. Prosimy uzbroić się w cierpliwość.