Wersja 5.0.0: Różnice pomiędzy wersjami

Z Otwarty System Antyplagiatowy
Skocz do: nawigacja, szukaj
(Anulowanie wersji 1663 autora Acacko (dyskusja))
(Anulowanie wersji 1662 autora Acacko (dyskusja))
Linia 13: Linia 13:
 
! scope="row"| Poprzednia wersja
 
! scope="row"| Poprzednia wersja
 
| [[Wersja 4.2.1|4.2.1]]
 
| [[Wersja 4.2.1|4.2.1]]
|-
 
! scope="row"| Commit
 
| 2d81d074ff
 
 
|-
 
|-
 
|}
 
|}
  
'''OSA 5.1.0''' - wersja systemu antyplagiatowego, która posiada szereg nowych udogodnień oraz naprawę znanych błędów
+
'''OSA 5''' - wersja systemu antyplagiatowego, któremu motywem przewodnim jest współpraca między poszczególnymi instancjami systemu na poszczególnych uczelniach. Zaletą takiego podejścia jest zwiększenie bazy porównawczej a tym samym zwiększenie jakości zwracanych wyników przez system.
  
 
= Geneza zmian =
 
= Geneza zmian =
Przez ostatni rok system OSA stał się samowystarczalny. Przestał być zależny od podmiotów zewnętrznych. Po rezygnacji z usługi NEKST świadczonej przez IPI PAN (Instytut Podstaw Informatyki Polskiej Akademii Nauk), OSA postanowiła zrezygnować ze współpracy z PCSS (Poznańskie Centrum Superkomputerowe). Dziękujemy wspomnianym instytucjom za wszelką pomoc w tworzeniu OSY.  
+
System osiągnął swoją stabilność w wersji 4. Ilość awarii samych '''lokalnych''' instancji na poszczególnych uczelniach spadła niemalże do zera. Jakość przetwarzania systemu zawsze była wysoka. Zastosowane w nim algorytmy okazały się bardziej skuteczne i szybsze od komercyjnych rozwiązań, niejednokrotnie wyznaczając pułap dążeń. Cieszy nas to, gdyż OSA jako projekt naukowy miał za zadanie podnieść jakość kształcenia na polskich uczelniach właśnie poprzez wdrożenie możliwie najlepszych metod weryfikacji antyplagiatowej. Misja powiodła się - rozwiązania komercyjne także podniosły jakość takiej weryfikacji przyczyniając się do polepszenia jakości kształcenia w Polsce.
  
W 2018 OSA pozyskała własny klaster obliczeniowy zdolny przetworzyć wielkie zbiory danych (np. Internet) oraz hostować usługi sprawdzania prac dyplomowych względem Internetu jak również [[Międzyuniwersytecki Program Udostępnienia Map|miedzy uczelniami]]. Wymagało to odpowiedniej konfiguracji sprzętu, zainstalowania odpowiedniego oprogramowania i przeniesienia zasobów na własny klaster. Od tego momentu OSA nie płaci żadnemu zewnętrznemu podmiotowi za jakiekolwiek usługi. Używane oprogramowanie na klastrze bądź lokalnych instancjach OSY posiada wolne licencje.  
+
Źródłami sukcesu sprawdzania antyplagiatowego niezmiennie pozostają
 +
* jakość algorytmów wyszukujących podobieństwa dokumentów
 +
* wielkość baz referencyjnych, w których tych podobieństw należy szukać.  
  
 +
Przyjęty w algorytmicznych rozwiązaniach systemu model podobieństwa tekstów jest systematycznie poszerzany i jest już bardzo rozległy. Jest najrozleglejszy wśród systemów antyplagiatowych stosowanych na polskich uczelniach.
 +
Jednakże bazy referencyjne, z powodu restrykcji prawnych, zostały ograniczone do obrazu polskiego Internetu [[System NEKST|NEKST]] oraz do bazy własnej danej uczelni, składającej się z cyfrowych oryginałów obronionych na niej prac dyplomowych. Więzy prawne nie pozwalają uczelniom na przekazywanie en bloc tych oryginałów podmiotom zewnętrznym.   
 +
 +
Zespół OSA znalazł jednak rozwiązanie mieszczące się w granicach prawnych i umożliwiające integrację danych znajdujących się we własnych bazach partnerskich uczelni. Dane te buduje się jedynie z tych elementów oryginalnych tekstów, które są wystarczające dla skutecznej weryfikacji antyplagiatowej i tak dobrane, że nie można z nich odtworzyć żadnego oryginału.  Doprowadziło to do inicjacji Międzyuniwersyteckiego Programu Udostępnienia MAP i powstania najnowszej (piątej) wersji systemu wraz z jego nowymi funkcjonalnościami.
 +
 +
= Szczegółowy wykaz zmian =
 +
Poniżej zamieszczono nowe funkcjonalności, które zostały zaimplementowane w OSA 5.
 +
 +
== Moduł wymiany map ==
 +
Algorytmiczny trzon OSA opiera swoje działanie opiera na przetwarzanie danych, z których nie da się odzyskać treści badanych prac. Są o tzw. mapy. Z analiz prawniczych wynika, że mapy, mogą zostać wyeksportowane poza uczelnię bez obaw o to, że zostaną złamane prawa autorskie studentów (lub innych twórców).
 +
 +
Moduł ten pozwala na znalezienie zapożyczeń między dowolnymi pracami znajdującymi się w lokalnych zasobach uczelni.
 +
Dzięki niemu zaplecze informacyjne, w którym OSA wyszukuje zapożyczenia znacznie się zwiększy i może - nawet w skali
 +
całego kraju - objąć mapy dowolnych dokumentów, które uczelnie zdecydują się udostępnić, bez ograniczeń dotyczących np. dat ich powstania i charakteru, jak to ma miejsce w odniesieniu do ORPPD. 
 +
 +
Więcej przeczytasz w oddzielnym artykule: [[Międzyuniwersytecki Program Udostępnienia Map]]
 +
 +
== Moduł wymiany statystyk wyrazów ==
 +
Do poprawnego wyliczenia niektórych miar jakościowych w porównywaniu antyplagiatowym wymagane jest posiadanie odpowiednio dużego korpusu danych statystycznych używania słów w danym języku. Jeśli lokalna instancja OSA posiadała mało prac obronionych - zbiór ten był bardzo ubogi - i tym samym statystyki wyrazów były niskiej jakości. . W piątej wersji OSA statystyki występowania wyrazów są współdzielone z pozostałymi instancjami. Raz na jakiś czas każda instancja komunikuje się z serwerem centralnym i udostępnia mu swoje statystyki występowania słów. Miary te są średnimi wyliczanymi na podstawie zawartości prac i nie niosą ze sobą żadnej informacji wrażliwej. Po zagregowaniu dane te są przetwarzane na serwerze centralnym i udostępniane instancjom lokalnym. Dzięki temu każda instancja może posiadać znacznie większy korpus danych na temat statystycznego używania słów w danym języku, niż mogłaby go posiadać na podstawie prac z własnej bazy.
 +
 +
== Moduł współdzielenia treści pracy między uczelniami ==
 +
Moduł umożliwia wysłanie zapytania przez promotora uczelni X o treść pracy pochodzącej z uczelni Y, w której system znalazł elementy wspólne. Mechanizm (za zgodą uczelni Y) dostarczy tylko do wglądu promotorowi uczelni X treść pracy w celu pogłębienia informacji o podobieństwie prac. Moduł ten jest częścią wcześniej wspomnianego [[Międzyuniwersytecki Program Udostępnienia Map|programu udostępniania map]] (tam można przeczytać o szczegółach i założeniach tego modułu)
 +
 +
== Moduł komunikacji z użytkownikami lokalnych instancji systemu ==
 +
Moduł powiadamiania użytkowników został całkowicie przebudowany. Wcześniej był dość rzadko wykorzystywany ze względu na swoją prostotę. Po przebudowie umożliwia wysłanie przez twórców OSA dowolnej informacji do użytkowników lub administratorów lokalny instancji, ustalaniu czasu ważności komunikatów itp. Narzędzie te będzie wykorzystywane dużo częściej (np. w przypadku awarii centralnej części systemu).
 +
 +
== Moduł zbierania danych diagnostycznych ==
 +
Każda lokalna instancja systemu raz dziennie będzie wysyłać na serwer centralny dane diagnostyczne, służące wykrywaniu anomalii w działaniu. Dane te mają wyłącznie charakter statystyczny. Nie są przesyłane żadne dane wrażliwe lub informacje o działaniach lokalnych administratorów. Chodzi tu o dane typu: ilość prac w OSA, ilość dokonanych sprawdzeń, ilość aktywnych kont w systemie, itp.
 +
 +
== Moduł analizy sylometrycznej == 
 +
W module znajdują się pomocnicze narzędzie pomocnicze analizy tekstów, które nie korzystają z żadnych baz referencyjnych i odnoszą się jedynie do badanej pracy. Na ich podstawie nie należy wyrokować o popełnieniu plagiatu, bez odwoływania się do analiz popartych informacjami z baz referencyjnych.
 +
 +
Stylometria jest narzędziem umożliwiającym stwierdzenie, czy dana praca jest pisana przez tą samą osobę tj. czy całość pracy nie jest kompilacją tekstów pisanych przez różne osoby. Sposób pisania prac, stosowane słownictwo, długości zdań, kolejności pewnych sformułowań są charakterystyczne dla każdej osoby. Można więc badać czy cała praca odznacza się harmonią stylistyczną.
 +
OSA udostępnia dwa różne moduły stylometrii:
 +
* Stylometria bazująca na danych lingwistycznych. Analiza polega na wyliczeniu i porównaniu miar występowania  wyrazów, zdań, fraz, akapitów, etc. we fragmentach pracy i próbie odnalezienia tych, których miary znacząco odbiegają od miar wyliczonych dla pozostałych części.
 +
* Stylometria "Alfa". Analiza polega na ustaleniu częstości użycia wyrazów słownikowych (tzw. lematów) we fragmentach pracy (jest to tzw. parametr "alfa") i porównaniu wyników odnoszących się do pozostałych części. Istotne różnice miedzy tymi parametrami zazwyczaj wskazują na kompilację.
 +
 +
Więcej: [[Analiza stylometryczna]]
 +
 +
== Indywidualne klucze dla każdej uczelni ==
 +
Moduł był zapowiedziany w [[Wersja_4.0.0|wersji 4]] jednakże konieczność jego wdrożenia pojawiła się dopiero w wersji 5 wymagającej rozróżnienia poszczególnych lokalnych instancji systemu. Więcej: [[Uzyskanie dostępu do Bazy Centralnej]]
 +
 +
== Rezygnacja z usługi NEKST ==
 +
Z dniem 1 kwietnia 2018 OSA zaprzestała korzystać z obrazu Internetu NEKST. W jego miejsce weszła baza Internetu pozyskana poprzez crawlowanie Internetu przez zespół OSA. Zbiór prac zgromadzonych w bazie jest porównywalny z zasobami NEKST'u i ciągle rośnie. OSY 4 i 5 od tego dnia korzystają już z bazy własnej projektu - co jest niezauważalne dla użytkowników końcowych. Nie ma konieczności konfigurowania. Domyślnie wszystkie OSY korzystają z Internetu OSY a nie NEKST.
 +
 +
== Inne mniejsze ==
 +
W wersji 5 wprowadzono również wiele zmian będących odpowiedzią na zgłoszone zapotrzebowanie poszczególnych uczelni, bądź błędy wykryte w poprzednich wersjach.
 +
 +
= Prace badawcze =
 +
Znaczna część pracy zespołu OSA ma charakter badawczy. Wyniki tych badań będą sukcesywnie publikowane.
  
 
= Zobacz też =
 
= Zobacz też =
 +
* [[Aktualizacja OSY do wersji 5]]
 +
* [[Uzyskanie dostępu do Bazy Centralnej]]
 
* [[Konfiguracja]]
 
* [[Konfiguracja]]
 
* [[Spis parametrów konfiguracyjnych]]
 
* [[Spis parametrów konfiguracyjnych]]
  
 
[[Category:Informacje o systemie]]
 
[[Category:Informacje o systemie]]

Wersja z 11:46, 1 mar 2019

Parametry
Wersja 5.0.0 (prerelease)
Data wydania 9 luty 2018 (beta)
Data wydania 10 maja 2018
Poprzednia wersja 4.2.1

OSA 5 - wersja systemu antyplagiatowego, któremu motywem przewodnim jest współpraca między poszczególnymi instancjami systemu na poszczególnych uczelniach. Zaletą takiego podejścia jest zwiększenie bazy porównawczej a tym samym zwiększenie jakości zwracanych wyników przez system.

Geneza zmian

System osiągnął swoją stabilność w wersji 4. Ilość awarii samych lokalnych instancji na poszczególnych uczelniach spadła niemalże do zera. Jakość przetwarzania systemu zawsze była wysoka. Zastosowane w nim algorytmy okazały się bardziej skuteczne i szybsze od komercyjnych rozwiązań, niejednokrotnie wyznaczając pułap dążeń. Cieszy nas to, gdyż OSA jako projekt naukowy miał za zadanie podnieść jakość kształcenia na polskich uczelniach właśnie poprzez wdrożenie możliwie najlepszych metod weryfikacji antyplagiatowej. Misja powiodła się - rozwiązania komercyjne także podniosły jakość takiej weryfikacji przyczyniając się do polepszenia jakości kształcenia w Polsce.

Źródłami sukcesu sprawdzania antyplagiatowego niezmiennie pozostają

  • jakość algorytmów wyszukujących podobieństwa dokumentów
  • wielkość baz referencyjnych, w których tych podobieństw należy szukać.

Przyjęty w algorytmicznych rozwiązaniach systemu model podobieństwa tekstów jest systematycznie poszerzany i jest już bardzo rozległy. Jest najrozleglejszy wśród systemów antyplagiatowych stosowanych na polskich uczelniach. Jednakże bazy referencyjne, z powodu restrykcji prawnych, zostały ograniczone do obrazu polskiego Internetu NEKST oraz do bazy własnej danej uczelni, składającej się z cyfrowych oryginałów obronionych na niej prac dyplomowych. Więzy prawne nie pozwalają uczelniom na przekazywanie en bloc tych oryginałów podmiotom zewnętrznym.

Zespół OSA znalazł jednak rozwiązanie mieszczące się w granicach prawnych i umożliwiające integrację danych znajdujących się we własnych bazach partnerskich uczelni. Dane te buduje się jedynie z tych elementów oryginalnych tekstów, które są wystarczające dla skutecznej weryfikacji antyplagiatowej i tak dobrane, że nie można z nich odtworzyć żadnego oryginału. Doprowadziło to do inicjacji Międzyuniwersyteckiego Programu Udostępnienia MAP i powstania najnowszej (piątej) wersji systemu wraz z jego nowymi funkcjonalnościami.

Szczegółowy wykaz zmian

Poniżej zamieszczono nowe funkcjonalności, które zostały zaimplementowane w OSA 5.

Moduł wymiany map

Algorytmiczny trzon OSA opiera swoje działanie opiera na przetwarzanie danych, z których nie da się odzyskać treści badanych prac. Są o tzw. mapy. Z analiz prawniczych wynika, że mapy, mogą zostać wyeksportowane poza uczelnię bez obaw o to, że zostaną złamane prawa autorskie studentów (lub innych twórców).

Moduł ten pozwala na znalezienie zapożyczeń między dowolnymi pracami znajdującymi się w lokalnych zasobach uczelni. Dzięki niemu zaplecze informacyjne, w którym OSA wyszukuje zapożyczenia znacznie się zwiększy i może - nawet w skali całego kraju - objąć mapy dowolnych dokumentów, które uczelnie zdecydują się udostępnić, bez ograniczeń dotyczących np. dat ich powstania i charakteru, jak to ma miejsce w odniesieniu do ORPPD.

Więcej przeczytasz w oddzielnym artykule: Międzyuniwersytecki Program Udostępnienia Map

Moduł wymiany statystyk wyrazów

Do poprawnego wyliczenia niektórych miar jakościowych w porównywaniu antyplagiatowym wymagane jest posiadanie odpowiednio dużego korpusu danych statystycznych używania słów w danym języku. Jeśli lokalna instancja OSA posiadała mało prac obronionych - zbiór ten był bardzo ubogi - i tym samym statystyki wyrazów były niskiej jakości. . W piątej wersji OSA statystyki występowania wyrazów są współdzielone z pozostałymi instancjami. Raz na jakiś czas każda instancja komunikuje się z serwerem centralnym i udostępnia mu swoje statystyki występowania słów. Miary te są średnimi wyliczanymi na podstawie zawartości prac i nie niosą ze sobą żadnej informacji wrażliwej. Po zagregowaniu dane te są przetwarzane na serwerze centralnym i udostępniane instancjom lokalnym. Dzięki temu każda instancja może posiadać znacznie większy korpus danych na temat statystycznego używania słów w danym języku, niż mogłaby go posiadać na podstawie prac z własnej bazy.

Moduł współdzielenia treści pracy między uczelniami

Moduł umożliwia wysłanie zapytania przez promotora uczelni X o treść pracy pochodzącej z uczelni Y, w której system znalazł elementy wspólne. Mechanizm (za zgodą uczelni Y) dostarczy tylko do wglądu promotorowi uczelni X treść pracy w celu pogłębienia informacji o podobieństwie prac. Moduł ten jest częścią wcześniej wspomnianego programu udostępniania map (tam można przeczytać o szczegółach i założeniach tego modułu)

Moduł komunikacji z użytkownikami lokalnych instancji systemu

Moduł powiadamiania użytkowników został całkowicie przebudowany. Wcześniej był dość rzadko wykorzystywany ze względu na swoją prostotę. Po przebudowie umożliwia wysłanie przez twórców OSA dowolnej informacji do użytkowników lub administratorów lokalny instancji, ustalaniu czasu ważności komunikatów itp. Narzędzie te będzie wykorzystywane dużo częściej (np. w przypadku awarii centralnej części systemu).

Moduł zbierania danych diagnostycznych

Każda lokalna instancja systemu raz dziennie będzie wysyłać na serwer centralny dane diagnostyczne, służące wykrywaniu anomalii w działaniu. Dane te mają wyłącznie charakter statystyczny. Nie są przesyłane żadne dane wrażliwe lub informacje o działaniach lokalnych administratorów. Chodzi tu o dane typu: ilość prac w OSA, ilość dokonanych sprawdzeń, ilość aktywnych kont w systemie, itp.

Moduł analizy sylometrycznej

W module znajdują się pomocnicze narzędzie pomocnicze analizy tekstów, które nie korzystają z żadnych baz referencyjnych i odnoszą się jedynie do badanej pracy. Na ich podstawie nie należy wyrokować o popełnieniu plagiatu, bez odwoływania się do analiz popartych informacjami z baz referencyjnych.

Stylometria jest narzędziem umożliwiającym stwierdzenie, czy dana praca jest pisana przez tą samą osobę tj. czy całość pracy nie jest kompilacją tekstów pisanych przez różne osoby. Sposób pisania prac, stosowane słownictwo, długości zdań, kolejności pewnych sformułowań są charakterystyczne dla każdej osoby. Można więc badać czy cała praca odznacza się harmonią stylistyczną. OSA udostępnia dwa różne moduły stylometrii:

  • Stylometria bazująca na danych lingwistycznych. Analiza polega na wyliczeniu i porównaniu miar występowania wyrazów, zdań, fraz, akapitów, etc. we fragmentach pracy i próbie odnalezienia tych, których miary znacząco odbiegają od miar wyliczonych dla pozostałych części.
  • Stylometria "Alfa". Analiza polega na ustaleniu częstości użycia wyrazów słownikowych (tzw. lematów) we fragmentach pracy (jest to tzw. parametr "alfa") i porównaniu wyników odnoszących się do pozostałych części. Istotne różnice miedzy tymi parametrami zazwyczaj wskazują na kompilację.
Więcej: Analiza stylometryczna

Indywidualne klucze dla każdej uczelni

Moduł był zapowiedziany w wersji 4 jednakże konieczność jego wdrożenia pojawiła się dopiero w wersji 5 wymagającej rozróżnienia poszczególnych lokalnych instancji systemu. Więcej: Uzyskanie dostępu do Bazy Centralnej

Rezygnacja z usługi NEKST

Z dniem 1 kwietnia 2018 OSA zaprzestała korzystać z obrazu Internetu NEKST. W jego miejsce weszła baza Internetu pozyskana poprzez crawlowanie Internetu przez zespół OSA. Zbiór prac zgromadzonych w bazie jest porównywalny z zasobami NEKST'u i ciągle rośnie. OSY 4 i 5 od tego dnia korzystają już z bazy własnej projektu - co jest niezauważalne dla użytkowników końcowych. Nie ma konieczności konfigurowania. Domyślnie wszystkie OSY korzystają z Internetu OSY a nie NEKST.

Inne mniejsze

W wersji 5 wprowadzono również wiele zmian będących odpowiedzią na zgłoszone zapotrzebowanie poszczególnych uczelni, bądź błędy wykryte w poprzednich wersjach.

Prace badawcze

Znaczna część pracy zespołu OSA ma charakter badawczy. Wyniki tych badań będą sukcesywnie publikowane.

Zobacz też