Analiza stylometryczna

Z Otwarty System Antyplagiatowy
Wersja z dnia 20:28, 7 maj 2018 autorstwa Acacko (dyskusja | edycje) (Stylometria oparta o wskaźnik alfa)

Skocz do: nawigacja, szukaj
Artykuł opisuje moduł OSY wprowadzony w wersji 5. Jest on w fazie eksperymentalnej.

Analiza stylometryczna - jest badaniem, które ma wykazać czy praca została napisana przez tego samego autora lub znaleźć autorów poszczególnych fragmentów pracy.

Geneza

Celem systemu OSA jest poprawa jakości kształcenia na uczelniach wyższych. Wykrywanie plagiatów w pracach dyplomowych znacząco ją poprawia. Nie zawsze jednak jesteśmy w stanie znaleźć plagiat analizując pracę. Przyczyna tego może leżeć w tym, że OSA nie posiada w swoich zasobach (uczelnianych, Internetowych i innych) pracy z której autor pracy zapożyczył fragmenty swojej pracy. W takiej sytuacji OSA nie jest w stanie znaleźć dowodu w postaci fragmentu innej pracy z której autor plagiatował.

OSA postanowiła iść krok dalej i spróbować dokonać analizy pracy by stwierdzić czy to możliwe, że cała praca została napisana przez tą samą osobę. W przypadku prac dyplomowych taka analiza ma sens i nie jest konieczne wykazanie do kogo należą fragmenty podejrzane - wystarczy jedynie fakt, że nie zrobiła to osoba, która chce uzyskać dyplom. To właśnie nazywamy analizą stylometryczną pracy.

Moduł sylometryczny

OSA w wersji 5 posiada eksperymentalną wersję 2-ch modułów stylometrycznych. Są to:

  • Stylometria lingwistyczna
  • Stylometria oparta o wskaźnik alfa

Aby dokonać analizy stylometrycznej należy wejść w odpowiedni widok uruchamiany przyciskiem Analiza stylometryczna widocznym w sekcji statystyki dokumentu w widoku pracy.

Stylometria lingwistyczna

tutaj opis

Stylometria oparta o wskaźnik alfa

Moduł ten bada spójność stylometryczną całej pracy. Idea działania tego modułu polega na podziale pracy na wiele części a następnie porównaniu ich względem zastosowanego słownictwa użytego w tekście. Dla przykładu: jeżeli któraś z części pracy stosuje słownictwo proste, mało wyszukane zaś nagle w innej części pracy autor stosuje trudne odpowiedniki powszechnych wyrazów to może to oznaczać, że być może autor dokonał kompilacji pracy z wielu innych tekstów źródłowych.

Analiza oparta o wskaźnik alfa potrzebuje długiego tekstu by analiza miała szansę być bliska prawdzie. Jak wszystkie tego typu metody oparty jest o statystyczne porównywanie zbiorów cech tekstu - a co za tym idzie potrzebna jest duża próba na której moduł mógłby działać. Krótkie teksty są wyłączone z tej analizy, gdyż wyniki prawie zawsze byłyby fałszywie dodatnie.

Moduł ten będzie silnie rozwijany po tym jak wiele uczelni zainstaluje OSA 5, gdyż ta wersja wyposażona jest w przesyłanie na serwer centralny anonimowych statystyk częstości wyrazów w pracach dyplomowych, które są kluczowe do wyznaczenia wag ważności słów w danym języku.

Interpretacja wyników

Moduł ten prezentuje swoje wyniki nanosząc współczynniki podobieństwa na treść pracy. Osoba dokonująca analizy może (podobnie jak w Szczegółowe porównanie) klikać na odpowiednie zaznaczone fragmenty i odczytywać wartości, które system obliczył. Jeśli żaden fragment nie jest zaznaczony na żółto - oznacza to, że praca jest spójna stylometrycznie.

Uwaga

Przypominamy, że oba moduły analizy stylometrycznej są w fazie eksperymentalnej i nie mogą stanowić dowodu plagiatu. Są jedynie narzędziem, które może wskazać promotorowi pewne prawidłowości, którym powinien się bliżej przyjrzeć.

Zobacz też