Analiza stylometryczna

Z Otwarty System Antyplagiatowy
Skocz do: nawigacja, szukaj
Artykuł opisuje moduł OSY wprowadzony w wersji 5. Jest on w fazie eksperymentalnej.

Analiza stylometryczna - jest badaniem, które ma wykazać czy praca została napisana przez tego samego autora lub znaleźć autorów poszczególnych fragmentów pracy.

Geneza

Celem systemu OSA jest poprawa jakości kształcenia na uczelniach wyższych. Wykrywanie plagiatów w pracach dyplomowych znacząco ją poprawia. Nie zawsze jednak jesteśmy w stanie znaleźć plagiat analizując pracę. Przyczyna tego może leżeć w tym, że OSA nie posiada w swoich zasobach (uczelnianych, Internetowych i innych) pracy z której autor pracy zapożyczył fragmenty swojej pracy. W takiej sytuacji OSA nie jest w stanie znaleźć dowodu w postaci fragmentu innej pracy z której autor plagiatował.

OSA postanowiła iść krok dalej i spróbować dokonać analizy pracy by stwierdzić czy to możliwe, że cała praca została napisana przez tą samą osobę. W przypadku prac dyplomowych taka analiza ma sens i nie jest konieczne wykazanie do kogo należą fragmenty podejrzane - wystarczy jedynie fakt, że nie zrobiła to osoba, która chce uzyskać dyplom. To właśnie nazywamy analizą stylometryczną pracy.

Moduł sylometryczny

OSA w wersji 5 posiada eksperymentalną wersję 2-ch modułów stylometrycznych. Są to:

  • Stylometria lingwistyczna
  • Stylometria oparta o wskaźnik alfa

Aby dokonać analizy stylometrycznej należy wejść w odpowiedni widok uruchamiany przyciskiem Analiza stylometryczna widocznym w sekcji statystyki dokumentu w widoku pracy.

Stylometria lingwistyczna

Głównym założeniem stylometrii lingwistycznej jest to, że praca pisana w całości przez jednego autora powinna być spójna pod wieloma względami. Jeśli ktoś popełnia błędy ortograficzne to w całej pracy powinien je popełniać konsekwentnie, jeśli ktoś ma styl bardzo opisowy to jego zdania będą długie i pełne przymiotników - takie powinny być w całej pracy. Jeśli natomiast jakiś fragment pracy został skopiowany z innej pracy od innego autora, który ma inny styl - będzie to widoczne w wyliczonych metrykach.

Stylometria.png

Obok mamy załączony fragment wyliczonych metryk dla przykładowej pracy. Widzimy, że średnio w całej pracy było niecałe 8 rzeczowników na zdanie. Obok jest Współczynnik, który ma wartość 0.55. Wynik ten otrzymujemy następująco:

1. dzielimy pracę na fragmenty

2. dla każdego fragmentu wyliczamy metrykę (w tym wypadku liczbę rzeczowników na zdanie)

3. dzielimy najmniejszą oraz największą wartość danej metryki we wszystkich fragmentach

Wartość 0.55 oznacza, że w pracy były dwa fragmenty, które różniły się liczbą rzeczowników prawie dwukrotnie (1/0.55 ~= 1.81). Im wartość bliższa 1 tym bardziej spójne fragmenty (mniejsze różnice w metrykach między nimi), im wartość bliższa 0 tym różnice są większe. Wiele wartości w przedziale 0.0 - 0.3 może sugerować, że z pracą dzieje się coś podejrzanego.

Stylometria oparta o wskaźnik alfa

Moduł ten bada spójność stylometryczną całej pracy. Idea działania tego modułu polega na podziale pracy na wiele części a następnie porównaniu ich względem zastosowanego słownictwa użytego w tekście. Dla przykładu: jeżeli któraś z części pracy stosuje słownictwo proste, mało wyszukane zaś nagle w innej części pracy autor stosuje trudne odpowiedniki powszechnych wyrazów to może to oznaczać, że być może autor dokonał kompilacji pracy z wielu innych tekstów źródłowych.

Analiza oparta o wskaźnik alfa potrzebuje długiego tekstu by analiza miała szansę być bliska prawdzie. Jak wszystkie tego typu metody oparty jest o statystyczne porównywanie zbiorów cech tekstu - a co za tym idzie potrzebna jest duża próba na której moduł mógłby działać. Krótkie teksty są wyłączone z tej analizy, gdyż wyniki prawie zawsze byłyby fałszywie dodatnie.

Moduł ten będzie silnie rozwijany po tym jak wiele uczelni zainstaluje OSA 5, gdyż ta wersja wyposażona jest w przesyłanie na serwer centralny anonimowych statystyk częstości wyrazów w pracach dyplomowych, które są kluczowe do wyznaczenia wag ważności słów w danym języku.

Interpretacja wyników

Moduł ten prezentuje swoje wyniki nanosząc współczynniki podobieństwa na treść pracy. Osoba dokonująca analizy może (podobnie jak w szczegółowym porównaniu) klikać na odpowiednie zaznaczone fragmenty i odczytywać wartości, które system obliczył. Jeśli żaden fragment nie jest zaznaczony na żółto - oznacza to, że praca jest spójna stylometrycznie.

Uwaga

Przypominamy, że oba moduły analizy stylometrycznej są w fazie eksperymentalnej i nie mogą stanowić dowodu plagiatu. Są jedynie narzędziem, które może wskazać promotorowi pewne prawidłowości, którym powinien się bliżej przyjrzeć.

Zobacz też