Interpretacja wyników: Różnice pomiędzy wersjami

Z Otwarty System Antyplagiatowy
Skocz do: nawigacja, szukaj
(NACZELNA ZASADA)
(Sposoby wykrywania plagiatu)
 
(Nie pokazano 16 wersji utworzonych przez 2 użytkowników)
Linia 1: Linia 1:
'''Interpretacja wyników''' jest procesem analizy przez promotora (bądź inną osobę odpowiedzialną za kontrolę antyplagiatową) informacji prezentowanych przez [[system OSA]]. Wynikiem takiej kontroli powinno być stwierdzenie przez taką osobę czy praca ma znamiona nielegalnych nadużyć bądź nie.
+
'''Interpretacja wyników''' jest procesem analizy przez promotora (bądź inną osobę odpowiedzialną za kontrolę antyplagiatową) informacji prezentowanych przez [[system OSA]]. Wynikiem takiej kontroli powinno być stwierdzenie przez taką osobę czy praca ma znamiona plagiatu.
  
 
= Sposoby wykrywania plagiatu =
 
= Sposoby wykrywania plagiatu =
  
System OSA dostarcza narzędzi do stwierdzenia z dużym prawdopodobieństwem czy praca została napisana niesamodzielnie. Służą do tego raporty prezentowane promotorowi wygenerowane po [[Dodawanie dokumentu|dodaniu dokumentu]] do systemu. Narzędziami tymi są:
+
System OSA dostarcza szereg narzędzi do stwierdzenia czy praca została napisana samodzielnie. Służą do tego raporty prezentowane promotorowi wygenerowane po [[Dodawanie dokumentu|dodaniu dokumentu]] do systemu. Narzędziami tymi są informacje zawarte w [[Widok szczegółów pracy|widoku szczegółów pracy]]:
# Informacje zawarte w [[Widok szczegółów pracy|widoku szczegółów pracy]], w tym:
+
## Tabeli statystyk wyrazów
+
## [[Wskaźnik PRWC|Wskaźników PRWC]] dla prac podejrzanych
+
# Analiza [[Szczegółowe porównanie|szczegółowego porównania]] prac podejrzanych o zapożyczenia, bądź skorzystanie z [[Ujednolicone szczegółowe porównanie|ujednoliconego szczegółowego porównania]]
+
  
W dalszej części zostaną omówione sposoby rozumowania przy analizie poszczególnych wyników.
+
# tabela statystyk wyrazów,
 +
# [[Wskaźnik PRWC|wskaźniki PRWC]],
 +
# Analiza [[Szczegółowe porównanie|szczegółowego porównania]] prac.
 +
# [[Ujednolicone szczegółowe porównanie|Ujednolicone szczegółowe porównanie]].
 +
# Wgląd w "Treść pracy" ukazująca [[Słowa nierozpoznane|słowa nierozpoznane]] i z [[Podstawienie czcionek|podstawieniami czcionek]].
 +
# [[Analiza stylometryczna]] - jako eksperymentalny moduł OSA 5.
  
 
== Tabela statystyk wyrazów ==
 
== Tabela statystyk wyrazów ==
 
[[Plik:StatystykaSlow.png|thumb|Przykładowa statystyka słów|500px|link={{filepath:StatystykaSlow.png}}]]
 
[[Plik:StatystykaSlow.png|thumb|Przykładowa statystyka słów|500px|link={{filepath:StatystykaSlow.png}}]]
Statystyka wyrazów może nieść ze sobą bardzo dużą wiedzę na temat prób oszustwa przez osobę piszącą pracę. Dla osoby sprawdzającej pracę podejrzanie powinny być następujące sytuacje:
+
Statystyki wyrazów mogą dać wgląd w próby oszustwa ze strony osoby piszącej pracę. Dla sprawdzającego pracę podejrzanie powinny budzić następujące sytuacje:
# Bardzo mała liczba słów w całym dokumencie - podejrzenie, że autor pracy stosował białe znaki zamiast spacji by oszukać system antyplagiatowy
+
# Bardzo mała liczba słów w całym dokumencie - podejrzenie, że autor pracy stosował białe znaki zamiast spacji, by oszukać system (w skrajnym przypadku praca może składać się z jednego bardzo długiego słowa)
# Bardzo mała [[Słowa rozpoznane|słów rozpoznanych]] jako słownikowe - podejrzenie o stosowanie liter wyglądających jak polskie (np. z alfabetu greckiego)
+
# Bardzo mała liczba [[Słowa rozpoznane|słów rozpoznanych]] jako słownikowe - podejrzenie o stosowanie liter wyglądających jak polskie (np. z alfabetu greckiego), białych znaków, np. minispacji. Minispacje to zwykłe [[Białe znaki|spacje odpowiadające bardzo małym rozmiarom czcionki]] (np. 1). Jeśli zostaną wstawione między litery jakiegoś wyrazu na wydruku będą niezauważalne, ale w wersji elektronicznej w miejscu tego wyrazu ujrzymy oddzielne ciągi liter, które zwykle nie występują w słowniku.
# Bardzo mała liczba [[Słowa unikatowe|unikatowych]] rozpoznanych słów - ubogie słownictwo, podejrzenie o wybiórcze stosowanie podmiany czcionek
+
# Bardzo mała liczba [[Słowa unikatowe|unikatowych]] rozpoznanych słów - ubogie słownictwo, podejrzenie o wybiórcze stosowanie minispacji lub podmiany czcionek.
# Niezerowa liczba słów z [[Podstawienie czcionek|podstawionymi czcionkami]]
+
# Niezerowa liczba słów z [[Podstawienie czcionek|podstawionymi czcionkami]].
# Bardzo mały stosunek liczby nierozpoznanych słów do rozpoznanych bądź liczby unikatowych nierozpoznanych słów do unikatowych rozpoznanych (wykresy kołowe)
+
# Duży stosunek liczby [[Słowa nierozpoznane|nierozpoznanych słów]] do słów rozpoznanych bądź liczby unikatowych nierozpoznanych słów do rozpoznanych słów unikatowych (wykresy kołowe).
  
Często jest tak, że próby oszustwa na czcionkach bądź podstawienia [[Białe znaki|białych znaków]] przystankowych powoduje, że pozostałe moduły antyplagiatowe nie są w stanie znaleźć zapożyczeń. No bo jak znaleźć podobieństwo pracy gdzie jest jeden długi wyraz z pozostałą bazą dokumentów? Stąd statystyka wyrazów jest bardzo ważną informacją, która może być '''jedynym śladem''' prowadzącym do podejrzenia o nielegalne działania.
+
Często jest tak, że próby oszustwa na czcionkach bądź podstawienia [[Białe znaki|białych znaków]] przystankowych powoduje, że pozostałe moduły antyplagiatowe nie są w stanie znaleźć zapożyczeń. No bo jak znaleźć w bazie referencyjnej podobieństwo pracy, w której jest jeden bardzo długi ciąg znaków? Stąd statystyka wyrazów jest bardzo ważną informacją, która może być '''jedynym śladem''' prowadzącym do ujawnienia nieuprawnionych działań. Jeśli dokument jest w taki sposób spreparowany - polecamy skorzystać z narzędzia "Treść pracy", gdzie uwidocznione są słowa nierozpoznane.
 +
 
 +
'''Uwaga!'''
 +
 
 +
W tabeli statystyk wyrazów - słowo z podstawioną czcionką jest liczone dwa razy (jako słowo rozpoznane oraz jako słowo z podstawioną czcionką).
  
 
== Wskaźniki PRWC ==
 
== Wskaźniki PRWC ==
O wskaźnikach więcej zostało powiedziane w [[Wskaźnik PRWC|tym artykule]]. W pewnym sensie, wskaźnik ten pokazuje jak wiele zawartości jednej pracy znajduje się w drugiej. Reprezentuje on w postaci liczby to co możemy znaleźć w wynikach [[Szczegółowe porównanie|szczegółowego porównania]].
+
O wskaźnikach więcej zostało powiedziane w [[Wskaźnik PRWC|tym artykule]]. W pewnym sensie, wskaźniki te pokazują jak wiele zawartości jednej pracy znajduje się w drugiej. Reprezentują one w postaci liczb to, co możemy znaleźć w wynikach [[Szczegółowe porównanie|szczegółowego porównania]].
  
Zasada jest tutaj dość prosta: jeśli wskaźnik ten jest wysoko - oznacza to, że zachodzi duże podejrzenie stosowania zapożyczeń z innymi pracami.  
+
Zasada jest tutaj dość prosta: jeśli wskaźnik ten jest wysoko - oznacza to, że zachodzi duże podejrzenie stosowania zapożyczeń z innych prac.  
  
W tabeli prezentującej listę prac z zapożyczeniami oprócz wskaźnika PRWC znajdują się też wyniki '''"Liczba identycznych fraz"'''' oraz '''"Najdłuższa identyczna fraza"'''. Warto tutaj użyć opcji sortowania po tych kolumnach i przyjrzeć się kilku pierwszym wynikom.
+
W tabeli prezentującej listę prac z zapożyczeniami oprócz wskaźnika PRWC znajdują się też wyniki '''"Liczba identycznych fraz"'''' oraz '''"Najdłuższa identyczna fraza"'''. Warto tutaj użyć opcji sortowania po tych kolumnach i przyjrzeć się wynikom.
  
 
=== Uwagi ===
 
=== Uwagi ===
Nie jest wcale powiedziane, że duża wartość PRWC wskazuje na plagiat, ani nie jest powiedziane, że małe wskaźniki PRWC taki plagiat wykluczają. Może się przecież zdarzyć, że wskaźnik PRWC jest wysoki a praca zawiera fragmenty Konstytucji (a to plagiatem nie jest o ile praca dotyczy pewnych aspektów prawnych).
+
Nie jest wcale powiedziane, że duża wartość PRWC wskazuje na plagiat, ani nie jest powiedziane, że małe wskaźniki PRWC taki plagiat wykluczają. Może się przecież zdarzyć, że wskaźnik PRWC jest wysoki a praca zawiera fragmenty Konstytucji (a to plagiatem nie jest, o ile praca dotyczy pewnych aspektów prawnych).
  
 
== Szczegółowe porównania ==
 
== Szczegółowe porównania ==
Widoki [[Szczegółowe porównanie|szczegółowego porównania]] oraz [[Ujednolicone szczegółowe porównanie|ujednoliconego szczegółowego porównania]] służą jako pomocnicze narzędzie ukazania naocznego, które fragmenty sprawdzanej pracy są wspólne z innymi dokumentami. W zamyśle strony te mają pomóc promotorowi pokazać dowody na stosowanie zapożyczeń. Promotor taki powinien takie fragmenty przejrzeć i przeanalizować czy może być to przypadek czy świadome działania autora pracy.
+
Widoki [[Szczegółowe porównanie|szczegółowego porównania]] oraz [[Ujednolicone szczegółowe porównanie|ujednoliconego szczegółowego porównania]] służą jako pomocnicze narzędzie unaocznienia, które fragmenty sprawdzanej pracy są wspólne z innymi dokumentami. W zamyśle mają pomóc promotorowi znaleźć dowody na stosowanie zapożyczeń. Promotor powinien takie fragmenty przejrzeć i przeanalizować czy może być to przypadek, czy świadome działania autora pracy.
 +
 
 +
== Treść pracy ==
 +
[[Plik:Tresc.png|thumb|Przykładowy widok treści pracy|500px|link={{filepath:Tresc.png}}]]
 +
Na dole [[Widok szczegółów pracy|strony szczegółów dokumentu]] znajduje się przycisk '''"Treść pracy"'''. Po jego naciśnięciu ukazuje się oryginalna treść dokumentu. Słowa nierozpoznane kolorowane są na żółto (może to wskazywać na stosowanie białych znaków, mikrospacji), natomiast słowa z podstawieniami czcionek - na czerwono. Dodatkowo jest możliwość uwidocznienia samych podejrzanych słów poprzez zaznaczenie '''"tylko nierozpoznane"'''. Dane tutaj prezentowane są odwzorowaniem tego co zostało ukazane w '''Tabeli statystyk wyrazów'''. Należy przejrzeć treść pracy i upewnić się, czy prezentowane przez OSĘ problematyczne słowa faktycznie budzą podejrzenia.
  
 
= NACZELNA ZASADA =
 
= NACZELNA ZASADA =
[[System OSA]] nie może warunkować o popełnieniu plagiatu. OSA jest tylko narzędziem, które pomaga taką decyzję podjąć promotorowi/osobie decyzyjnej. Bardzo wiele podejrzeń o plagiat okazać się może cytowaniami, przypadkowymi zbitkami słów, które wystąpiły w innych pracach bądź bardzo popularnymi zwrotami bądź akapitami, które występują powszechnie w pracach. Z jednej strony może to być wspomniana wcześniej praca na temat interpretacji Konstytucji gdzie zostanie znalezione bardzo dużo wspólnych z tym aktem prawnym, na któy autor się powołuje w pracy, z drugiej strony może to być praca matematyka, gdzie zapożyczenie będzie główną tezą pracy. Komputer takich rzeczy nigdy nie będzie w stanie poprawnie zinterpretować.
+
[[System OSA]] nie może wyrokować o popełnieniu plagiatu. OSA jest tylko narzędziem, które pomaga taką decyzję podjąć promotorowi/osobie decyzyjnej. Bardzo wiele podejrzeń o plagiat może się okazać cytowaniami, przypadkowymi zbitkami słów, które wystąpiły w innych pracach bądź bardzo popularnymi zwrotami, które występują powszechnie w pracach. Może to być np. wspomniana wcześniej praca na temat interpretacji Konstytucji, w której zostaną znalezione liczne, dopuszczalne zapożyczenia, ale może to też być praca matematyka, w której zapożyczenia będą dotyczyć nowych twierdzeń lub definicji z niecytowanych artykułów naukowych. Komputer takich rzeczy nigdy nie będzie w stanie poprawnie zinterpretować.
 +
 
 +
Ostateczna decyzja '''ZAWSZE''' należy do człowieka. Nie możemy więc doradzać, że np. od PRWC powyżej 45 praca jest plagiatem,  gdyż nie da się tego stwierdzić bez ingerencji ludzkiej.
 +
 
 +
== Zobacz też ==
 +
* [[Widok szczegółów pracy]]
  
Ostateczna decyzja '''ZAWSZE''' należy do człowieka. Nie możemy więc podać w instrukcji sprawdzania (jak to robią inne konkurencyjne programy), że od PRWC powyżej 20 praca jest plagiatem - gdyż nie da się tego stwierdzić bez ingerencji człowieka.
+
== Linki zewnętrzne ==
 +
* [https://www.youtube.com/watch?v=KuBTQ3qlcTU Film omawiający funkcjonalności OSY]
  
 
[[Category:Dokumentacja użytkownika]]
 
[[Category:Dokumentacja użytkownika]]

Aktualna wersja na dzień 20:30, 7 maj 2018

Interpretacja wyników jest procesem analizy przez promotora (bądź inną osobę odpowiedzialną za kontrolę antyplagiatową) informacji prezentowanych przez system OSA. Wynikiem takiej kontroli powinno być stwierdzenie przez taką osobę czy praca ma znamiona plagiatu.

Sposoby wykrywania plagiatu

System OSA dostarcza szereg narzędzi do stwierdzenia czy praca została napisana samodzielnie. Służą do tego raporty prezentowane promotorowi wygenerowane po dodaniu dokumentu do systemu. Narzędziami tymi są informacje zawarte w widoku szczegółów pracy:

  1. tabela statystyk wyrazów,
  2. wskaźniki PRWC,
  3. Analiza szczegółowego porównania prac.
  4. Ujednolicone szczegółowe porównanie.
  5. Wgląd w "Treść pracy" ukazująca słowa nierozpoznane i z podstawieniami czcionek.
  6. Analiza stylometryczna - jako eksperymentalny moduł OSA 5.

Tabela statystyk wyrazów

Przykładowa statystyka słów

Statystyki wyrazów mogą dać wgląd w próby oszustwa ze strony osoby piszącej pracę. Dla sprawdzającego pracę podejrzanie powinny budzić następujące sytuacje:

  1. Bardzo mała liczba słów w całym dokumencie - podejrzenie, że autor pracy stosował białe znaki zamiast spacji, by oszukać system (w skrajnym przypadku praca może składać się z jednego bardzo długiego słowa)
  2. Bardzo mała liczba słów rozpoznanych jako słownikowe - podejrzenie o stosowanie liter wyglądających jak polskie (np. z alfabetu greckiego), białych znaków, np. minispacji. Minispacje to zwykłe spacje odpowiadające bardzo małym rozmiarom czcionki (np. 1). Jeśli zostaną wstawione między litery jakiegoś wyrazu na wydruku będą niezauważalne, ale w wersji elektronicznej w miejscu tego wyrazu ujrzymy oddzielne ciągi liter, które zwykle nie występują w słowniku.
  3. Bardzo mała liczba unikatowych rozpoznanych słów - ubogie słownictwo, podejrzenie o wybiórcze stosowanie minispacji lub podmiany czcionek.
  4. Niezerowa liczba słów z podstawionymi czcionkami.
  5. Duży stosunek liczby nierozpoznanych słów do słów rozpoznanych bądź liczby unikatowych nierozpoznanych słów do rozpoznanych słów unikatowych (wykresy kołowe).

Często jest tak, że próby oszustwa na czcionkach bądź podstawienia białych znaków przystankowych powoduje, że pozostałe moduły antyplagiatowe nie są w stanie znaleźć zapożyczeń. No bo jak znaleźć w bazie referencyjnej podobieństwo pracy, w której jest jeden bardzo długi ciąg znaków? Stąd statystyka wyrazów jest bardzo ważną informacją, która może być jedynym śladem prowadzącym do ujawnienia nieuprawnionych działań. Jeśli dokument jest w taki sposób spreparowany - polecamy skorzystać z narzędzia "Treść pracy", gdzie uwidocznione są słowa nierozpoznane.

Uwaga!

W tabeli statystyk wyrazów - słowo z podstawioną czcionką jest liczone dwa razy (jako słowo rozpoznane oraz jako słowo z podstawioną czcionką).

Wskaźniki PRWC

O wskaźnikach więcej zostało powiedziane w tym artykule. W pewnym sensie, wskaźniki te pokazują jak wiele zawartości jednej pracy znajduje się w drugiej. Reprezentują one w postaci liczb to, co możemy znaleźć w wynikach szczegółowego porównania.

Zasada jest tutaj dość prosta: jeśli wskaźnik ten jest wysoko - oznacza to, że zachodzi duże podejrzenie stosowania zapożyczeń z innych prac.

W tabeli prezentującej listę prac z zapożyczeniami oprócz wskaźnika PRWC znajdują się też wyniki "Liczba identycznych fraz"' oraz "Najdłuższa identyczna fraza". Warto tutaj użyć opcji sortowania po tych kolumnach i przyjrzeć się wynikom.

Uwagi

Nie jest wcale powiedziane, że duża wartość PRWC wskazuje na plagiat, ani nie jest powiedziane, że małe wskaźniki PRWC taki plagiat wykluczają. Może się przecież zdarzyć, że wskaźnik PRWC jest wysoki a praca zawiera fragmenty Konstytucji (a to plagiatem nie jest, o ile praca dotyczy pewnych aspektów prawnych).

Szczegółowe porównania

Widoki szczegółowego porównania oraz ujednoliconego szczegółowego porównania służą jako pomocnicze narzędzie unaocznienia, które fragmenty sprawdzanej pracy są wspólne z innymi dokumentami. W zamyśle mają pomóc promotorowi znaleźć dowody na stosowanie zapożyczeń. Promotor powinien takie fragmenty przejrzeć i przeanalizować czy może być to przypadek, czy świadome działania autora pracy.

Treść pracy

Przykładowy widok treści pracy

Na dole strony szczegółów dokumentu znajduje się przycisk "Treść pracy". Po jego naciśnięciu ukazuje się oryginalna treść dokumentu. Słowa nierozpoznane kolorowane są na żółto (może to wskazywać na stosowanie białych znaków, mikrospacji), natomiast słowa z podstawieniami czcionek - na czerwono. Dodatkowo jest możliwość uwidocznienia samych podejrzanych słów poprzez zaznaczenie "tylko nierozpoznane". Dane tutaj prezentowane są odwzorowaniem tego co zostało ukazane w Tabeli statystyk wyrazów. Należy przejrzeć treść pracy i upewnić się, czy prezentowane przez OSĘ problematyczne słowa faktycznie budzą podejrzenia.

NACZELNA ZASADA

System OSA nie może wyrokować o popełnieniu plagiatu. OSA jest tylko narzędziem, które pomaga taką decyzję podjąć promotorowi/osobie decyzyjnej. Bardzo wiele podejrzeń o plagiat może się okazać cytowaniami, przypadkowymi zbitkami słów, które wystąpiły w innych pracach bądź bardzo popularnymi zwrotami, które występują powszechnie w pracach. Może to być np. wspomniana wcześniej praca na temat interpretacji Konstytucji, w której zostaną znalezione liczne, dopuszczalne zapożyczenia, ale może to też być praca matematyka, w której zapożyczenia będą dotyczyć nowych twierdzeń lub definicji z niecytowanych artykułów naukowych. Komputer takich rzeczy nigdy nie będzie w stanie poprawnie zinterpretować.

Ostateczna decyzja ZAWSZE należy do człowieka. Nie możemy więc doradzać, że np. od PRWC powyżej 45 praca jest plagiatem, gdyż nie da się tego stwierdzić bez ingerencji ludzkiej.

Zobacz też

Linki zewnętrzne