Opis algorytmów: Różnice pomiędzy wersjami

Z Otwarty System Antyplagiatowy
Skocz do: nawigacja, szukaj
Linia 36: Linia 36:
 
* Konieczność przechowywania nadmiarowych danych
 
* Konieczność przechowywania nadmiarowych danych
  
== Semantic comparison ==
+
== Analiza języka naturalnego (Semantic comparison) ==
== Citation analysis ==
+
 
== Machine Learning ==
+
* Rozpoznawanie tekstów podobnych, o tym samym znaczeniu, parafraza
== Stylometry ==
+
* Bardzo dokładne
 +
* Starają się zrozumieć tekst analogicznie do człowieka
 +
* Bardzo duża złożoność obliczeniowa, działanie "w sąsiedztwie"
 +
 
 +
== Analiza cytowań (Citation analysis) ==
 +
 
 +
* Wymagana jest solidnie zrobiona bibliografia wraz z odnośnikami
 +
* Stosowana głównie w pracach naukowych
 +
* Bardzo szybka metoda
 +
* Łatwo oszukać manipulując bibliografią i cytowaniami
 +
* Można użyć jako dodatkowego algorytmu preselekcji
 +
 
 +
== Uczenie maszynowe (Machine Learning) ==
 +
 
 +
* Wymagany bardzo dobry zbiór uczący
 +
* Duża złożoność obliczeniowa
 +
* Naśladują człowieka (sieci neuronowe)
 +
* Możliwość wykrywania dokumentów podobnych
 +
 
 +
== Stylometria (Stylometry) ==
 +
 
 +
* Możliwość wyszukiwania osób piszących prace dyplomowe na zlecenie (analiza całej bazy)
 +
* Można ocenić czy praca jest danego studenta na podstawie innych jego tekstów
 +
* Analiza "gorących słów"
 +
* Używana w historii (wiek tekstu, autorstwo tekstu)
 +
* Można oszukać poprzez wcześniejsze użycie programu stylometrycznego, częste błędy użytkownika są poprawiane przez automaty

Wersja z 11:28, 30 cze 2015

System OSA jest tworzony przez polskich naukowców i doświadczonych programistów/administratorów. Używamy nowoczesnego autorskiego algorytmu będącego wynikiem połączenia kilku metod antyplagiatowych i wzięcia z nich to co najlepsze. Jako jedyni chwalimy się naszymi metodami w świecie naukowym na konferencjach jak i w artykułach naukowych co czyni je pewnymi i sprawdzonymi przez grono polskich i światowych specjalistów.

Przegląd znanych metod i algorytmów

Poniżej zamieszczamy przegląd znanych i opisanych w literaturze naukowej algorytmów antyplagiatowych wraz z wyróżnieniem ich najmocniejszych i najsłabszych cech.

Porównywanie czystych tekstów i wyszukiwanie wspólnych części (String matching)

Najpopularniejszy i najstarszy algorytm używany przez większość firm antyplagiatowych na świecie.

  • Wymaga dostępu do treści wszystkich prac w oryginale
  • Wyszukuje wspólne podciągi słów / znaków
  • Bardzo powolne
  • Złożoność liniowa przy wyszukiwaniu
  • Złożoność kwadratowa przy analizie całej bazy
  • Konieczność iteracji po wszystkich elementach

Model wektorowy (Vector Space Model)

  • Wymaga przygotowania bazy
  • Krótszy czas porównania dokumentów
  • Możliwość zastosowania różnych miar i metryk podobieństwa
  • Złożoność liniowa / kwadratowa
  • Nie korzysta z oryginałów
  • Konieczność sprawdzenia kandydatów na koniec innym algorytmem
  • Wymaga przechowywania nadmiarowych danych

Odciski palców (Fingerprinting)

  • Wymaga przetworzenia bazy
  • Porównywanie nie pracuje na oryginałach
  • Najszybsze w działaniu
  • Długa faza przygotowania
  • Możliwość zastosowania w bardzo dużych zbiorach
  • Możliwość zbudowania wydajnego indeksu (złożoność logarytmiczna lub stała względem bazy)
  • Konieczność przechowywania nadmiarowych danych

Analiza języka naturalnego (Semantic comparison)

  • Rozpoznawanie tekstów podobnych, o tym samym znaczeniu, parafraza
  • Bardzo dokładne
  • Starają się zrozumieć tekst analogicznie do człowieka
  • Bardzo duża złożoność obliczeniowa, działanie "w sąsiedztwie"

Analiza cytowań (Citation analysis)

  • Wymagana jest solidnie zrobiona bibliografia wraz z odnośnikami
  • Stosowana głównie w pracach naukowych
  • Bardzo szybka metoda
  • Łatwo oszukać manipulując bibliografią i cytowaniami
  • Można użyć jako dodatkowego algorytmu preselekcji

Uczenie maszynowe (Machine Learning)

  • Wymagany bardzo dobry zbiór uczący
  • Duża złożoność obliczeniowa
  • Naśladują człowieka (sieci neuronowe)
  • Możliwość wykrywania dokumentów podobnych

Stylometria (Stylometry)

  • Możliwość wyszukiwania osób piszących prace dyplomowe na zlecenie (analiza całej bazy)
  • Można ocenić czy praca jest danego studenta na podstawie innych jego tekstów
  • Analiza "gorących słów"
  • Używana w historii (wiek tekstu, autorstwo tekstu)
  • Można oszukać poprzez wcześniejsze użycie programu stylometrycznego, częste błędy użytkownika są poprawiane przez automaty