Opis algorytmów: Różnice pomiędzy wersjami

Z Otwarty System Antyplagiatowy
Skocz do: nawigacja, szukaj
Linia 5: Linia 5:
 
Poniżej zamieszczamy przegląd znanych i opisanych w literaturze naukowej algorytmów antyplagiatowych wraz z wyróżnieniem ich najmocniejszych i najsłabszych cech.
 
Poniżej zamieszczamy przegląd znanych i opisanych w literaturze naukowej algorytmów antyplagiatowych wraz z wyróżnieniem ich najmocniejszych i najsłabszych cech.
  
== Porównywanie czystych tekstów i wyszukiwanie wspólnych części ==
+
== Porównywanie czystych tekstów i wyszukiwanie wspólnych części (String matching) ==
  
 
Najpopularniejszy i najstarszy algorytm używany przez większość firm antyplagiatowych na świecie.
 
Najpopularniejszy i najstarszy algorytm używany przez większość firm antyplagiatowych na świecie.
Linia 15: Linia 15:
 
* Złożoność kwadratowa przy analizie całej bazy
 
* Złożoność kwadratowa przy analizie całej bazy
 
* Konieczność iteracji po wszystkich elementach
 
* Konieczność iteracji po wszystkich elementach
 +
 +
== Model wektorowy (Vector Space Model) ==
 +
 +
* Wymaga przygotowania bazy
 +
* Krótszy czas porównania dokumentów
 +
* Możliwość zastosowania różnych miar i metryk podobieństwa
 +
* Złożoność liniowa / kwadratowa
 +
* Nie korzysta z oryginałów
 +
* Konieczność sprawdzenia kandydatów na koniec innym algorytmem
 +
* Wymaga przechowywania nadmiarowych danych
 +
 +
== Odciski palców (Fingerprinting) ==
 +
 +
* Wymaga przetworzenia bazy
 +
* Porównywanie nie pracuje na oryginałach
 +
* Najszybsze w działaniu
 +
* Długa faza przygotowania
 +
* Możliwość zastosowania w bardzo dużych zbiorach
 +
* Możliwość zbudowania wydajnego indeksu (złożoność logarytmiczna lub stała względem bazy)
 +
* Konieczność przechowywania nadmiarowych danych
 +
 +
== Semantic comparison ==
 +
== Citation analysis ==
 +
== Machine Learning ==
 +
== Stylometry ==

Wersja z 10:25, 30 cze 2015

System OSA jest tworzony przez polskich naukowców i doświadczonych programistów/administratorów. Używamy nowoczesnego autorskiego algorytmu będącego wynikiem połączenia kilku metod antyplagiatowych i wzięcia z nich to co najlepsze. Jako jedyni chwalimy się naszymi metodami w świecie naukowym na konferencjach jak i w artykułach naukowych co czyni je pewnymi i sprawdzonymi przez grono polskich i światowych specjalistów.

Przegląd znanych metod i algorytmów

Poniżej zamieszczamy przegląd znanych i opisanych w literaturze naukowej algorytmów antyplagiatowych wraz z wyróżnieniem ich najmocniejszych i najsłabszych cech.

Porównywanie czystych tekstów i wyszukiwanie wspólnych części (String matching)

Najpopularniejszy i najstarszy algorytm używany przez większość firm antyplagiatowych na świecie.

  • Wymaga dostępu do treści wszystkich prac w oryginale
  • Wyszukuje wspólne podciągi słów / znaków
  • Bardzo powolne
  • Złożoność liniowa przy wyszukiwaniu
  • Złożoność kwadratowa przy analizie całej bazy
  • Konieczność iteracji po wszystkich elementach

Model wektorowy (Vector Space Model)

  • Wymaga przygotowania bazy
  • Krótszy czas porównania dokumentów
  • Możliwość zastosowania różnych miar i metryk podobieństwa
  • Złożoność liniowa / kwadratowa
  • Nie korzysta z oryginałów
  • Konieczność sprawdzenia kandydatów na koniec innym algorytmem
  • Wymaga przechowywania nadmiarowych danych

Odciski palców (Fingerprinting)

  • Wymaga przetworzenia bazy
  • Porównywanie nie pracuje na oryginałach
  • Najszybsze w działaniu
  • Długa faza przygotowania
  • Możliwość zastosowania w bardzo dużych zbiorach
  • Możliwość zbudowania wydajnego indeksu (złożoność logarytmiczna lub stała względem bazy)
  • Konieczność przechowywania nadmiarowych danych

Semantic comparison

Citation analysis

Machine Learning

Stylometry