Opis algorytmów: Różnice pomiędzy wersjami
Z Otwarty System Antyplagiatowy
Linia 5: | Linia 5: | ||
Poniżej zamieszczamy przegląd znanych i opisanych w literaturze naukowej algorytmów antyplagiatowych wraz z wyróżnieniem ich najmocniejszych i najsłabszych cech. | Poniżej zamieszczamy przegląd znanych i opisanych w literaturze naukowej algorytmów antyplagiatowych wraz z wyróżnieniem ich najmocniejszych i najsłabszych cech. | ||
− | == Porównywanie czystych tekstów i wyszukiwanie wspólnych części == | + | == Porównywanie czystych tekstów i wyszukiwanie wspólnych części (String matching) == |
Najpopularniejszy i najstarszy algorytm używany przez większość firm antyplagiatowych na świecie. | Najpopularniejszy i najstarszy algorytm używany przez większość firm antyplagiatowych na świecie. | ||
Linia 15: | Linia 15: | ||
* Złożoność kwadratowa przy analizie całej bazy | * Złożoność kwadratowa przy analizie całej bazy | ||
* Konieczność iteracji po wszystkich elementach | * Konieczność iteracji po wszystkich elementach | ||
+ | |||
+ | == Model wektorowy (Vector Space Model) == | ||
+ | |||
+ | * Wymaga przygotowania bazy | ||
+ | * Krótszy czas porównania dokumentów | ||
+ | * Możliwość zastosowania różnych miar i metryk podobieństwa | ||
+ | * Złożoność liniowa / kwadratowa | ||
+ | * Nie korzysta z oryginałów | ||
+ | * Konieczność sprawdzenia kandydatów na koniec innym algorytmem | ||
+ | * Wymaga przechowywania nadmiarowych danych | ||
+ | |||
+ | == Odciski palców (Fingerprinting) == | ||
+ | |||
+ | * Wymaga przetworzenia bazy | ||
+ | * Porównywanie nie pracuje na oryginałach | ||
+ | * Najszybsze w działaniu | ||
+ | * Długa faza przygotowania | ||
+ | * Możliwość zastosowania w bardzo dużych zbiorach | ||
+ | * Możliwość zbudowania wydajnego indeksu (złożoność logarytmiczna lub stała względem bazy) | ||
+ | * Konieczność przechowywania nadmiarowych danych | ||
+ | |||
+ | == Semantic comparison == | ||
+ | == Citation analysis == | ||
+ | == Machine Learning == | ||
+ | == Stylometry == |
Wersja z 11:25, 30 cze 2015
System OSA jest tworzony przez polskich naukowców i doświadczonych programistów/administratorów. Używamy nowoczesnego autorskiego algorytmu będącego wynikiem połączenia kilku metod antyplagiatowych i wzięcia z nich to co najlepsze. Jako jedyni chwalimy się naszymi metodami w świecie naukowym na konferencjach jak i w artykułach naukowych co czyni je pewnymi i sprawdzonymi przez grono polskich i światowych specjalistów.
Spis treści
[ukryj]Przegląd znanych metod i algorytmów
Poniżej zamieszczamy przegląd znanych i opisanych w literaturze naukowej algorytmów antyplagiatowych wraz z wyróżnieniem ich najmocniejszych i najsłabszych cech.
Porównywanie czystych tekstów i wyszukiwanie wspólnych części (String matching)
Najpopularniejszy i najstarszy algorytm używany przez większość firm antyplagiatowych na świecie.
- Wymaga dostępu do treści wszystkich prac w oryginale
- Wyszukuje wspólne podciągi słów / znaków
- Bardzo powolne
- Złożoność liniowa przy wyszukiwaniu
- Złożoność kwadratowa przy analizie całej bazy
- Konieczność iteracji po wszystkich elementach
Model wektorowy (Vector Space Model)
- Wymaga przygotowania bazy
- Krótszy czas porównania dokumentów
- Możliwość zastosowania różnych miar i metryk podobieństwa
- Złożoność liniowa / kwadratowa
- Nie korzysta z oryginałów
- Konieczność sprawdzenia kandydatów na koniec innym algorytmem
- Wymaga przechowywania nadmiarowych danych
Odciski palców (Fingerprinting)
- Wymaga przetworzenia bazy
- Porównywanie nie pracuje na oryginałach
- Najszybsze w działaniu
- Długa faza przygotowania
- Możliwość zastosowania w bardzo dużych zbiorach
- Możliwość zbudowania wydajnego indeksu (złożoność logarytmiczna lub stała względem bazy)
- Konieczność przechowywania nadmiarowych danych