Latex: Różnice pomiędzy wersjami

Z Otwarty System Antyplagiatowy
Skocz do: nawigacja, szukaj
(LaTeX a OSA)
 
(Nie pokazano 16 wersji utworzonych przez 2 użytkowników)
Linia 1: Linia 1:
'''Latex''' - jest oprogramowaniem służącym automatycznemu składaniu tekstu. Jest on szczególnie przydatny do składu tekstów z obszaru nauk ścisłych, technicznych i przyrodniczych. Studenci wielu szkół wyższych wykorzystują go do pisania prac dyplomowych.  
+
'''LaTeX''' - jest językiem znaczników służącym do formatowania dokumentów tekstowo-graficznych. Tym samym mianem określa się też związane z tym językiem oprogramowanie. Zarówno język, jak  i oprogramowanie są szczególnie przydatne do składu tekstów z obszarów nauk ścisłych, technicznych oraz przyrodniczych. Studenci wielu szkół wyższych wykorzystują je do pisania prac dyplomowych. Warto pamiętać, że LaTeX jest zestawem makr będących nadbudową systemu składu TEX i nie jest samodzielnym środowiskiem programistycznym.
  
=== Cel utworzenia tego artykułu ===
+
=== Problem kodowania ===
Sporadycznie OSA ma problemy z wyciągnięciem treści z pliku PDF pracy dyplomowej złożonej w oprogramowaniu  Spowodowane jest to faktem, że sam Latex nie posiada jakiegoś standardu/wytycznych pisania prac dyplomowych. Powoduje to, że każdy może tworzyć taki dokument konfigurując środowisko Latexa w dowolny sposób. Takich konfiguracji jest bardzo wiele i niestety niektóre z nich powodują nieprawidłowe kodowanie polskich znaków (ogonków).  
+
Pliki języka LaTeX są de facto kodami źródłowymi właściwego dokumentu, którego uzyskanie wymaga kompilacji. Za jej sprawą otrzymuje się plik wynikowy w formacie DVI (ang. device independent), specyficznym dla systemu TEX.
 +
Plik DVI można następnie przetworzyć na jeden z popularnych formatów, takich jak PostScript, HTML lub PDF.
 +
W odniesieniu do prac dyplomowych otrzymanych z kodów źródłowych języka LaTeX powszechnie stosuje się format PDF. Sporadycznie pojawiają się jednak problemy z wyciągnięciem tekstu z takich plików. Spowodowane jest to tym, że każdy użytkownik może skonfigurować środowisko LaTeX w niemal dowolny sposób. Niektóre konfiguracje powodują błędne kodowanie pewnych grup znaków, a zwłaszcza liter z polskimi znakami diakrytycznymi.  
  
Dokument z nieprawidłowym kodowaniem polskich znaków jest dla osoby czytającej - całkowicie prawidłowy. Niestety próba choćby skopiowania tekstu (copy-paste) uwidacznia prawdziwą naturę dokumentu gdzie polskie litery okazują się nieczytelne i wymagają ręcznego naprawiania takiej treści.
+
Dokument PDF z nieprawidłowym kodowaniem znaków - w podglądzie na ekranie - ma często formę graficzną nie budzącą podejrzeń czytającego. Problem pojawia się przy kopiowaniu zaznaczonych fragmentów tekstu (copy-paste) do innych plików - część znaków okazuje się nieczytelna i wymaga ręcznej korekty. Ekstremalnym przykładem jest tu dokument http://sprout.dfki.de/documentations/api/Tokenization_in_Sprout.pdf. Próba skorzystania z copy-paste jest w zasadzie niemożliwa. Jest to dowód na to, że choć dokument wygląda poprawnie - sam sposób składu tekstu może być odmiennie inny niż się tego spodziewamy.
  
=== Korzytsanie z Latexa w OSA ===
+
=== LaTeX a OSA ===
OSA najczęściej pojawiające się błędne kodowania tekstów stara się naprawiać podczas parsowania tekstu z pliku PDF. Niestety mnogość możliwości złego zakodowania tekstu w Latex jest tak wielka, że nie możemy rozbudowywać naszego modułu o wszystkie przypadki gdyż spowodowałoby to wydłużenie czasu analizy dokumentu (dokonywanie kolejnych prób naprawienia tekstu w przypadku niepowodzenia poprzedniej próby).  
+
OSA przy wczytywaniu plików zakłada system kodowania UTF-8 (zob. https://pl.wikipedia.org/wiki/UTF-8) i  automatycznie poprawia najczęściej pojawiające się błędne znaki spoza tego systemu. Nie zapewnia jednak korekty wszystkich błędów tego rodzaju, zwłaszcza w odniesieniu do plików PDF, których źródłem jest LaTeX. Sposobów skonfigurowania środowiska Latexa jest po prostu zbyt duża żeby udało się odwzorować wszystkie możliwości.
  
Z tego powodu może się zdarzyć, że na niektórych uczelniach z powodu:
+
=== Zapobieganie błędom kodowania ===
* nieprawidłowego zaprojektowania ogólnouczelnianego template'u pisania prac dyplomowych w latex
+
Zachęcamy uczelnie do stosowania odpowiednio zdefiniowanych szablonów (prologu, klasy, preambuły), które zapewniają poprawne kodowanie i ułatwiają studentom przygotowanie prac dyplomowych w LaTeX'u. Rekomendujemy też upowszechnienie internetowego edytora ShareLaTeX, https://www.sharelatex.com.  
* braku takowego template'u, a co za tym idzie dopuszczenie dowolności konfiguracji tworzenia swojej pracy
+
Przykładowy - przetestowany w ShareLaTeX - szablon zamieszczamy na  
 
+
prace w OSA będą posiadały nieprawidłowe treści. Będzie to skutkowało brakiem wyników porównania owej pracy z innymi dokumentami/Internetem oraz zaburzonymi statystykami pracy co do np. liczby słów rozpoznanych.
+
 
+
=== Zapobieganie ===
+
Jako zespół OSA chcielibyśmy nakłonić uczelnie o wypracowanie standardowych, dobrze zdefiniowanych szablonów z których będą korzystali studenci piszący pracę w Latex. Spowoduje to, że styl prac będzie taki sam, będzie spójny i pozbawiony błędnych konfiguracji (które łatwo popełnić nie będąc zaawansowanym w obsłudze Latexa).  
+
 
+
Przykładowy szablon obowiązujący na jednej z uczelni wygląda np. tak:
+
 
* [https://drive.google.com/drive/folders/1qwPlEQD3xl7t5kmew1KKBbXaiDm6oJW2?usp=sharing Template]
 
* [https://drive.google.com/drive/folders/1qwPlEQD3xl7t5kmew1KKBbXaiDm6oJW2?usp=sharing Template]
* [https://www.sharelatex.com/read/hqgcxdjhwhtz Wersja ONLINE]
+
* [https://www.sharelatex.com/read/hqgcxdjhwhtz Wersja ONLINE].
  
Stosowanie się do tych zaleceń spowoduje, że OSA nie będzie miała problemu z wyciągnięciem tekstu z takiej pracy - ale również dla samego czytelnika łatwiejsze w używaniu (kopiowanie tekstu z takiego dokumentu nie będzie powodowało problemów przy wklejaniu tekstu).
+
Stosowanie się do tych zaleceń spowoduje, że trafiające do OSA pliki PDF, których źródłem jest LaTeX, będą wolne od błędów kodowania.  
  
 
[[Category:Dokumentacja użytkownika]]
 
[[Category:Dokumentacja użytkownika]]

Aktualna wersja na dzień 17:21, 6 cze 2018

LaTeX - jest językiem znaczników służącym do formatowania dokumentów tekstowo-graficznych. Tym samym mianem określa się też związane z tym językiem oprogramowanie. Zarówno język, jak i oprogramowanie są szczególnie przydatne do składu tekstów z obszarów nauk ścisłych, technicznych oraz przyrodniczych. Studenci wielu szkół wyższych wykorzystują je do pisania prac dyplomowych. Warto pamiętać, że LaTeX jest zestawem makr będących nadbudową systemu składu TEX i nie jest samodzielnym środowiskiem programistycznym.

Problem kodowania

Pliki języka LaTeX są de facto kodami źródłowymi właściwego dokumentu, którego uzyskanie wymaga kompilacji. Za jej sprawą otrzymuje się plik wynikowy w formacie DVI (ang. device independent), specyficznym dla systemu TEX. Plik DVI można następnie przetworzyć na jeden z popularnych formatów, takich jak PostScript, HTML lub PDF. W odniesieniu do prac dyplomowych otrzymanych z kodów źródłowych języka LaTeX powszechnie stosuje się format PDF. Sporadycznie pojawiają się jednak problemy z wyciągnięciem tekstu z takich plików. Spowodowane jest to tym, że każdy użytkownik może skonfigurować środowisko LaTeX w niemal dowolny sposób. Niektóre konfiguracje powodują błędne kodowanie pewnych grup znaków, a zwłaszcza liter z polskimi znakami diakrytycznymi.

Dokument PDF z nieprawidłowym kodowaniem znaków - w podglądzie na ekranie - ma często formę graficzną nie budzącą podejrzeń czytającego. Problem pojawia się przy kopiowaniu zaznaczonych fragmentów tekstu (copy-paste) do innych plików - część znaków okazuje się nieczytelna i wymaga ręcznej korekty. Ekstremalnym przykładem jest tu dokument http://sprout.dfki.de/documentations/api/Tokenization_in_Sprout.pdf. Próba skorzystania z copy-paste jest w zasadzie niemożliwa. Jest to dowód na to, że choć dokument wygląda poprawnie - sam sposób składu tekstu może być odmiennie inny niż się tego spodziewamy.

LaTeX a OSA

OSA przy wczytywaniu plików zakłada system kodowania UTF-8 (zob. https://pl.wikipedia.org/wiki/UTF-8) i automatycznie poprawia najczęściej pojawiające się błędne znaki spoza tego systemu. Nie zapewnia jednak korekty wszystkich błędów tego rodzaju, zwłaszcza w odniesieniu do plików PDF, których źródłem jest LaTeX. Sposobów skonfigurowania środowiska Latexa jest po prostu zbyt duża żeby udało się odwzorować wszystkie możliwości.

Zapobieganie błędom kodowania

Zachęcamy uczelnie do stosowania odpowiednio zdefiniowanych szablonów (prologu, klasy, preambuły), które zapewniają poprawne kodowanie i ułatwiają studentom przygotowanie prac dyplomowych w LaTeX'u. Rekomendujemy też upowszechnienie internetowego edytora ShareLaTeX, https://www.sharelatex.com. Przykładowy - przetestowany w ShareLaTeX - szablon zamieszczamy na

Stosowanie się do tych zaleceń spowoduje, że trafiające do OSA pliki PDF, których źródłem jest LaTeX, będą wolne od błędów kodowania.