Programowanie w systemie UNIX/Kodowanie: Różnice pomiędzy wersjami

Usunięta treść Dodana treść
m →‎Więcej: http://petiteprogrammer.com/
Zbędne spacje, spolszczenie tabeli
Linia 2:
=Kodowanie=
==Dekodery ==
* znaków ( ang. char)
**Character Encoder / Decoder <ref>[http://www.string-functions.com/encodedecode.aspx Character Encoder / Decoder]</ref>
** Online Character Map <ref>[http://charmap.online-toolz.com/tools/character-map.php Online Character Map ]</ref>
Linia 18:
 
==Typowe problemy ==
* kopiowanie i wklejanie powoduje że, [[C/Używanie_kompilatora#Inne_b.C5.82.C4.99dy | zamiast oczekiwanego znaku otrzymujemy inny]] ( zamiast minusa ... ) .
 
=Znaki=
[[Plik:UnicodeGrow2b.png|mały|prawo|Najczęściej używane standardy kodowanie występujące w sieci]]
 
Znaki z punktu widzenia programisty dzielimy na :
* drukowalne
* niedrukowalne
 
Podział wg znaczenia : <ref>[http://unicodebook.readthedocs.org/en/latest/unicode.html znaki unicode ]</ref>
* litery ( ang. letter) (91.8%), podkategorie : duże (uppercase = Lu) , małe ( ang. lowercase = Ll), tytułowe ( titlecase = Lt), zmodyfikowane ( modifier = Lm)
* symbole ( ang. symbol) : (5.0%), podkategoria : matematyczne ( Symbol, math = Sm), zmodyfikowane ( modifier = Sk), walutowe ( currency = Sc)
* znaki ( Mark) : (1.4%)
* cyfry (Number): 1,100 (1.0%)
* Punctuation: 598 (0.5%)
Linia 46:
===Podobne znaki ===
* ascii '-' ( Hyphen, dash, minus )
* UTF-8 characters :
** kod = U+2212 ( MINUS SIGN )
** kod = U+002D ( HYPHEN-MINUS )
Linia 74:
 
 
Wyświetlanie znaków niedrukowalnych<ref>[http://www.commandlinefu.com/commands/view/11486/bash-function-to-highlight-non-printing-characters-tab-newline-bom-nbsp bash function to highlight non-printing characters: tab, newline, BOM, nbsp]</ref> ( nazwa pliku przykładowa) :
 
 
Linia 99:
file * | grep UTF
 
albo znaleźć i usunąć BOM :
find . -type f -exec sed '1s/^\xEF\xBB\xBF//' -i.bak {} \; -exec rm {}.bak \;
Linia 145:
{| class="wikitable"
|-
! Kodowanie
! Encoding
! RepresentationReprezentacja ([[W:Szesnastkowy system liczbowy|hexadecimal]])
! RepresentationReprezentacja ([[W:Dziesiętny system liczbowy|decimal]])
! Bajty jako znaki CP1252
! Bytes as CP1252 characters
|-
| [[UTF-8]]
Linia 193:
| <code>0E FE FF</code>
| <code>14 254 255</code>
| <code>␎þÿ</code> (␎ represents the ASCII [[W:en:Shift Out and Shift In characters|"shift out"]] character)
|-
| [[BOCU-1]]
Linia 210:
<!-- Unicode Byte-Order-Marker (BOM), which is useless in UTF-8 encoding, but some editors might insert it anyway.-->
 
Można go usunąć za pomocą :<ref>[http://thegreyblog.blogspot.com/2010/09/shell-script-to-find-and-remove-bom.html A Shell Script to Find and Remove the BOM Marker by Enrico M. Crisostomo]</ref>
 
sed '1 s/\xEF\xBB\xBF//' < input > output
 
Dodać :
 
printf("\xef\xbb\xbf");
Linia 221:
Plik tekstowy<ref>[[w:Plik tekstowy|Plik tekstowy]]</ref> składa się z linii<ref>[[w:en:Line (text file)| linia w ang. wikipedii]]</ref> i kończy się znakiem końca pliku ( EOF )<ref>[[w:EOF|EOF w wikipedii ]]</ref>.
 
Linia jest to ciąg znaków<ref>[[w:Znakowy typ danych|znakowy typ danych w wikipedii]]</ref> ( drukowalnych<ref>[[w:znaki drukowalne| znaki drukowalne w wikipedii]]</ref> i niedukowalnych<ref>[[w:znaki niedrukowalne| znaki niedrukowalne w wikipedii]]</ref>) zakończony znakiem końca linii<ref>[[w:Koniec linii | Koniec linii w wikipedii ]]</ref>
 
Linię możemy podzielić na wyrazy rozdzielone spacjami<ref>[[w:spacja|spacja]]</ref>
Linia 227:
 
==typy plików tekstowych==
* zwykły texttekst ( rozszerzenie txt )
** plik z kodem w [[Programowanie_w_systemie_UNIX/C|C]] ( ASCII text )
* [[R_(język_programowania)#CSV|csv]]
* ical
Linia 236:
===csv===
 
Przykładowy csv<ref>[http://manas.tungare.name/software/csv-to-ical/ CSV to iCal Calendar Convertor by Manas Tungare]</ref> , który może być zaimportowany do kalendarza :
<pre>
Subject,Start Date,Start Time,End Date,End Time,All Day,Description
Linia 265:
</pre>
 
biblioteki :
* libical <ref>[http://libical.github.io/libical/ libical library]</ref>
* gcalcli <ref>[https://github.com/insanum/gcalcli gcalcli library]</ref>