Cookies   I display ads to cover the expenses. See the privacy policy for more information. You can keep or reject the ads.

Video thumbnail
Twitter is ontworpen om 140 karakters te ondersteunen. En in het Engelse alfabet, is dat makkelijk
te begrijpen: een karakter is een letter, cijfer, spatie of leesteken. Mensen zijn het
hier min of meer met computers eens. En als het twintig jaar geleden was, was
dit precies hoe het systeem zou werken. Tot zo ver, niet verder.
Maar tegenwoordig is er Unicode.
Bedenk wel, dat het in sommige talen nog steeds vrij simpel is. Oost-Aziatische talen,
bijvoorbeeld - Chinees, Japans, Koreaans -- "één karakter" is een symbool, een cijfer, een spatie,
of een leesteken. Maar omdat de taal vrij opeengepakt is -- elk van deze tekens
heeft meer informatie in zich dan een Engels teken -- past er bijna twee keer zo veel informatie
in elke tweet.
En dan, wordt het ingewikkeld.
Neem Arabisch, als voorbeeld. Wat telt er als een Arabische letter? Ten eerste,
verandert de vorm van een Arabische letter aanzienlijk afhankelijk van waar deze geplaatst is in een woord. Let op wat
er gebeurd als ik het woord voor "Arabisch alfabet" neem, en op backspace druk. vergeet niet dat Arabisch van rechts naar
links is. De tekens veranderen om te passen bij de regels voor de
geschreven taal, en de diakritische tekens verdwijnen naast de letters waar zij bij staan
In Vietnamees, aan de andere kant? Elk van deze telt als één karakter.
Backspace, en ze gaan zo weg.
Op dit punt gooien de meeste Britse programmeurs, inclusief mijzelf, hun handen in paniek in de lucht
en gebruiken maar de bestaande code van een of andere gulle ziel die het probleem zelf al heeft opgelost.
Of als ze lui zijn, zeggen ze gewoon, nou, niemand die geen Engels spreekt gaat dit gebruiken,
dus hoeven we er ons niet druk om te maken.
(fluistert) Ja dus wel.
Unicode heeft voor bepaalde Engelse koppelletters één teken, zoals voor "ffi" - let op hoe
de letters in "official" hier samengeperst zijn om er beter uit te zien voor het oog. Sommige programma's
zetten deze er automatisch voor je in. Dus als je je tekst van daar naar Twitter
kopieert, zal je zien dat je opeens tekens bespaart.
Mensen zouden dat als drie tekens tellen. Unicode, en zo ook Twitter,
en vrijwel bijna elk ander computer programma? Die tellen het maar als één. Het beste voorbeeld dat ik hiervan kon vinden is
het Arabisch voor "moge Allah hem zegenen en hem vrede". Unicode heeft een enkel teken voor dit, en Twitter
zal dit dan ook tellen als maar één van je 140 karakters. Dit is handig, als je een
gelovige Moslim bent en wil praten over de profeten op Twitter.
Dus. Wat telt als een karakter? Nou, het is ingewikkeld. Computers zien dingen anders
dan mensen. En laten we eerlijk zijn: tenzij je een docent hebt die zijn werkstukken op
een karakterlimiet zet in plaats van een woordlimiet, is de enige situatie waarin het voor de meeste mensen echt zal uitmaken...
is wanneer ze een tweet proberen te sturen.
[Vertaling door Martijn Timmerman]