word compo unding

A colleague (non-native speaker of German) was filling out some form and asked for advice about the following:

Bitte ergänzen Sie wenn möglich eine deutsche Voranschrift der letzten 5 Jahre:

Interestingly, Google Translate could not help him, since it produces this in English:

Please fill in if possible, a German font previews over the past 5 years:

Why the „font previews“? This might be due to faulty German word compounding. It seems that Google tries to split German compounds in order to break up the out-of-vocabulary tokens (here: Voranschrift meaning Vor/“previous“ and anschrift/“address“) but messes this up and instead splits into Voran and schrift, which translates into „before“ and „font“. The occurrence of „font“ then probably influences the language model to prefer something with previews since we have the tokens „German“ and „font“ in the translation hypothesis and a „German font preview“ makes some sense in a (trigram) context. 😉 Furthermore, Voran as part of Voransicht means „preview“.

Ah, behold the wonders of statistical machine translation. You never know what ya gonna get!™

Gedung Borong in Penang

Nachdem Singapur eine neue, jedoch nicht allzu spannende Erfahrung war, da das Leben dort doch sehr westlich ausgeprägt ist, verschlug es mich die letzten beiden Tage auf die Insel Penang in Malaysia. Hier wird Nervenkitzel wieder großgeschrieben, da der Standard viel niedriger und das Leben damit umso härter ist.

Nach dem ganzen untertunnelten und auf eisige Temperaturen heruntergekühlten Shopping-Mall-Konzept aus Singapur, wo man im Prinzip überall hinkommt, ohne jemals Sonne zu sehen und um somit der schwülen Hitze draußen zu entgehen, sind die Straßen von Georgetown wie der wilde Osten es verschreibt: endlose Motorrad- und Autokolonnen produzieren bläulich schimmernden Dunst, der den süßlich-vermoderten Geruch der Gosse zu übertünchen versucht, was aber nicht an allen Ecken gelingen mag.

Lektion 1: Wie überquere ich die Straße?

Warten bringt nichts, weil man sonst endlos in der Sonne steht. Irgendwann kippt man dann um, weil einen der Hitzschlag erwischt. Was mehr bringt, ist stetige Bewegung. Man schließt die Augen und setzt einen Schritt vor den anderen. Wie durch ein Wunder kommt man nach wenigen Sekunden auf der anderen Straßenseite an und alle Autos und Mopeds und Busse und LKW umfahren einen, manchmal mit kurzem Huplaut (der soviel bedeutet wie „keine Angst, hab dich gesehen, bleibe aber bloß nicht stehen jetzt, sonst war’s das“). Das ganze funktioniert mit der Zeit auch immer sicherer, so dass ich mittlerweile gar nicht mehr die Augen schließen muss, sondern einfach durch die Fahrzeuge durchlaufe. Matrix und so, ihr wisst schon. Der Puls von anfangs 160 ist mittlerweile auch bei den üblichen 130 gelandet, der dazu nötig ist, den Schweiß aus allen Poren zu treiben, damit der Körper nicht überhitzt und womöglich gerade beim Überqueren der Straße herunterfährt. System shutdown, you are required to restart once you cooled down to 42°C. Thanks for your cooperation!

Lektion 2: Was hat er gesagt?

Auf den Straßen spricht der gemeine Penanginese eine Mischung aus malaiisch, chinesisch und unverständlichem englisch, so dass es oft zu Loops kommt der Art „sorry, what did you say?“ – „gedung borong one hour chi min“ – „sorry, still didn’t get you“ – „penang penang one hour pak ringgits“ – „hm, say what?“ – und so weiter. Irgendwann grinst man einfach nur und sagt ein unsicheres „sorry no thanks bye“ und geht weiter. Oft bekommt man dann einen hochgestreckten Daumen gezeigt, so nach dem Motto „war ja eh nur Spaß“, inklusive zahnlosem Lächeln. Sind schon ganz nett hier die Leute.

Lektion 3: Wonach riecht das hier?

Die Straßen sind in der Regel in blauen Dunst gehüllt. Dann kommt ein Wasserabflusskanal, in dem oftmals undefinierte Flüssigkeiten blubbern, der etwa 40-50cm tief ist. Was da reinfällt, kommt gesund nicht mehr raus. Danach kommt ein in der Regel überdachter und von Mopeds, Waren und sonstigem Krams verstellter „Bürgersteig“. Dieser Parcours hält die Touristen auf Trab, da diese ständig zwischen Straße (und somit praller Sonne) und Bürgersteig (und somit Schatten) wechseln müssen, indem sie den stinkenden Kanal der tausend Krankheiten überspringen. So mancher Tourist wurde nach einem mißlungenen Sprung nie wieder gesehen. Der Einheimische hingegen sitzt entweder im Auto oder auf seinem Motorrad oder bewegt sich gar nicht und döst in seinem Laden oder davor vor sich hin. Ist ja eh viel zu warm, da ist Bewegung Schwerstarbeit. Mysteriöser ist dabei der Eigenduft der Gosse, welcher sich von schimmelig über süßlich-verwesend bis leckerlecker erstrecken kann. So mancher Straßenladen riecht durchaus wunderbar, auch wenn der Anblick der dort zubereiteten Speisen einen etwas anderen Anschein erweckt. Der Schimmelgeruch kommt wahrscheinlich von den zahlreichen verlassenen Gebäuden, die vor sich hinmodern. Die dritte Note gehört in die Kategorie „Akte X“, da sie einfach da ist, ohne Grund, aber nicht immer, sondern nur manchmal, meist aber, wenn man sie gar nicht erwartet. Muss wohl der stinkende Kanal der tausend Krankheiten sein.

Fazit bisher

Ich find’s ganz spannend, ist mal was anderes. Ein bißchen Nervenkitzel gehört halt dazu.

Abalone

Letztens gab es beim ACL Conference Banquet ein 8-Gänge-Menü, wovon ein Gang weiter kommentiert werden muss. Es ging um irgendwas mit einer „tender abalone“, die „double-cooked for over 8 hours“ wahrlich „delicious“ sein sollte. Das ganze war ein braunes ovales Etwas, welches ziemlich fest, jedoch auch durchaus glitschig war. Ich dachte zuerst, das sei ein großer Pilz. Da man hier alles (sogar Suppe!) mit Stäbchen isst, hatte ich erst meine Probleme, den richtigen Halt zu finden. Das Teil wollte einfach nicht. Irgendwann hab ich’s dann gepackt und konnte die Hälfte davon abbeissen. Naja, das schmeckt aber nicht nach Pilz. Das Schlimme mit Sachen, die man zum ersten Mal versucht, ist, dass, auch wenn sie nicht schmecken, man selbst eher skeptisch ist und denkt, hm, seltsam, schmeckt das etwa nicht?, und dann trotzdem nochmal nachprüft, indem man nochmal davon kostet. So ist das bei mir, ich denke mir meist, dass der erste Happen vielleicht an Geschmacksverwirrung litt, give it another squishy try, dude. (note to self: Ich sollte in Zukunft meine Strategien überdenken.)

Hätte ich nämlich auch lassen können, denn der zweite Versuch schmeckte wahrlich noch grauslicher als der erste. Pilzig war das überhaupt nicht, eher seafoodig. Schmeckte wie 12 Stunden in abgestandenem Möwenbadewasser mariniert. Daher auch das „double-boiled 8 hour cooking“, sonst haut es wohl auch den stärksten Verschnupften um. Später am Abend musste ich das dann auflösen. Und das Resultat: es handelt sich um Seeohren, also quasi Meeresnacktschnecken. Burp, was es nicht alles gibt. Yummy, yummy in my tummy… NOT!

Hashima

Wir waren gestern Abend mit ein paar Leuten etwas schicker essen, im My Humble House direkt am Meer und vor atemberaubender Baustellenkulisse. Ein 7-Gänge-Menü, das im Großen und Ganzen überzeugen konnte. Das Dessert war heißes Hashima, welches ich als Birnenkompott mit Glibbermasse interpretierte. Ein chinesischer Kollege, der Teil der Runde war, wurde jedoch beim Lesen der Karte etwas stutzig, da es auch chinesische Beschriftungen der Menüpunkte gab und dieser Hashima-Eintrag das Wort für Frosch enthielt. Das hat er aber erst am Ende, als ich schon fertig war, verlautet. Also mussten wir den Manager herbeirufen, um dem ominösen „Was ist Hashima wirklich?“ nachzugehen. Er erklärte uns dann, dass es sich hierbei um Eileiterfett eines weiblichen chinesischen Waldfrosches handelt, welches im Winter angehäuft und dann ausgeschieden wird (da war auch das chinesische Zeichen für Schnee by the way).

Fazit: wir brauchen diesen Service, der per Handy erst Erkennung der Schriftzeichen macht und diese dann per translation service übersetzt. Dann könnte man sich so manche Überraschung im Ausland sparen.

Zum Geschmack: das Hashima schmeckte nach Birne, weil eine Birnenschnitte drin war. Der Froschglibber schmeckte nach nichts. Aber ein komischer Nachgeschmack blieb dann doch am Ende. Froscheileiterfett, hmmm, lecker… :-/ Hauptsache, es ist gesund. Dies zumindest hat uns der Manager versichert.

Starbucks in Singapur

Treffen zwei Kollegen einen Ex-Kollegen zufällig in einer Shopping Mall in Singapur. Da in der Nähe ein Starbucks ist, beschließt man, sich dort niederzulassen und ein wenig zu quatschen.

Mir ist dabei eine Liste von Eigenschaften des gemeinen Singapureinwohners aufgefallen:

  • er hat in der Regel ein schickes iPhone, auf dem er laute Videos abspielen kann
  • er ist romantisch: per Mini-DVD-Player schaut er gerne mit seiner Freundin Arm in Arm einen Film, wobei er sich weit nach vorne beugen muss, um überhaupt was zu sehen, da das Bild zu klein ist. Der Kopfhörer wird dabei zweigeteilt, einen Stöpsel hängt bei ihm im Ohr, der andere bei seiner Freundin. Ein Filmerlebniss dieser Art muss großartig sein
  • er ist gemütlich: einen Kaffee im Schlepptau, wird erstmal in aller Ruhe der dicke Laptop ausgepackt, das Netzteilkabel auf die richtige Länge gewickelt, damit es in die Steckdose passt ohne Kabelverschnitt, die blinkende Funkmaus aktiviert, ein USB-Stick eingesteckt, der Kaffee gezuckert, Windows hochgefahren und dann gesurft, was das Zeug hält
  • er ist Fotoliebhaber: stundenlang schaut er sich mit Freundinnen Fotos in 1001 Pose an
  • er ist Videonarr: auch stundenlang kann er sich mit Freunden YouTube-Videos reinziehen

Und das alles in der privaten Atmosphäre eines überlaufenen Starbucks. Irgendwie skurril.

Semantic Information Mashup

Normalerweise halte ich ja nicht viel von Semantic Web und dergleichen. Hier aber eine interessante Seite, die das „deep web“ crawlt und Suchergebnisse aus z.B. Dokumenten extrahiert und diese in einer Art Zusammenfassung darstellt. Fand ich gar nicht mal so schlecht für den Anfang. Der Service heißt sig.ma und wurde vom Digital Enterprise Research Institute entwickelt. Zum Test hatte ich mal nach statistical machine translation gesucht. Die Antwort ist ein copy-paste aus diversen Papern, was sich aber gar nicht so schlecht liest. Das ganze ist momentan noch etwas langsam und teilweise ein wenig redundant. Aber es scheint sich was zu tun auf Semantikebene. Bing hatte ja auch schon Schlagzeilen gemacht, dass es z.B. Sportergebnisse schön zusammenfassen kann, ohne dass man die ganzen Sportportale abklappern muss, um an diese Informationen zu gelangen. Es tut sich also was. Ich glaube zwar nicht, dass Google gefährdet ist, aber wenn diese Technologie wirklich mal klappt und schneller wird, dann ist zumindest die absolute Vormachtstellung endlich wieder in Frage gestellt. Und ich dachte schon, Google wird eines Tages die Welt beherrschen. Puh, da haben wir alle nochmal Glück gehabt. 😉