
Ez a bejárat.

Az első emeleten van a szobám, ezen az ujjlenyomat olvasóval védett ajtón kell minden reggel bemennem. Nekem mondjuk csak egy 6 jegyű kódot kell bepötyögni, biometrikus azonosítás csak az állandó alkalmazottaknak jár.

Ennél az iróasztalnál tengettem napjaimat az első héten, azóta egy másik szobába költöztem néhány helyi gyakornok közé. Lényegében ugyanezt tudja a szoba, szóval nem fotóztam le. Napközben tanulmányokat olvasok és Java-ban programozgatok. Meg persze innen irok a blogomra is, illetve néha a korán kelőkkel msn-en beszélek. Mivel az itteni ösztöndijam nevetségesen kevés, ezért nem nagyon nézik, hogy mit csinálok, amig bizonyos rendszerességgel beszámolok az elvégzett munkáról.

Minden szinten van egy kis konyha. Itt a dolgozók teát, vizet és kávét vehetnek magukhoz. A legfelső szinten bár, konyha, csocsó asztal, darts, kondi terem és fotelek vannak, hogy rekreálják a fáradt kutatókat.

Az épület az NUS, azaz a Szingapúri Állami Egyetem területén van, bár a két intézetnek ezen kívül semmi köze egymáshoz. A kampuszon (van erre magyar szó?) ilyen buszok szállítják a kis nebulókat az épületek között. Sűrűn járnak, ingyenesen használhatók, légkondicionáltak... A BME-n is lehetne valami hasonló az I épület meg a Ch között...

Ezt egyik reggel munkába menet láttam. Itt a dengue láz mindennapos. Idősebbek általában meg is halnak benne, jobb fizikumú embereket csak 2-3 hétre dönti ágyba ez a szúnyogok által terjesztett kór. Ha a szúnyog-rendőrség (itt ilyen is van) valahol szúnyog lárvákat talál, akkor a terület tulajdonosa komoly bírságra számíthat.

Már dolgozom egy pár napja, kezd körvonalazódni, hogy mit is kell majd csinálnom. A "Human Language Department"-en vagyok, itt folyik minden szövegbányászattal és nyelvi elemzéssel kapcsolatos kutatás. Van egy rakás dokumentum, amiket a vektor tér modell szerint képeztek le. Ezen O(n) időben tudnak is keresni, de ez nagyon hosszú ideig tart sok adat esetén. Vannak már olyan algoritmusok, amik O(log(n)) időben megoldják a feladatot, de itt még senki nem implementált ilyet. Az én feladatom az lesz, hogy egy kereső algoritmust találjak ki, vagy válasszak ki a publikáltak közül, és egy általam választott programnyelvben kódoljam is le. Ez valószinűleg nem lesz túl megterhelő fél évre, igy akkor már megtanulok Java-ban rendesen programozni (ki is vettem pár hasznos könyvet a házi könyvtárból), illetve a leendő diplomamunkámmal is szeretnék érdemben foglalkozni. A kockák gondolom értették a végét, a nemkockákat meg úgysem érdekli ez a rész.
Update: Rákérdeztem a témavezetőmnél, hogy pontosan mit is várnak el. Kiderült, hogy kicsit többet, mint amire elsőre számitottam. A dokumentumok, amikkel dolgoznom kell majd, sima html-ben vannak. Ezeket szótövesiteni kell (stemming), majd valami súlyozással (tf/idf) leképezni a Vektortér modellbe, majd miután ez megvan, akkor lehet a Fast Nearest Neighbor Search algoritmusok valamelyikét implementálni. Ezzel azért kicsit hosszabban leszek el. Mivel 100.000-es nagyságrendű dokumentumról van szó, ezért nagyon fontos, hogy optimális kódot irjak, igy most Java kód optimalizálásról tanulok. Közben szerdánként bejátok majd egy Natural Language Processing kurzusra, amit PhD diákoknak tartanak.