Tiedettä tehdään myös osana opiskelua ja tällöin kyse on nuoren ihmisen perehdyttämisestä kalliisiin koneisiin ja analyyseihin. Ei toki tuottaa Nobelin palkintoon johtavia suuria löydöksiä. Kyse kun on yliopistoissamme myös suurten massojen kouluttamisesta samaan aikaan. Se on poissa varttuneempien tutkijoiden oman työn hoidosta. Mukana on myös vakavasti sairaita ihmisiä, joita on hoidettava koulutuksen rinnalla sekä kyettävä toimimaan myös hallinnossa ja hankkimassa rahoitusta tutkimuksille ja koulutukselle, ihmisten HOIDOLLE lääkäreinä. Kaikkeen ei aina oikein ehdi toivomallaan tavalla ja se turhauttaa. Etenkin pandemian aikana.
Se poliittinen liike, joka kykenee yhdistämään politiikkansa klustereihin (Cluster Policy) sen sijaan että hake yksittäisiä yhden asian ilmiöitä tai on osa sosiaalisen median kakofoniaa, menestyy jopa Suomessa. Olkoonkin ettei suomi ole klusteritalouden (Cluster economy) tai kulttuurin (Cluster culture) maailman johtavia luovan innovaation mallimaita, pikemminkin päinvastoin.
Mitä tarkoitetaan, kun tietokoneet ja klusterialgoritmit analysoivat meitä ja tekemisiämme, sairauksia tai vaikkapa tapaamme viettää viikonloppua, harrastuksiamme, ajankäyttöämme ja luonnettamme, mitä tahansa maan ja taivaan väliltä mitaten. Otan esimerkin vain yhdestä tällaisesta tutkijoiden työnäytteestä, jossa mukana on juuri tietenkin klusterianalyysi. Omalla kohdallani ko. analyysit tulivat elämääni 1970-luvun alussa myös niitä kehittäen ja kouluttaen joka vuosi 40 uutta maisteria ja tohtoria.
Esimerkkitapauksessa tutkijajoukko pohtii klusterianalyysin käyttöä ja lainaan siinä heidän kirjoittamaansa tiivistelmää (abstraktia) kääntäen sen luonnollisesti koneen avulla englannista suomen kielelle, joka ei ole oikein tieteen kieli. Näin sen käännös on osa algoritmien osaamista sekin. Lopuksi kommentoin tuota tutkijoiden abstraktia. En koko tutkimusta ja siinä lainattuja kymmeniä nimekkäitä alan asiantuntijoitamme maailmalta:
Automaattiset klusterointialgoritmit: asiaankuuluvan kirjallisuuden systemaattinen katsaus ja bibliometrinen analyysi
Absalom E. Ezugwu, Amit K. Shukla, Moyinoluwa B. Agbaje, Olaide N. Oyelade, Adán José-García ja Jeffery O. Agushaka
Abstrakti
” Klusterianalyysi on olennainen työkalu tiedon louhinnassa. Useita klusterointialgoritmeja on ehdotettu ja toteutettu, joista useimmat voivat löytää hyvälaatuisia klusterointituloksia. Suurin osa perinteisistä klusterointialgoritmeista, kuten K-keskiarvot, K-medoidit ja Chameleon, ovat kuitenkin edelleen riippuvaisia siitä, että niille tarjotaan etukäteen klusterien lukumäärä, ja niillä voi olla vaikeuksia käsitellä ongelmia, joissa klusterien lukumäärää ei tunneta. Tämä elintärkeän tiedon puute voi aiheuttaa lisälaskennan taakkaa tai vaatimuksia asiaankuuluville klusterointialgoritmeille. Reaalimaailman dataklusterointi-analyysiongelmissa dataobjektien klustereiden määrää ei voida helposti määrittää etukäteen, joten optimaalisen klusterimäärän määrittäminen suuren tiheyden ja ulottuvuuden omaavalle tietojoukolle on melko vaikea tehtävä. Siksi kehittyneet automaattiset klusterointitekniikat ovat välttämättömiä joustavuuden ja tehokkuuden vuoksi. Tämä artikkeli esittää systemaattisen taksonomisen yleiskatsauksen ja bibliometrisen analyysin luonnon inspiroimien metaheurististen klusterointilähestymistapojen suuntauksista ja edistymisestä 1990-luvun varhaisista yrityksistä nykypäivän uusiin ratkaisuihin. Lopuksi tässä artikkelissa käsitellään myös metaheurististen algoritmien muotoiluun liittyviä avainkysymyksiä klusterointiongelmana ja tärkeimpiä sovellusalueita.
Edellinen kuvaus on tilanteesta, jossa klustereille ei anneta jo etukäteen arviota niiden määrästä ja käyttäytymisestä suhteessa toisiinsa ja klusterin sisällä. Aineistoa ei siis tunneta riittävästi ja klusterit syntyvät algoritmien tuotteena ilman rajauksia. Tulokset voivat olla esteettisesti kauniita. Samalla algoritmeja rasitetaan tarkoitukseen, joihin niitä ei ole alkujaan ajateltu käytettäväksi.”
Abstrakti päättyi ja oma kuvaukseni tulee tässä:
Omissa tutkimuksissani päädyin aluksi 1970-luvulla kohtuullisen työlääseen käsityöhön avustaen sitä faktorianalyysin antamilla tuloksilla tutkimusaineistoni luonteesta. Myöhemmin mukaan tuli faktoripisteiden klusterointi, jolloin niiden määrä ja tulkinta oli suoritettu jo ennen klusterianalyysiä. Näin oma aineisto tunnettiin (kiitos faktoreiden tulkinnan) jo ennen klusterointia riittävän hyvin ja klusterianalyysi oli vain avustamassa muuten työlästä havaintojen ryhmittelyä. Se oli siten hyvinkin rutiininomainen tapa antaa algoritmille tehtävä, josta ne suoriutuivat helposti.
Tätä tehtävää voitiin jopa siirtää muille ryhmittäjille kuin klusterianalyysit, jolloin mukaan tuli myös portaittain eteneviä ja toisistaan esim. evolutionaarisesti erkaantuvia klustereita. Tämä vaihe vaati vielä 1980-luvulla tietokoneelta poikkeuksellista teholisää ja sitä lisättiin yhdistämällä yliopistojen koneita toisiinsa. Nykyisin se ei toki ole tarpeellista.
Tiede on mennyt 1990-luvulla rajusti ohi sellaisen vaiheen, johon aikanaan vaadittiin myös tutkijalta omaa panosta ja perustieteitten tuntemustakin. Erityisen nopeasti tämä tapahtui soveltavan tieteen suunnalla ja laboratorioissa myös Suomessa.
Itse hankkiuduinkin sellaiseen organisaatioon. Yliopistojen määrärahat oli tarkoitettu lähinnä vain opetuslabroihin ja puutetta oli myös opettajista. Opettajat tekivät hekin kaikkea mahdollista työtä laitoksensa ylläpitämiseksi professorin ja opettajan työstä amanuenssin töihin ja lopuksi kirjaston pölyt pyyhkien arkistoistamme.
Samalla klustereiden luonne tunnettiin myös matemaattisena lausekkeena, ei vain valmiina algoritmina. Samoin muita menetelmiä, etenkin faktorianalyysejä ja faktoriakseleita kyettiin asemoimaan optimaalisella tavalla ja graafisina kuvina sekä geometrisinä rakenteinakin piirustuspöydällä, ei vain tietokoneen ruudulla. Ne oli tunnettava myös heikkouksineenkin. Niinpä myös faktoreiden määrää akseleineen voitiin arvioida ennen klusterointia oikein ja kriittisesti. Omat aineistothan tuli tuntea kohtuullisen hyvin jo ennen analyysiä. Professori kun kulki myös kentällä ja tunsi sen paremmin kuin oppilaansa ikinä. Oli oikeasti myös poikkitieteinen nero. Ei hajamielinen edes silloin kun työpäivät olivat pitkiä etenkin viikonloppuisin ja joulunpyhinä assistentteineen.
Usein klusterointi ei ollut edes tarpeen tai se voitiin korvata muilla porrastavilla tutkimusmenetelmillä. Turhaa ”temppuilua” koneilla oli syytä välttää myös aineistolla, joiden käsittely voitiin hoitaa myös yksinkertaisemmilla menetelmillä. Etenkin kohtuullisen pienissä aineistoissa näiden menetelmien käyttöä tuli rajoittaa monestakin syystä. Ei vähiten säästäen koneita vaativimpiin tehtäviin. Ei pelkästään koulutuksellisen käyttöön ja vaatimattomilla aineistoilla, muutamalla rottakokeella. Monimuuttujamenetelmiä ei tarvita eikä voida käyttää, kun muuttujia ei ole ”monia”, tuhansia mittaustuloksia verestä, ja havaintoja niitäkin miljoonia (esim. ihmisiä).
Itse todella suuren aineiston tuntemus ennen klusterointia on aina syytä käynnistää faktorityyppisillä analyyseillä. Suora klusterointi algoritmeineen voi antaa tuloksia,joiden tulkinta jää lopulta illustraation (cluster illustration) avulla tehtäväksi ja se muistuttaa kuvineen liki keskiaikaista tapaa tuottaa kreikan kielisen ”Illustrare” ”valaista” tapaa kuvata analyysejä niitä tuntemattomille näyttäviä illuusioita samalla luoden. Nämä klusterit voivat olla toki demonstratiivisia mutta samaan aikaan myös virheellisiä.
Takavuosina, 1970-luvulla, näillä tuloksilla oli erityisen suuri merkitys esiteltäessä niitä sota-ajan professoreille ja heitä harhauttaen uskomaan, kuinka tietokoneitten aika on vain tilapäinen ilmiö ja pian palataan taas takaisin niiden filosofien elämään, jotka olivat tieteemme kivijalkoina 1600-luvulla eläneinä tai osa vieläkin kauempaa ihmiskuntamme kulttuurin juurilta Platonilta ja Sokrateelta lainaten, Anaxagoraan kotikylässä vieraillen.