Gheorghe Paun
[paginile 225-226] Poate e interesant de notat ca tot cam prin 1988 am introdus si eu o clasa de sisteme de gramatici, impreuna cu doctoranda pe atunci Lila Santean . Lucra la ICI, Bucuresti, seful ei de acolo, Ioan Georgescu, la el am vazut pentru prima data Latexul la lucru, ii ceruse un model formal de calcul paralel, ne-am chinuit putin si am scos parallel communicating gramar systems , pe scurt PC gramar systems , P-ul mi-l revendic, iar C-ul pare premonitoriu, pentru ca Lila s-a casatorit Kari , cu un finlandez si ce mi-e C, ce mi-e K... Cele doua tipuri, CD si PC, au devenit apoi principalele clase studiate in teoria sistemelor de gramatici, cu sute de lucrari dedicate lor.
Istoria Lilei merita pagini separate, chiar mai multe pagini. Personalitate puternica, minte ascutita, o determinare extraordinara, infatisare potrivita acestor epitete. In 1989 a avut loc o noua editie a IMYCS organizatorii m-au intrebat care dintre romani are mai multe sanse sa obtina viza si sa ajunga la Smolenice, iar eu am indicat-o pe ea, preferand-o lui Marian Gheorghe si nu mai stiu cui. Iertare Marian - e acum la Sheffield, in Regatul Unit, bun prieten si pe atunci ca si acum, dar tocmai prietenii se sacrifica mai usor, nu-i asa?... Dintre romanii care aveau lucrari acceptate la conferinta, mi s-a parut ca Lila putea cel mai usor sa obtina viza, avea domiciliul la Tulcea, familia ei are cunoscuta in oras, nu se putea sa nu reuseasca. Si a reusit. La Smolenice, era invitat si Salomaa, participa si un tanar informatician finlandez, student al lui Salomaa, un tip absolut stralucitor, Jarkko Kari. Si asa, peste vreun an, "Santean" a fost inlocuit de "Kari", iar Lila a plecat la Turku, a terminat doctoratul cu Salomaa, cu o teza remarcabila, care a primit si un premiu din partea Academiei Finlandei. La premiere, cred ca a fost prin 1992, am fost de fata, l-am intilnit pentru prima data pe Grzegorz Rozenberg, alaturi de Salomaa o alta legenda a informaticii teoretice europene, m-a prezentat Salomaa ca fiind un tip foarte eficient si asta probabil i-a placut lui Rozenberg (eficienta e o forma inteligenta de lene, am citit undeva...) am dovedit-o curand si asta i-a placut si mai mult, si mie mi-a placut "turatia" la care functiona continuu Rozenberg, am ramas in relatiii foarte bune de atunci. La premiere, Lila a vorbit in finlandeza, invatase limba locului intre timp, spuneam ca era extrem de determinata si iute la minte. A plecat dupa o vreme din Finlanda, s-a despartit de Jarkko, e acum la London-Ontario, in Canada, pe o pozitie frumoasa, a castigat niste granturi nationale de prestigiu, a ajuns o figura influenta in calculul cu ADN, o dau adesea exemplu de student al meu care ocupa o pozitie importanta prin lune. Am vizitat de mai multe ori London-Ontario, va reveni Lila in povestire. [...]
[pagina 268-269] Daca tot suntem prin Lumea Noua, sa trecem in Canada. De fapt, pentru mine Canada inseamna London-Ontario. Un fel de statiune, loc de retragere pentru canadieniii bogati, fara poluare, spatii verzi cat vezi cu ochii, veverite si ratoni, case prietenoase si o universitate puternica, bine cotata. Am ajuns prima data acolo in 1995, am revenit de foarte multe ori, pana prin 2000 am fost an de an, cred ca uneori si de doua ori pe an. Pentru a colabora cu cercetatorii locali, mai ales cu Lila Kari, cu Sheng Yu, Gabriel Thierrin.
Despre Lila am mai vorbit, am publicat multe lucrari in colaborare, mai ales despre sisteme de gramatici si in zona DNA computing-ului, pe Sheng l-am intilnit intai la Turku, il invita periodic Arto pe la el, cu Thierrin un clasic al combinatoricii pe cuvinte, am facut cunostinta la London, era deja la pensie cand am ajuns eu acolo, dar tot mai dadea pe ca facultate.
[paginile 396 - 404] De la profesorul Marcus auzisem cate ceva despre posibilitatea de a folosi teoria limbajelor formale in studiul ADN-ului, in genetica deci, are o lunga lucrare mai veche in care trecea in revista diversele incercari in acest sens. A aparut intre timp marele proiect al genomului uman, cu ambitia de a "citi" ADN-ul din celulele omului, apoi de a-l interpreta. Prima faza, cea a citirii, s-a incheiat de mult, in anul 2000 Bill Clinton insusi a anuntat reusita. Mai urmeaza sa se si inteleaga (interpreteze) ce s-a citit. Acest proiect a resuscitat cercetarile de combinatorica pe cuvinte, mai ales din punctul de vedere al operatiilor cu cuvinte si al complexitatii lor. Se vorbea tot mai insistent despre asta, dar, la inceputul anilor 90, eram mai ales interesat de sisteme de gramatici. Prin 1993 terminasem insa lucrul la cartea cu Csuhaj-Varju, Dassow si Kelemen, "Grammar Systems", aparuta in 1994 la Gordon and Breach si, conform bunului obicei din aproare toata cariera, eram in cautare de subiecte... Faceam asta implicit, pentru ca niciodata nu "m-am plictisit" dinadins de un domeniu. Dar, aproape sistematic de fiecare data dupa terminarea unei monografii, iar asta se intampla cam dupa cinci ani de explorare a unui domeniu, "lamaia" parea stoarsa pana dincolo de interesul si placerea mea de am mai lucra in domeniul acela, motiv pentru care treceam la altceva. Am auzit de la Sandu ca Lila, deja la London-Ontario atunci, ar fi la curent cu folosirea limbajelor formale in studiul ADN-ului. Cum urma sa ne vedem toti trei la Graz, in Austria, prin primavara lui 1994, la o sarbatorire a lui Arto, i-am scris Lilei, rugand-o sa-mi aduca ceva lucrari de genul acesta. Pe vremea aceea, Internetul era la inceput, acum gasesti aproape orice pe el (inclusiv gunoi, desigur...), e o chestiune de secunde cautarea unei lucrari de interes. Mi-a adus atunci Lila mai multe lucrari, copiate la xerox (sau la ce copiator a fi folosit ea, ca la fel ca adidasii, cariocile si atatea altele, xeroxul a devenit substantiv comun; "Un xerox marca Toshiba", o fi mai enervant pentru Xerox sau pentru Canon, ca nu l-am folosit mai devreme din cauza cacofoniei?...). Printre lucrari, era si una a lui Tom Head, din 1987, care era pe gustul meu, de tip generativ, nu numai combinatorica.
Atunci, in primavara lui 1994, la Graz, Austria, a inceput aventura mea bioinformatica. Loc si timp deja istorice... (Sper ca onor cititorul si-a format deja reflexul de a considera drept gluma orice fraza pe care o inchei cu puncte de suspensie. E ca si in "blogoleza", as folosi :-), eventual 8-), pentru ca eu port ochelari...)
Tom Head venea cu o propunere de modelare a unei operatii foarte frecvente la nivel genetic, recombinarea moleculelor de ADN dupa ce sunt taiate de asa-numitele enzime restrictive, si apoi lipite de asa-numitele ligaze. Destepte foc primele, le putem ignora de acum pe celelalte, ele nu fac decat sa lipeasca fragmente obtinute cu ajutorul celor dintai. Cred ca cineva chiar a spus ca enzimele restrictive sunt printre cele mai inteligente unelte pe care ni le-a furnizat natura. Parca totul e aranjat de un informatician, de un lingvist chiar, asa ca nu pot sa nu dau cateva amanunte.
Molecula ADN, celebra dubla spirala, e... dubla, ca un fermoar este, cu niste blocuri unitare (pentru ce vreau eu aici) pe fiecare parte a fermoarului, cele patru "nucleotide", A, C, G, T (adenina, citosina, guanina si timina). A sta tot timpul in fata lui T si C in fata lui G , altfel nu se inchide fermoarul. Complementaritate Watson-Crick, dupa numele celor care au facut lumina in zona asta - lucrarea centrala, din revista "Nature", in care isi expun teoria, are cam o pagina, dar pentru ce e in rezumat acolo cei doi au primit in 1953 premiul Nobel! Incepusem probabil sa numar prin '53, dar nu cred ca pana la o mie... Enzimele restrictive sunt un fel de foarfeci cu adresa: "citesc" molecula ADN, ca pe un cuvant de litere A, C, G, T o citesc, si, cand gasesc (daca gasesc) o succesiune care le place, se opresc si taie molecula, dintr-o parte in cealalta, lasand cele doua bucati sa se departeze, apoi se pot apuca de o alta molecula. Sunt multe detalii aici, nu stiu decat o parte, nu reproduc decat si mai putine...
O paranteza de tip marturisire. Am deschis multe carti de biologie dupa ce am plonjat in domeniu si de foarte multe ori scenariul s-a repetat: am citit pana am ajuns la ceva care mi-a dat o idee, m-a iluminat ca sa spun asa, apoi am inchis cartea si timp de luni bune am explorat ideea cu pricina, aproape uitand de unde am plecat. Poate era mai bine sa parcurg toata cartea inainte de a reveni la jocul meu cu simboluri - dar cine stie ce e mai bine acum, a posteriori?
Revin. Enzimele restrictive nu sunt mai destepte numai pentru ca recunosc o portiune de molecula, ci si pentru ca o taie intr-un loc bine precizat si intr-un fel cunoscut dinainte. Exista albume cu mii de enzime, specificand pentru fiecare "adresa" si felul taieturii. De cele mai multe ori, molecula de ADN e sectionata la mijlocul portiunii recunoscute si, tot de multe ori, in zig-zag, un sir de nucleotide ramane mai lung decat celalalt. Se numesc "capate lipicioase", pentru ca sirul de nucleotide care nu au perechile potrivite isi cauta complementul Watson-Crick si, daca il gasesc, se lipesc de el; vine apoi ligaza si face lipitura definitiva. Din doua fragmente care au capete lipicioase complementare, se poate astfel forma o noua molecula. Este exact operatia de splicing formalizata de Tom Head.
Unul din exemplele-gluma pe care le dadeam atunci cand aveam conferinte in Ungaria (in alte tari nu are haz) era urmatorul: luam sirurile BUDAPEST si BUCHAREST. Daca le taiem pe fiecare (cu o "enzima") dupa simbolul A din mijloc, obtinem fragmentele BUDA, PEST, BUCHA, REST. Prin recombinare, obtinem sirurile BUDAREST si BUCHAPEST. Aceasta este operatia de splicing !...
In lucrarea initiala, Tom Head formaliza, demonstra ceva, lasa multe probleme deschise. Numai ca nu imi placeau definitiile lui, erau prea "bio", le-am reformulat pe gustul matematicianului, am demonstrat o teorema lunga (si inutila peste putina vreme, pentru ca am gasit si rezultate mai tari... dar asta e viata de cercetator, sapi ca minerul habotnic prin galerii, nu stii aproape niciodata peste ce dai, daca dai, sau daca galeriile se intalnesc, cicleaza, merg in gol), am trimis lucrarea lui Tom - nu-l stiam inca, dar orice are un inceput - mi-a sugerat s-o trimit la Discrete Applied Mathematics, am trimis-o, s-a publicat. Definitia de acolo pentru operatia se splicing a devenit oarecum standard in anii urmatori, practic inlocuind-o pe cea a lui Tom, mai ales ca a urmat o serie lunga de lucrari, unele scrise singur, altele in colaborare cu Rozenberg si Salomaa, care au impus-o se vorbeste si acum de "splicing Paun" pentru a-l deosebi de "splicing Head" (intre timp a mai aparut si "splicing Pixton" care le generalizeaza pe amandoua; Denis Pixton e un colaborator a lui Tom, de la Binghamton, un tip super-destept, dar, scuze Denis, cam lenes, scrie o lucrare la cinci ani, ba in ultima vreme mi se pare ca zece...).
Prin toamna lui 1994 am ajuns la Leiden, la Rozenberg, venind de la Turku, unde incepusem colaborarea cea lunga. Rozenberg, care le afla pe toate, eventual le miroase inainte de a se intimpla, stia de lucrarea lui Tom, banuia sau stia deja de incercarea de a folosi molecule de ADN pentru a calcula in laborator. Primei lucrari pe care am scris-o atunci cu el i-a dat titlul "Computing by splicing". Iar foarte curand, am primit de la Tom un email entuziast: Leonard Adleman a calculat in eprubeta! Calculul cu ADN se nascuse, ba chiar la modul americanesc, practic, mai intai in laborator, apoi in teorie. Cu mentiunea ca Tom Head pornise, la nivel teoretic, totul, cu vreo sapte ani mai devreme - sau macar asa rezulta din lucrarea PRS "Computing by splicing".
E adevarat ca Adleman nu folosea operatia de splicing a lui Tom, ci altceva, pe cea de annealing (nu stiu cum se traduce in romaneste, unii spun "calire", dar nu-mi place), de separare a celor doua siruri de nucleotide ale "fermoarului" de ADN, prin incalzire, si apoi relipirea lor, prin racire, construind astfel molecule lungi din fragmente scurte, alese atent ca sa se portiveasca in sensul complementaritatii Watson-Crick. Se demontrase insa ca se poate . Era un demo cum a spus curand Hartmanis, un nume mare al informaticii, unul dintre cei mai citati informaticieni din lume, se aratase ca molecula de ADN si tehnicile biochimice obisnuite pot fi folosite pentru a rezolva in eprubeta probleme complexe (care cer un timp de rezolvare exponential in raport cu marimea problemei). Dar, tot Hartmanis a turnat ceva apa rece pe ceafa entuziastilor: abordarea lui Adleman, de tip forta-bruta, cu explorarea tuturor solutiilor posible pana la gasirea celei corecte, reduce timpul de lucru de la unul exponential la unul polinomial, dar pretul este folosirea uni numar exponential de molecule. Iar cu exponentialele nu e de glumit, (amintiti-va patania imparatului, sultan sau ce o fi fost el, caruia inventatorul sahului i-a cerut un bob de grau pentru prima casuta a tablei, doua pentru a doua, patru pentru a treia si tot asa, dublind numarul de boabe de la o casuta la alta, pe total de adunau mai multi saci de grau decat putea imparatia sa produca...). Pentru problema abordata de Adleman (existenta unui drum hamiltonian) si graful ales de el (numai sapte noduri) nu fusese nevoie decat de niste ... milioane de molecule, care incapeau intr-o eprubeta, dar pentru un graf cu mai multe zeci de noduri ar fi fost nevoie de ... un bazin olimpic plin cu ADN, ceea ce "sparie gandul" pur si simplu. [...]
Revin la lumea de "curatii si semne" a matematicii. Din 1994 pana prin 1998 am lucrat aproape numai calcul cu ADN. Marele succes a venit repede, cred ca deja pe la inceputul lui 1995 am demonstrat "teorema de universalitate". Ca in multe cazuri, ideea a contat. Se aratase mai demult ca daca se pleaca de la un numar finit de molecule si se folosesc un numar finit de enzime restrictive (deci de reguli de splicing), ceea ce se obtine este un limbaj regulat, deci de complexitate redusa, la indemana unui automat finit, cel mai simplu tip de automat. Imediat dupa limbajele finite, vin cele regulate. Ce se intampla insa daca folosim un numar infinit de reguli de splicing (deci de enzime restrictive), dar nu orice fel de infinit, ci unul descris de un limbaj regulat? (Cum se scriu regulile de splicing ca siruri ale unui limbaj era principala gaselnita a primului meu articol, aici sta si unul dintre punctele de atractie ale definitiei pe care am introdus-o in 1994, pentru ca permite clasificari in termeni de limbaje.) Nu credeam ca e chiar asa, dar mi-a iesit ca atunci putem calcula... tot ce se poate calcula. Un pas mic pentru multimea de reguli, un pas urias pentru puterea de calcula, practic, pasul maxim, ca dincolo de ce poate face o masina Turing nu se poate trece (celebra si mult discutata teza Turing-Church - nu mai intru in amanunte, desi sunt fascinante; [...]) Am prezentat rezultatul la editia din 1996 a conferintei de DNA computing , la Princeton, grupul lui Tom Head, Denis Pixton mai ales, nu a crezut la inceput ca e in regula, a trebuit sa pun demonstratia pe tabla, era prea simpla ca sa nu se convinga repede, a intrat imediat in circulatie, ca rezultat si tehnica de demonstratie. Daca fiecare autor care a folosit ulterior metoda "roteste-si-simuleaza" pe care am introdus-o acolo, adaptare de altfel a unei idei mai vechi, a lui Emil Post (un clasic al informaticii, de pe vremea lui Turing), adusa in alt context, mi-ar fi trimis o ilustrata pentru asta, aveam acum o colectie frumoasa cu imagini din multe colturi ale lumii... Am vrut sa public repede lucrarea, ca sa fac rezultatul cunoscut, asa ca am trimis-o la o revista veche si de prestigiu, dar nu din cele cotate ISI, anume revista Universitatii din Madgeburg, pastorita de Dassow. Degeaba are lucrarea o suta si ceva de citari (nu am mai urmarit citarile in ultimii ani, s-ar putea ca numarul sa fi crescut), ele nu sunt numarate de ISI, deci nu se "vad", sunt puse in aceeasi oala cu citarile de mana a doua. (Mi s-a mai intimplat asta si cu lucrarea in care am introdus, impreuna cu Lila Santean-Kari, sistemele paralele comunicante de gramatici, pe care am publicat-o in "Analele Universitatii din Bucuresti, Seria Matematica-Informatica", o revista departe de ochii lumii, chiar daca lucrarea noasta a initiat una din cele doua ramuri principale ale teoriei sistemelor de gramatici, ea nu ne aduce puncte ISI.)