Karen Spärck Jones (26 d’agost de 1935 – 4 d’abril de 2007) va ser una científica britànica especialitzada en lingüística computacional. Investigadora pionera en recuperació d’informació.

Durant tot el temps que va estar dedicant-se a la informàtica va impulsar notablement que més dones entressin en aquesta disciplina.

Va començar la seva carrera investigadora en 1950 desenvolupant un tesaurus per a la Unitat de Recerca en Llenguatge de la Universitat de Cambridge. En 1964 es va doctorar amb una tesi titulada Sinonímia i classificació semàntica utilitzant tècniques estadístiques i probabilístiques combinades amb tècniques lingüístiques. El seu enfocament va ser pioner en la matèria.

Va poder seguir investigant en recuperació d’informació gràcies a les diferents beques que li van ser concedides per institucions com la Royal Society o la Biblioteca Britànica, fins que va fitxar pel Laboratori d’Informàtica de la Universitat de Cambridge on va treballar des de 1974 fins a la seva jubilació en 2002, encara que va seguir treballant allí fins a poc abans de morir per càncer en 2007, en Willianghan (Cambridge).

Va liderar la indexació automatitzada creant un indicador capaç de trobar la importància informativa d’una paraula per a un document; el que es cridaria a partir de llavors com indización ponderada o per pesos. Aquest algorisme anomenat ITF (inverse term frecuency o freqüència inversa del terme) obté la importància d’un terme depenent del nombre de vegades que aparegui en el document en relació amb la resta de termes que aquest tingui. Aquest algorisme rebutja les paraules que apareguin tant a l’excés (paraules funcionals de la llengua com a preposicions o conjuncions) com per defecte (paraules amb unes poques aparicions), en considerar que no aporten valor informatiu suficient com per descriure el contingut del document.

Aquest indicador donaria pas a un altre més important encara: el IDF (inverse document frecuency o freqüència inversa del document) el procediment del qual és similar a l’anterior però que s’empra en tots els documents d’una base de dades documental. Amb aquest algorisme obtindríem ordenats de major a menor rellevància els documents oposats en respondre a una consulta. Aquest disseny va ser el principi del model probabilístic de recuperació d’informació, desenvolupat per Spärck Jones i Stephen Robertson, i continuat per altres investigadors com Keith van Rijsbergen, Peter Ingwersen o Ricardo Baeza-Yates.

Va ser guardonada amb nombrosos premis, entre ells:

  • Premi Gerard Salton en 1988,
  • Premi ASIST al Mèrit Acadèmic en 2002,
  • Premi a la trajectòria d’una vida investigadora de la ACL, l’associació internacional més prestigiosa en Lingüística computacional.
  • Premi Allen Newell de l’ACM-AAAI (2007)
  • Medalla Lovelace en 2007, quan ja estava malalta de càncer.

Font bibliogràfica: Wikipèdia