Išči

    Mednarodni kemijski identifikator

    Mednarodni kemijski identifikator IUPAC (InChI, /ˈɪntʃiː/) je besedilni identifikator kemijskih spojin, ki je zasnovan tako, da zagotovi standarden in razumljiv način zapisovanja podatkov o molekuli in omogoča iskanje tovrstnih informacij v bazah podatkov in na spletu. Sistem sta razvila Mednarodna zveza za čisto in uporabno kemijo in Narodni urad za standarde in tehnologijo v letih 2000–2005. Oblika in algoritmi niso zakonsko zaščiteni in so prosto dostopni pod pogoji LGPL, sam naziv "InChI" pa je zaščitena blagovna znamka IUPAC.[1]

    Vsebina

    Ime

    Mednarodni kemijski identifikator se je na začetku imenoval IChI (IUPAC Chemical Identifier). Julija 2004 se je preimenoval v INChI (IUPAC-NIST Chemical Identifier), novembra 2004 pa v InChI (IUPAC International Chemical Identifier) in je zaščitena blagovna znamka IUPAC.

    Opis

    Identifikatorji InChI opisujejo kemijske spojine v vešslojnih informacijah, v katere spadajo atomi in njihove medsebojne povezave ter informacije o tavtomeriji, izotopih, stereokemiji in električnih nabojih. V sistem niso vedno zajeti vsi sloji. Primer: če podatki o tavtomeriji za neko spojino niso pomembni, je tavtomerni sloj lahko izpuščen.

    InChI se od zelo razširjenega števila CAS razlikuje v treh pogledih:

    InChI je torej nekakšna posplošena in skrajno formalizirana verzija IUPAC-ovih imen kemijskih spojin. InChI lahko izrazi več informacij kot enostavnejši SMILES in se od njega razlikuje po tem, da ima vsaka struktura enoznačen InChI, kar je pomembno za uporabo v bazah podatkov. InChI ne daje informacij o trodimenzionalnih koordinatah atomov. Za take primere se lahko uporabi format PDB.

    Pretvarjanje strukturnih informacij o spojini v enoten InChI identifikator poteka v treh korakih: normalizacija, ki odstrani vse odvečne informacije, kanonizacija, ki vsakemu atomu pripiše enoznačno (zaporedno) številko, in serializacija, ki podatke pretvori v niz znakov.

    Ključ InChI, ki je poznan tudi kot sesekljani InChI, je niz s stalno dolžino 25 znakov, ki je zgoščena digitalna oblika zapisa InChI in za bralca ni razumljiva. Ključ InChI se je začel uporabljati septembra 2007, da bi olajšal iskanje kemijskih spojin na spletu, ker je bilo iskanje s celotnim InChI problematično.[2]

    Končna verzija programske opreme InChI z oznako 1.02 je bila izdana januarja 2007. Zadnja verzija generira tako imenovani standardni InChI, ki uporabnikom ne dopušča izbiranja opcij na slojih stereokemije in tavtomerije. Standardni ključ InChI je binarna verzija standardnega niza InChI.

    Oblika zapisa in sloji

    Vsak InChI se začne z uvodnim nizom "InChI =", kateremu sledi številka verzije, trenutno 1. Ostale informacije so strukturirane kot sekvence slojev in podslojev. Vsak sloj daje specifično vrsto informacij. Sloji in podsloji so ločeni s poševnico "/" in se začenjajo z značilnim predznakom. Izjema je podsloj za kemijsko formulo, ki je del glavnega sloja. Sistem ima šest slojev z nekaj podsloji:

    1. Glavni sloj
      • Kemijska formula (brez predznaka) je edini podsloj, ki mora biti v vseh InChI.
      • Povezava atomov (predznak "c"), v katerem so opisi medsebojnih povezav atomov. Atomi v kemijskih formulah, razen vodika, so oštevilčeni po sekvencah.
      • Vodikovi atomi (predznak "h"). Podsloj opisuje, koliko vodikovih atomov je vezanih na posameznih drugih atomih.
    2. Nabojni sloj
      • Podsloj s pozitivnimi naboji ima predznak "p".
      • Podsloj z negativnimi naboji ima predznak "q".
    3. Stereokemijski sloj
    4. Izotopski sloj
    5. Stalni H-sloj
    6. Povezovalni sloj

    Sistem poševnica-predznak ima to prednost, da lahko uporabnik išče identifikatorje, ki se ujemajo samo v izbranih slojih.

    Primera

    CH3CH2OH
    etanol
    InChI=1/C2H6O/c1-2-3/h3H,2H2,1H3
    L-Ascorbic acid.svg
    L-askorbinska kislina
    InChI=1/C6H8O6/c7-1-2(8)5-3(9)4(10)6(11)12-5/h2,5,7-10H,1H2/t2-,5+/m0/s1

    Ključ InChI

    Zgradba morfina

    Zgoščeni 25 znakov dolgi ključ InChI je binarna verzija InChI, narejena z algoritmom SHA-256. Ključ InChI omogoča enostavno iskanje kemijskih spojin na spletu.[2] Večina kemijskih struktur, ki so prišle na splet do leta 2007, je zapisana v formatu GIF, zato se jih na spletu ne da iskati po njihovih kemijskih zgradbah.

    Celoten identifikator InChI je za iskanje spojin predolg, zato so razvili ključ InChI. Pri iskanju s ključem obstaja možnost, da imata dve spojini enak ključ, vendar je ta možnost izjemno majhna. Verjetnost podvajanja prvih štirinajstih znakov ključa InChI je ocenjena na eno podvajanje v 75 bazah podatkov, če bi vsaka baza podatkov vsebovala po eno milijardo struktur. Vse baze podatkov skupaj trenutno vsebujejo manj kot 50 milijonov struktur, zato je možnost podvajanja skoraj izključena.

    Prvih 14 znakov ključa InChI je rezultat sekljanja podatkov iz InChI o povezavah, ki jim sledi črtica (-). Črtici sledi 8 znakov, ki so rezultat sekljanja ostalih slojev InChI. Predzadnji znak v binarnem nizu je oznaka verzije, zadnji pa kontrolna vsota.

    Primer: morfin ima zgradbo, ki je prikazana na zgornji sliki. InChI morfina je:

    InChI = 1/C17H19NO3/c1-18-7-6-17-10-3-5-13(20)16(17)21-15-12(19)4-2-9(14(15)17)8-11(10)18/h2-5,10-11,13,16,19-20H,6-8H2,1H3/t10-,11-,13-,16-,17-/m0/s1,

    njegov ključ InChI pa:

    BQJCRHHNABKAKU-XKUOQXLYBY.[3]

    Zunanje povezave

    Dokumentacija in predstavitve

    Programska oprema in podpora

    Sklici

    1. McNaught, Alan (2006). "The IUPAC International Chemical Identifier:InChl". Chemistry International. 28 (6). IUPAC. Pridobljeno dne 2007-09-18.
    2. 2,0 2,1 "The IUPAC International Chemical Identifier (InChI)". IUPAC. 5. september 2007. Pridobljeno dne 18. 9. 2007.
    3. "InChI=1/C17H19NO3/c1-18..." Chemspider. Pridobljeno dne 18. 9. 2007.