bild
Skolan för
elektroteknik
och datavetenskap

Välkommen till Språkteknologigruppen på KTH:s API för frasextraktion!

För fler verktyg, se sidan med Språkteknologigruppens verktyg

Program som använder parsning

Om du skriver ett program som anropar vår parsningstjänst kan du använda POST och denna URL: "POST https://skrutten4.sys.kth.se/granskaapi/chunk.php" med texten i kroppen till postningen. För ett exempel på hur det kan se ut och vilka olika valmöjligheter som finns kan du titta på källkoden till denna hemsida och se hur formuläret nedan gör.

Om du istället för fraser är intresserad av satsgränser finns en variant av denna tjänst som matar ut satsgränser istället tillgänglig här: https://skrutten4.sys.kth.se/granskaapi/clause. Det finns även en tjänst som matar ut all information från Granskas parser, inklusive fraser och satsgränser: https://skrutten4.sys.kth.se/granskaapi/parse.

Vad betyder utmatningen?

Om vi analyserar meningen "Jag gillar grammatikgranskning och parsning." får vi tillbaka följande utmatning:

Jag, NPB
gillar, VCB
grammatikgranskning, NPB|NPB
och, NPI
parsning, NPB|NPI
., 0

Det ska tolkas såhär:

  • Jag, NPB betyder att ordet "Jag" är första ordet ("B" för begin) i en nominalfras ("NP" för noun phrase).
  • gillar, VCB betyder att "gillar" är första ordet i en verbkedja ("VC" för verb chain).
  • grammatikgranskning, NPB|NPB betyder att vid ordet "grammatikgranskning" börjar två nominalfraser, en mindre nominalfras (bara ordet "grammatikgranskning") som finns inuti en större nominalfras ("grammatikgranskning och parsning").
  • och, NPI betyder att ordet "och" är en del av en nominalfras som börjat tidigare i meningen ("NP" för noun phrase och "I" för inside).
  • parsning, NPB|NPI betyder att ordet "parsning" är del i två nominalfraser, en som börjar här (bara ordet parsning) och en som börjat tidigare i meningen (grammatikgranskning och parsning).
  • ., 0 indikerar att meningen är slut vid punkten.

De flesta frastaggar består av en frastyp (nominalfras, verbkedja, prepositionsfras, etc.) och antingen "B" för begin (som indikerar att frasen börjar här) eller "I" för inside (som indikerar att det ord är fortsättning på en fras som börjat tidigare i meningen). Om ett ord är en del av mer än en fras separeras frastaggarna för de olika fraserna med tecknet "|".

Det finns ingen explicit markör för att en fras är slut. Att en fras är slut anges implicit av att det inte följer fler frastaggar med "I" för inside. I exemplet ovan betyder det till exempel att "gillar VCB" också indikerar att nominalfrasen som började på ordet "Jag" slutade på ordet innan "gillar", eftersom det inte finns en NPI-tagg på ordet gillar. På samma sätt betyder "grammatikgranskning, NPB|NPB" att verbkedjan som började på ordet "gillar" också slutade med ordet "gillar" eftersom det inte finns någon VCI-tagg på ordet efter "gillar" osv.

Utförlig information om Granskas parser finns i denna artikel (PDF).


Ett formulär att testa med

Mata ut XML
Mata ut JSON
Mata ut vanlig text
Mata ut HTML

Visa ordklasstaggar

Använd Granskas exempelmeningar som visar många olika typer av skrivfel

Ange en URL till en sida att analysera.

Skriv eller klistra in en egen text att analysera.


Uppdaterad 2020-07-21