Het Instituut voor de Nederlandse Taal stelt de software en computerlinguïstische tools die het heeft ontwikkeld als open source beschikbaar. Externe gebruikers hebben toegang tot de broncode en kunnen die voor eigen doeleinden aanpassen. Voorbeelden zijn het corpuszoeksysteem BlackLab en de morfologische parser MBMP.
BlackLab
BlackLab is een corpuszoeksysteem op basis van Apache Lucene. Deze technologie maakt snelle, complexe zoekacties mogelijk binnen omvangrijke, geannoteerde tekstverzamelingen in onze historische en hedendaagse tekstcorpora. De zoekresultaten worden gemarkeerd weergegeven in de tekst. Onze corpora zullen we met behulp van dit zoeksysteem ontsluiten. Het Corpus Gysseling kunt u hier al in bètaversie bekijken.
MBMP (Memory Based Morphological Parser)
MBMP is een geheugengebaseerde morfologische parser voor de programmeertaal Python. Met deze parser worden woorden voorzien van een morfologische analyse. Zoals de onderverdeling van een woord in morfemen, de toekenning van PoS-tags aan de morfemen van een woord of een complete hiërarchische analyse. Daarnaast biedt het pakket de functionaliteit van een generieke geheugengebaseerde classificeerder. Deze tool ontwikkelden we ten behoeve van de morfologische component van GiGaNT.