Thomas Haga studeerde taalwetenschap aan de Universiteit Leiden. De focus van zijn bachelor lag op de vergelijkende Indo-Europese taalwetenschap. In zijn master heeft hij een jaar stage gelopen bij het Instituut voor de Nederlandse Taal (INT), waarbij hij zich met name beziggehouden heeft met het Algemeen Nederlands Woordenboek (ANW). Het afstudeeronderzoek van zijn onderzoeksmaster taalwetenschap ging over de eigenschappen en distributie van wrijfklanken (fricatieven) in Germaanse talen.
Sinds 2019 is hij onderzoeker-taalkundige bij het Instituut voor de Nederlandse Taal. Hij werkt daar aan een computationeel lexicon van het Nederlands, waarin de woordenschat van het Nederlands van de afgelopen vijftien eeuwen is verzameld. Om alle woorden uit de woordenboeken (het historische deel) te kunnen verbinden aan de woorden in het moderne deel van het lexicon, let hij erop dat woorden dezelfde lemmavorm en dezelfde woordsoort krijgen (geüniformeerde data in de data-infrastructuur). Voor het moderne gedeelte verzorgt hij bovendien de uitspraak van alle woorden. Hiernaast werkt hij aan de taalkundige verrijking van een representatieve set van Nederlandse teksten (van de 13e tot en met de 19e eeuw) in het kader van het NWO-project CLARIAH+. Hierbij heeft hij meegewerkt aan de totstandkoming van de Tagset voor Diachroon corpusmateriaal van het Nederlands (TDN), waarbij de voor het Nederlands relevante tagsets met elkaar vergeleken en geanalyseerd zijn om één tagset te hebben die toepasbaar is op alle eeuwen Nederlands.