Wanneer zijn de resultaten betrouwbaar genoeg om te gebruiken in de praktijk? Dit is en blijft het lastige aspect van AI
We kunnen wel stellen dat 2023 de definitieve doorbraak van AI is. Met de komst van ChatGPT en soortgelijke varianten is het onderwijs geconfronteerd met het feit dat het maken of verbeteren van een verslag door studenten eenvoudig is geworden. Dit onderdeel van AI is inmiddels breed bekend, maar wij hebben ons gericht op een andere actuele vraag in het onderwijs: Welk onderwijs lijkt op elkaar?
Bij onze klanten zijn in totaal meer dan 50.000 vakken en een veelvoud aan beschrijvingen bekend. Het is een uitdaging om deze allemaal door te nemen op zoek naar overlap. Daarom vroegen we ons af hoe je kunt detecteren of twee vakken inhoudelijk overeenkomen. Tijdens de hackathon hebben we verschillende benaderingen onderzocht.
Poging 1: Woorden vergelijken
De eerste benadering is het vergelijken van woorden in de beschrijvingen van vakken. Hierbij wordt er gekeken naar gemeenschappelijke woorden in beide teksten om zo een “score” te berekenen. Dit klinkt eenvoudig, maar we kwamen de volgende scenario’s tegen:
Veelvoorkomende woorden, zoals ‘de’, ‘het’ en ’ is', hebben geen inhoudelijke betekenis. Deze filteren wij eruit, wat removing stop words heet.
Synoniemen worden niet aan elkaar gelinkt als we alleen naar vergelijkbare woorden zoeken, denk hierbij aan optelling of sommatie. Dit is een nog groter probleem als een deel van de informatie in het Nederlands en een deel in het Engels is.
Niet alle teksten zijn relevant voor de vergelijking, bijvoorbeeld de opbouw van het vak is niet interessant als je inhoudelijk vergelijkt. Wij nemen dus alleen velden mee die over de inhoud gaan.
Deze benadering, ook wel model genoemd, was voor ons interessant om de stappen en acties te zien die nodig zijn om tot de juiste input voor het model te komen. De resultaten waren echter niet goed genoeg om vergelijkbaar onderwijs te vinden.