KI in der Ausbildung: Easy vs. Hard Tasks und die (IHK-)Prüfung

Working Paper 1/2026 von Ulrich Ivens

Persönliche Vorbemerkung

Ich lese regelmäßig interessante Fachliteratur zu KI in Ausbildung, Weiterbildung und Prüfung. Gleichzeitig erreichen mich viele Fragen zum Thema - von Kolleginnen und Kollegen, von Mitgliedsunternehmen, von Bildungseinrichtungen und von mir nahestehenden Menschen aus Familie und Vereinen. Gerade im Prüfungswesen beschäftigt uns die Fragen sehr intensiv: Was ist zulässig? Was geht nicht? Wie vermeiden wir Ungerechtigkeit?

Mit diesem Working Paper, das ich über meinen Blog veröffentliche, versuche ich, die aktuelle Debatte zu strukturieren und die verschiedenen Perspektiven (ökonomisch, rechtlich, didaktisch) in einen sinnvollen Zusammenhang zu bringen. Ich bin an einem Diskurs dazu interessiert. Kommentieren Sie gerne oder schreiben Sie mir gerne eine Mail meine Dienstmail ulrich.ivens@aachen.ihk.de, wenn Sie zustimmen oder gänzlich anderer Meinung sind.

Die entscheidende Frage ist nicht „Wird dieser Beruf digitalisiert?"

Wer verstehen will, welche Ausbildungsberufe durch KI wirklich unter Druck geraten, muss aufhören, nach dem Digitalisierungsgrad zu fragen. Das ist die falsche Einheit. Der MIT-Ökonom Daron Acemoglu zeigt in seiner makroökonomischen Analyse, dass die relevante Trennlinie eine andere ist: Verfügen die Kernaufgaben eines Berufs über verlässliche, beobachtbare Erfolgskriterien, und ist der Zusammenhang zwischen Handlung und Ergebnis relativ klar? (vgl. Acemoglu, 2024)

Wenn ja, nennt Acemoglu diese Aufgaben easy - nicht weil sie für Menschen einfach sind, sondern weil KI-Modelle sie gut erlernen können. KI lernt durch Feedback. Wo Feedback klar und objektiv ist (die Buchung stimmt oder stimmt nicht, das Programm läuft oder läuft nicht), kann KI schnell gut genug werden (vgl. Acemoglu, 2024).

Hard tasks sind das Gegenteil: Aufgaben, bei denen weder ein eindeutiges Erfolgskriterium noch ein einfaches Aktions-Ergebnis-Mapping existiert (vgl. Acemoglu, 2024). Ob eine Beratung „gut" war, ob eine pädagogische Reaktion auf ein Kind die richtige war - das lässt sich nicht (einfach) objektiv messen. Der Weg zum richtigen Ergebnis hängt von zahllosen Kontextvariablen ab. KI, die solche Aufgaben lernen will, kann nur vom menschlichen Durchschnitt lernen. Damit dürfte es KI in vielen dieser Fälle deutlich schwerer fallen, über gute menschliche Durchschnittsleistungen hinauszukommen (vgl. Acemoglu, 2024).

Das erklärt auch, warum der Digitalisierungsgrad kein guter Risikoindikator ist und warum er sogar in die falsche Richtung führen kann. Digitalisierung wurde in den letzten Jahrzehnten bevorzugt dort eingesetzt, wo Prozesse regelbasiert und messbar sind. Wer früh stark digitalisiert hat, hat damit seinen Easy-Task-Anteil bereits erhöht. Eine Verkäuferin, die mit digitalem Kassensystem und Warenwirtschaft arbeitet, hat einen hochdigitalisierten Arbeitsplatz - aber Kassieren und Bestandspflege sind Easy Tasks, während das Deeskalieren eines aufgebrachten Stammkunden eine Hard Task bleibt. KI trifft genau das erste, nicht das zweite Tätigkeitsmerkmal (vgl. Acemoglu, 2024).

Eine wichtige Einschränkung verdient Beachtung: Acemoglu schätzt die makroökonomischen Gesamteffekte von KI als deutlich moderater ein, als öffentliche Prognosen vermuten lassen. Maximal 0,71% TFP[^1]-Zuwachs über 10 Jahre, eher weniger, seien realistisch (vgl. Acemoglu, 2024). Das bedeutet: Der strukturelle Druck auf einzelne Aufgabenbündel und Berufsprofile ist real, aber kein Anlass für Endzeitstimmung. Gestaltung ist möglich und notwendig.

Berufsfelder im Überblick

Die folgende Einordnung ist eine heuristische Landkarte, kein empirisches Ranking. Innerhalb jedes Berufsfelds gibt es beide Task-Typen. Entscheidend ist, wo die Kernkompetenz liegt.

Hoher Easy-Task-Anteil (höheres Substitutionspotenzial)

Kaufmännische Verwaltung: Buchungssätze, Rechnungsprüfung, Standardkorrespondenz, Datenpflege. All das sind regelbasierte Tätigkeiten mit klarem Korrektheitskriterium. Ein Großteil der Ausbildungsinhalte in Berufen wie Kaufleute für Büromanagement oder Industriekaufleute fällt darunter. Dass KI hier messbare Produktivitätswirkung entfaltet, belegen Noy & Zhang (2023): Bei professionellen Schreibaufgaben - also dem Kerngeschäft kaufmännischer Sachbearbeitung - erzielten Nutzer mit KI-Unterstützung eine Zeitersparnis von rund 40% bei gleichzeitig besserer Ergebnisqualität (vgl. Noy & Zhang, 2023).
Lagerlogistik: Kommissionierung nach Pickliste, Bestandsführung, Lieferscheinabgleich. Computer Vision, laut Acemoglu die technisch am weitesten fortgeschrittene KI-Anwendung, greift hier direkt (vgl. Acemoglu, 2024).
IT-Standardentwicklung: Das Schreiben bekannter Subroutinen in verbreiteten Programmiersprachen ist messbar und gut dokumentiert. Peng et al. (2023) haben gezeigt, dass GitHub Copilot bei solchen eng gefassten Aufgaben die Bearbeitungsgeschwindigkeit um 55,8% erhöht - allerdings bezogen auf eine konkrete Programmieraufgabe, nicht auf Softwareentwicklung insgesamt (vgl. Peng et al., 2023). Architekturentscheidungen und Debugging unbekannter Fehler bleiben Hard Tasks.

Gemischter Anteil (Differenzierung innerhalb des Berufsbilds entscheidend)

Handel: Im Lebensmitteleinzelhandel dominieren Easy Tasks. Im Fachhandel liegt die Kernleistung stärker in der Beratung. Ob ein Kunde wirklich das richtige Produkt kauft, hängt von Gesprächsführung, Einschätzung und Beziehung ab - nicht von einer Regel. Bemerkenswert: Brynjolfsson et al. (2023) zeigen in einer Studie zu KI-gestütztem Kundensupport, dass KI-Assistenz vor allem Einsteigern nutzt (bis zu 34% Produktivitätszuwachs bei Novizen), während sehr erfahrene Mitarbeitende kaum profitieren. KI komprimiert also Kompetenzunterschiede, ersetzt aber keine langjährige Urteilserfahrung (vgl. Brynjolfsson et al., 2023).
Finanzdienstleistungen: Standard-Kontoeröffnung, Kleinkreditvergabe oder Schadensmeldung nach Protokoll sind easy. Rentenplanung in einer Scheidungssituation oder Umgang mit einem Kunden in finanzieller Notlage sind hard - weil kein Modell die „richtige" Antwort kennt und weil das Ergebnis von der Beziehungsqualität und vielen individuellen Variablen der Fälle abhängt.
Gesundheitliche Fachberufe (MFA, ZFA): Terminverwaltung, Abrechnung, Dokumentation sind easy. Patientenkommunikation bei Diagnoseangst oder die Einschätzung, ob ein Anruf dringlich ist, sind hard.
Technische Berufe: Fehlerdiagnose nach Fehlercodes und Wartungsplan ist easy. Fehlersuche an einer unbekannten Anlage ohne Fehlermeldung oder Anlagendokumentation unter Zeitdruck ist hard.

Hoher Hard-Task-Anteil (weniger substituierbar, oft gut KI-augmentierbar)

Eine wichtige Unterscheidung: Diese Berufe sind nicht einfach „KI-fern". Sie sind weniger leicht substituierbar, weil ihre Kernkompetenz strukturell schlecht messbar ist. Dennoch können sie oft erheblich durch KI unterstützt werden - insbesondere dann, wenn verlässliche, kontextbezogene Informationen bereitgestellt werden.

Erziehungs-, Bildungs- und Sozialberufe bilden das Berufsfeld mit dem strukturell höchsten Hard-Task-Anteil. Erzieher/innen, Kinderpfleger/innen, Sozialpädagogische Assistent/innen, Heilerziehungspfleger/innen. Ihre Kernleistung ist Beziehungsarbeit. Ob eine pädagogische Reaktion auf ein eskalierendes Kind richtig war, zeigt sich womöglich erst Jahre später, hängt von hundert Kontextvariablen ab und ist keiner einzelnen Handlung eindeutig zuzuschreiben. Lehrer/innen und Ausbilder/innen stehen vor demselben strukturellen Problem. Acemoglu klassifiziert Verben wie „educate" und „instruct" ausdrücklich als Hard-Task-Verben (vgl. Acemoglu, 2024). KI kann hier Dokumentation erleichtern, Sprachlernfortschritte erfassen, Materialrecherche beschleunigen, Differenzierung unterstützen - aber eben nicht das pädagogische Urteil ersetzen.
Pflegeberufe: Die ganzheitliche Einschätzung, ob ein Bewohner heute „anders" ist, ob das ein beginnender Infekt oder eine depressive Episode ist, entsteht aus akkumulierter Beziehungserfahrung. KI kann Vitalwerte monitoren und Dokumentation übernehmen. Das klinische Urteil selbst bleibt eine Hard Task.
Handwerk und Industrie mit hohem Diagnoseanteil: Hier liegt einer der anschaulichsten Belege dafür, warum der Easy/Hard-Unterschied nicht mit „digital" oder „analog" verwechselt werden darf. Im Handwerk ist die Situation bekannt: Eine Altbauinstallation ohne Pläne, eine Heizungsanlage mit Kombinationsdefekt, ein Dachstuhl, dessen Originalzustand sich nur durch Inaugenscheinnahme erschließt. Das alles ist strukturell hard, weil der Kontext jeden Fall einmalig macht. KI kann hier unterstützen, aber kein Modell kennt den konkreten Gebäudezustand (vgl. Acemoglu, 2024).

In der Industrie ist das Bild oft noch schärfer. Viele mittelständische Fertigungsbetriebe in der Region betreiben Maschinenparks, die über Jahrzehnte gewachsen sind: Eine CNC-Fräse von 1994 neben einer hochmodernen Bearbeitungsstation, verbunden durch selbst entwickelte Übergangslösungen, deren Logik nur noch ein erfahrener Industriemechaniker oder Zerspanungsmechaniker im Kopf hat. Fehlt die Dokumentation, dann ist die Fehlerdiagnose keine Routine, sondern ein Kombinationsurteil aus Erfahrung, Materialkunde, Maschinenkunde und situativem Kontext. Welches Geräusch deutet auf welchen Verschleiß an welcher Komponente hin? Warum produziert die Anlage heute Ausschuss, obwohl die Parameter identisch sind mit gestern? Diese Fragen haben oft keine Antwort im Handbuch, weil das Handbuch für eine Maschine gilt, die so nicht mehr existiert. Genau das beschreibt Acemoglu als strukturelles Merkmal von Hard Tasks: Es fehlt an verlässlichen, beobachtbaren Erfolgskriterien und an einem klaren Mapping zwischen Handlung und Ergebnis (vgl. Acemoglu, 2024).

KI kann bei gut dokumentierten Standardanlagen mit vollständigen Fehlerprotokollen sehr hilfreich sein. Aber genau diese Dokumentation fehlt in weiten Teilen der Industrielandschaft. Damit bleibt die Diagnosekompetenz erfahrener Fachkräfte für Metalltechnik, Industriemechaniker/innen, Zerspanungsmechaniker/innen oder Verfahrensmechaniker/innen ein strukturell schwer automatisierbares Gut - aber nicht wegen fehlender KI-Fähigkeiten, sondern wegen fehlender Lerndaten.

Implikationen für die Ausbildung

KI üben, nicht verbieten - aber geregelt

Die bisherige Ausbildungslogik ist stark auf Easy-Task-Kompetenz ausgerichtet: korrekte Buchungssätze, normgerechte Korrespondenz, Standardsoftware bedienen. Diese Grundlagen bleiben nötig - aber nur als Basis, nicht als Alleinstellungsmerkmal. Gleichzeitig ist KI-Nutzung in der Ausbildung keine Bedrohung, sondern Realität. Die Frage ist nicht ob, sondern wie.

Hier bietet die AI Assessment Scale (AIAS) von Perkins, Roe & Furze (2025) einen praxiserprobten Rahmen: Die Skala definiert fünf Stufen - von „No AI" über „AI Planning" und „AI Collaboration" bis „Full AI" und „AI Exploration" - und gibt Ausbilder/innen damit ein Instrument, um für jede Aufgabe transparent festzulegen, welche KI-Nutzung angemessen und welche lernhinderlich ist (vgl. Perkins, Roe & Furze, 2025).

Entscheidend dabei: Ein bloßes Label („Diese Aufgabe ist Stufe 3") ohne strukturelle Änderung der Aufgabenmechanik ist wirkungslos. Die AIAS ist ursprünglich aus dem Hochschulkontext entwickelt worden. Der Transfer in die duale Berufsbildung ist plausibel und naheliegend, aber eben eine Übertragung, keine direkte Evidenz (vgl. Perkins, Roe & Furze, 2025).

Das bedeutet in der Praxis: Auszubildende müssen KI-Nutzung systematisch üben, bevor sie in Prüfungssituationen erwartet oder erlaubt wird. Ein weiterer Grundsatz zieht sich durch die Forschung: Erst verstehen, dann automatisieren lassen. Wer die Logik hinter einer Kalkulation nie selbst durchdacht hat, kann nicht erkennen, wenn das KI-Ergebnis falsch ist. Die AIAS-Stufen sind deshalb kein Qualitätsurteil (höher ist nicht besser), sondern ein Lernpfad (vgl. Perkins, Roe & Furze, 2025).

Hard-Task-Kompetenz explizit machen

Beratung in unklaren Situationen, Konfliktnavigation unter Zeitdruck, Urteilsbildung ohne vollständige Information - diese Kompetenzen wurden in der Ausbildung bisher oft implizit erwartet oder im besten Fall on-the-job mitgelernt. Sie müssen jetzt explizit benannt, gezielt geübt und konsequent auch in Prüfungsformaten sichtbar gemacht werden, wenn wir in Zukunft beruflich handlungskompetente Facharbeiter/innen haben möchten. Über Berufsfelder hinweg teilen sie dieselbe Grundstruktur: Kontextabhängigkeit, fehlende Messbarkeit des Erfolgs, Begründungspflicht (vgl. Acemoglu, 2024).

Implikationen für Prüfungen

Wir sind besser aufgestellt als die Debatte vermuten lässt

In der Welt der Zuständigen Stellen nach dem Berufsbildungsgesetz (BBiG) herrscht gerade erhebliche Unruhe beim Thema KI und Prüfen. Viel davon ist begründet, ein Teil davon ist aber Halbwissen, welches zu Verbotsreflexen führt. Diese sind weder rechtlich haltbar noch didaktisch sinnvoll.

Ein nüchterner Blick zeigt: Das (IHK-)Prüfungssystem bringt strukturelle Stärken mit, die in der Debatte zu wenig gesehen werden. Das wichtigste Argument kommt aus der Rechtswissenschaft. Ein im Frühjahr 2026 im Auftrag des Bundesministeriums für Bildung erstelltes Rechtsgutachten der TU Braunschweig hält fest: Ein pauschales KI-Verbot scheidet aus rechtsstaatlichen Gesichtspunkten aus und kann nicht in Prüfungsordnungen aufgenommen werden (vgl. Heckmann, Paschke & Rachut, 2026). Der Grund ist präzise dargelegt: Ein Verbot, das nicht durchgesetzt werden kann, weil der Nachweis des Verstoßes technisch nicht möglich ist, ist kein belastbares Rechtsinstrument.

KI-Detektoren sind für prüfungsrechtliche Entscheidungen unzulässig, da ihre Ergebnisse Wahrscheinlichkeitsangaben sind und keine Beweise (vgl. Heckmann, Paschke & Rachut, 2026). Zudem diskriminieren sie nachweislich nicht-muttersprachliche Schreibende (vgl. Weber-Wulff et al., 2023). Das Gutachten kommt stattdessen zu einem konstruktiven Schluss: Ein sinnvoller KI-Einsatz in der beruflichen Bildung scheitert nicht an rechtlichen Hürden, sondern bedarf der richtigen Ausgestaltung (vgl. Heckmann, Paschke & Rachut, 2026). Und genau diese Ausgestaltung ist Gestaltungsaufgabe - und keine Bedrohung.

Das Validitätsproblem und warum Verbote es nicht lösen können

Prüfungen messen bisher überwiegend Easy Tasks - aus demselben Grund wie KI-Modelle: Klare Erfolgskriterien lassen sich leicht in Prüfungsaufgaben übersetzen. Eine Buchung ist richtig oder falsch, ein Code läuft oder läuft nicht. Das Problem: Prüfungen, die primär das messen, was KI bereits zuverlässig erledigt, verlieren ihre Aussagekraft für beruflichen Erfolg (vgl. Acemoglu, 2024).

Die Konsequenz des Gutachtens ist klar: Aufgabenstellung und Bewertungskriterien müssen so angepasst werden, dass eine eigenständige, bewertbare Leistung der Prüfungsteilnehmenden erkennbar ist. Von einer eigenständigen Leistung ist dann auszugehen, wenn der menschliche Anteil für das Ergebnis maßgeblich ist - nicht zwingend in der Quantität, sondern in der qualitativen Überarbeitung, der kritischen Steuerung und der Begründung (vgl. Heckmann, Paschke & Rachut, 2026).

Assessment Twins: Wir machen das schon und müssen es besser benennen

Hier liegt eine echte Stärke des (IHK-)Prüfungssystems, die in der aktuellen Debatte zu wenig gesehen wird. Roe, Perkins & Giray (2026) schlagen das Konzept der Assessment Twins vor: Eine KI-vulnerable Prüfungsaufgabe wird mit einer komplementären, weniger vulnerablen Aufgabe gekoppelt. Beide messen dieselben Lernziele, aber über unterschiedliche Kanäle.

Die erste Komponente lässt KI zu. Sie behält dabei ihren pädagogischen Wert als formative Lernaufgabe, auch wenn das Ergebnis allein keine zuverlässige Aussage über echte berufliche Handlungsfähigkeit erlaubt.
Die zweite Komponente liefert die summative Bestätigung: Sie prüft über einen weniger KI-vulnerablen Kanal, ob hinter dem Ergebnis der ersten Aufgabe echtes Verstehen steckt.

In Übertragung auf den hier entwickelten Rahmen: Die erste Komponente kann als Easy-Task-Nachweis fungieren, die zweite als Hard-Task-Verifikation (vgl. Roe, Perkins & Giray, 2026).

Das (IHK-)Prüfungssystem hat dieses Prinzip in vielen Bereichen bereits strukturell verankert - ohne es so zu nennen. Das gestreckte Prüfungsverfahren in kaufmännischen Berufen mit schriftlichem Teil und mündlichem Fachgespräch folgt genau dieser Logik. Die praktische Prüfung mit anschließendem Fachgespräch bei Mechatronikern tut dasselbe. Eine Projektarbeit mit Präsentation und anschließendem Fachgespräch im Sinne eines Kolloquiums ebenfalls.

Das ist kein Zufall. Es ist das Ergebnis jahrzehntelanger prüfungsdidaktischer Erfahrung, die intuitiv genau das löst, was die Forschung jetzt als Assessment-Twin-Prinzip beschreibt: Cross-Verifikation durch komplementäre Evidenzformen (vgl. Roe, Perkins & Giray, 2026).

Die Aufgabe ist also nicht, das System zu erfinden, sondern es klüger zu kommunizieren, gezielt weiterzuentwickeln und auf neue Berufsbilder und KI-Kontexte zu übertragen. Dabei hilft das Bewusstsein, dass die „Assessment Twins" ein noch junges, wissenschaftlich noch nicht breit validiertes Konzept sind. Es ist ein vielversprechender Designansatz, kein etablierter Standard (vgl. Roe, Perkins & Giray, 2026). Hier können Prüfungserstellungsausschüsse und Prüfungsausschüsse konkret im Rahmen der Verordnungen der verschiedenen Berufsbilder gestalten.

Anwendungsbeispiele:

Primäraufgabe (KI-vulnerabel)	Twin-Aufgabe (Hard-Task-Verifikation)	Berufsfeld
KI-gestützte Ausarbeitung eines Beratungskonzepts	Fachgespräch zu Grenzsituationen im Konzept	Bankkaufleute
Fehleranalyse nach Fehlercodes an dokumentierter Anlage	Diagnose an einer Altmaschine ohne vollständige Dokumentation	Industriemechaniker/in
Reklamationsantwort mit KI	Rollenspiel: dasselbe Anliegen im Direktgespräch	Kaufleute im Einzelhandel
KI-unterstützte Unterweisungsplanung	Reflexionsgespräch zu einer konkreten Situation	Ausbilder/innen nach AEVO

Die Bewertung muss dabei interdependent gestaltet sein und nicht einfach einer 50/50-Logik folgen. Roe, Perkins & Giray (2026) skizzieren dafür zwei Modelle:

Im Threshold-Modell muss die Twin-Aufgabe eine Mindestschwelle erreichen, damit die Primäraufgabe überhaupt gewertet wird (faktisch ein binäres Ja/Nein).
Im Bestätigungsmodell fließt die Twin-Leistung als Gewichtungsfaktor ein: Eine Ausarbeitungsnote von 80 Punkten, multipliziert mit einem Bestätigungsfaktor 1/2 (unzureichende Leistung im Fachgespräch), ergibt eine Endnote von 40 Punkten - unabhängig von der Qualität des schriftlichen Ergebnisses.

Das Rechtsgutachten stützt diese Logik: Wer im Fachgespräch nicht zeigen kann, dass er den Inhalt seiner Ausarbeitung versteht, kann für die Ausarbeitung keine volle Punktzahl erhalten (vgl. Heckmann, Paschke & Rachut, 2026). Das ist schlüssig und sorgt für Fairness im Prüfungsverfahren.

Die drei Handlungsfelder für die IHK-Prüfungspraxis

Das Rechtsgutachten schlägt weiterhin ein strukturiertes „KI-Einsatz-Drehbuch" vor, das sich in drei operative Handlungsfelder übersetzen lässt (vgl. Heckmann, Paschke & Rachut, 2026):

1. Aufgaben und Bewertungskriterien anpassen

Nicht inhaltlich die Prüfungsordnung, sondern die konkrete Prüfungsaufgabe. Aufgaben, die durch KI vollständig lösbar sind, ohne dass berufliche Handlungsfähigkeit sichtbar wird, sind prüfungsrechtlich bereits heute problematisch (Art. 12 GG). Die Anpassung ist also nicht nur didaktisch sinnvoll, sondern rechtlich geboten (vgl. Heckmann, Paschke & Rachut, 2026). Für die Möglichkeit interdependenter Bewertung werden allerdings Bewertungsschemata in Prüfungsordnungen angepasst werden müssen.

2. Transparenz und klare Kommunikation

Prüflinge müssen vorab wissen, was erlaubt ist und was nicht. Ohne klare Vorgaben entstehen Rechtsunsicherheit und de facto ungleiche Prüfungsbedingungen. Das Gutachten empfiehlt konkrete Prüfungsbelehrungen und modifizierte Eigenständigkeitserklärungen, die nicht mehr auf das unrealistische KI-Verbot, sondern auf die Letztverantwortung der Prüflinge für die abgegebenen Inhalte abstellen (vgl. Heckmann, Paschke & Rachut, 2026).

3. KI als Assistenzsystem auf Prüferseite einführen

Aufgabenerstellung, Musterlösungen, Vorkorrektur als Arbeitserleichterung. Das Gutachten zeigt: Vieles davon ist rechtlich bereits heute zulässig (Stufe 1 und 2 des im Gutachten genannten Kritikalitätsschemas), wenn die menschliche Letztentscheidung erkennbar bleibt (vgl. Heckmann, Paschke & Rachut, 2026).

Was nicht zulässig ist:

KI-Detektoren als Beweismittel (vgl. Weber-Wulff et al., 2023; Heckmann, Paschke & Rachut, 2026)
Vollautomatisierte Korrektionen ohne menschliche Überprüfung
Bloße Plausibilitätsstichproben bei KI-Vorkorrekturen

Dabei bleibt für den Einsatz auf Prüferseite ein erheblicher Rechtsklärungsbedarf bestehen, der in diesem Working Paper nicht behandelt werden kann: Sobald Prüfungsunterlagen mit personenbezogenen Daten in cloudbasierte KI-Dienste eingespielt werden, stellt sich die Frage nach Datenschutz-Grundverordnung (DSGVO)-konformer Verarbeitung und der Vereinbarkeit mit den Anforderungen des EU AI Acts - insbesondere, da Bewertungssysteme in Bildungskontexten unter die Hochrisiko-Kategorien des EU AI Acts fallen können. Prüfende Stellen tun gut daran, diese Fragen nicht auf eigene Faust zu lösen, sondern datenschutzrechtliche Beratung einzuholen und rechtskonforme Werkzeuge einzusetzen, bevor irgendwelche cloudbasierten KI-Werkzeuge systematisch oder individuell in Prüfungsprozesse integriert werden.

Fazit: Wer jetzt gestaltet, ist vorne

Die Frage, wie KI die Berufswelt verändert, hat eine klare Antwort - sie lautet nur anders als erwartet. Nicht ganze Berufe verschwinden, sondern einzelne Aufgabentypen geraten unter Druck: jene, bei denen Erfolg messbar ist, Handlungen und Ergebnisse klar zusammenhängen und Feedback objektivierbar ist. Wer Ausbildung und Prüfungen entlang dieser Linie neu justiert, schützt nicht nur die Validität von Abschlüssen. Er sorgt dafür, dass Absolventinnen und Absolventen beruflich handlungsfähig sind - in einer Welt, in der KI-Tools Standard werden.

Für die duale Berufsbildung bedeutet das konkret: Die Stärken des Systems (Praxisbindung, Fachgespräch, Projektkolloquium, erfahrene Prüfende) sind genau die Elemente, die in einer KI-durchdrungenen Arbeitswelt an Bedeutung gewinnen - nicht verlieren. Das Assessment-Twin-Prinzip beschreibt nicht etwas Neues, das eingeführt werden müsste, es beschreibt, was das (IHK-)Prüfungssystem strukturell bereits leistet und was jetzt systematisch weiterentwickelt werden sollte.

Der rechtliche Rahmen ist klar genug für entschlossenes Handeln. Ein pauschales KI-Verbot ist rechtsstaatlich nicht tragfähig, KI-Detektoren sind als Beweismittel ungeeignet, und intelligente Prüfungsgestaltung ist rechtlich zulässig und didaktisch geboten (vgl. Heckmann, Paschke & Rachut, 2026). Was bleibt, ist die Gestaltungsaufgabe - und die liegt bei denjenigen, die Ausbildungsordnungen entwickeln, Prüfungsaufgaben formulieren und Ausbildungsbetriebe beraten. Berufsbildung hatte immer die Aufgabe, Menschen auf eine Arbeitswelt vorzubereiten, die sich verändert. KI ist in dieser Hinsicht kein Bruch, sondern eine Zuspitzung. Die Frage ist nicht, ob wir uns anpassen, sondern ob wir es klug genug tun werden.

Literatur

Acemoglu, D. (2024). The Simple Macroeconomics of AI. MIT Working Paper. https://economics.mit.edu/sites/default/files/2024-04/The%20Simple%20Macroeconomics%20of%20AI.pdf
Brynjolfsson, E., Li, D., & Raymond, L. R. (2023). Generative AI at Work. NBER Working Paper No. 31161. https://doi.org/10.3386/w31161
Heckmann, D., Paschke, A., & Rachut, S. (2026). Künstliche Intelligenz in der beruflichen Bildung. Wissenschaftliches Rechtsgutachten mit Praxisempfehlungen. Institut für Rechtswissenschaften, TU Braunschweig. https://doi.org/10.24355/dbbs.084-202604280915-0
Noy, S., & Zhang, W. (2023). Experimental evidence on the productivity effects of generative artificial intelligence. Science, 381(6654), 187-192. https://doi.org/10.1126/science.adh2586
Peng, S., Kalliamvakou, E., Cihon, P., & Demirer, M. (2023). The Impact of AI on Developer Productivity: Evidence from GitHub Copilot. https://doi.org/10.48550/arXiv.2302.06590
Perkins, M., Roe, J., & Furze, L. (2025). Reimagining the Artificial Intelligence Assessment Scale (AIAS). Journal of University Teaching and Learning Practice, 22(7). https://doi.org/10.53761/rrm4y757
Roe, J., Perkins, M., & Giray, L. (2026). Assessment twins: An approach for strengthening assessment validity in the age of generative AI. Journal of Applied Learning & Teaching, 9(2). https://doi.org/10.37074/jalt.2026.9.2.3
Weber-Wulff, D., et al. (2023). Testing of detection tools for AI-generated text. International Journal for Educational Integrity, 19(1), 26. https://doi.org/10.1007/s40979-023-00146-z

[^1]: TFP (Total Factor Productivity) misst die Effizienz, mit der eine Wirtschaft ihre Ressourcen nutzt. Ein Zuwachs von 0,71% pro Jahr ist deutlich unter den historischen Durchschnittswerten von 2-3%. Acemoglus Aussage: KI wird die Gesamtwirtschaft moderater ankurbeln als oft behauptet, auch wenn einzelne Berufe und Aufgaben stärker betroffen sind.

Dieser Artikel steht nicht unter einer freie Lizenz, kann und darf aber wissenschaftlich zitiert werden.

Zitat: Ulrich Ivens (2026), Working Paper 1/2026 KI in der Ausbildung: Easy vs. Hard Tasks und die (IHK-)Prüfung URL: https://www.ulrichivens.de/2026/06/25/ki-in-der-ausbildung-easy-vs-hard-tasks-und-die-ihk-pruefung/