Offene und halboffene Antwortformate sind Bestandteil nahezu aller Umfragen in den Sozial-, Verhaltens-, Bildungs- und Wirtschaftswissenschaften. In der Regel dienen sie der empirischen Operationalisierung von theoretischen Konstrukten, für die es nicht möglich oder sinnvoll ist, alle relevanten Antwortmöglichkeiten im Instrument darzustellen. Die (Nach-)Nutzbarkeit solcher Daten für quantitative Analysen ist wiederum abhängig von der – typischerweise ex-post vorgenommenen – Kodierung der Textinformationen und der anschließende Ableitung geeigneter Standardvariablen. Die manuelle Kodierung ist dabei eine zeitaufwändige, fehleranfällige und kostspielige Aufgabe angesichts von Hunderten oder gar Tausenden von Kategorien. Ein einschlägiges Beispiel sind Berufsbezeichnungen, deren analytisches Potenzial sich erst mit der Kodierung (z. B. ISCO, KldB) und der Ableitung von Status-, Klassen- oder Prestigeindikatoren (z. B. ISEI, SIOPS, EGP-Schema, CAMSIS) erschließen lässt. Insbesondere Panelstudien mit umfangreichen Bildungs- und Erwerbsbiographien stehen vor der Herausforderung, große Mengen von Texteinträgen – oftmals innerhalb kurzer Zeit – qualitativ hochwertig und konsistent kodieren zu müssen.