Наиболее совершенной нейронной сетью на базе NLP (алгоритмов обработки естественного языка) к настоящему моменту является нейронная сеть-трансформер GPT-3, способная к генерации связных ответов на вопросы, задаваемыми людьми. В сравнении с GPT-2 (предыдущим поколением) количество параметров, используемых нейросетью, возросло в 100 раз.

Но даже самые развитые трансформеры, при обучении которых использовались большие массивы данных, не могут понять смысл генерируемого текста. Чтобы обучить их, необходимы гигантский объем данных и огромные вычислительные мощности. Также трудностью является то, что не все датасеты подходят для обучения нейросетей, так как во многих источниках из Интернета может содержаться ложная информация или манипуляции.

На данном этапе цель разработчиков – создание таких мультимодальных систем, которые свяжут распознавание текста с сенсорным восприятием, чтобы более эффективно обрабатывать данные и находить решения.