CÓD.S01-07 ONLINE

Vital Emo: The boredom detector with a machine learning perspective

Background: Boredom is one of the main problems in 21st-century educational environments. Today’s society is hyperconnected and exposes us to many daily stimuli. This overstimulation can negatively affect students who are facing several hours of online classes, especially in the context of COVID-19. In these classes, students experience a shortage of stimuli, resulting in boredom and a shorter attention span. Past studies have shown that certain facial patterns help detect lack of engagement and boredom.

Methodology: This is a work-in-progress paper that presents the development, architecture, and evaluation of a tool called VITAL EMO. Through artificial intelligence (trained with facial patterns), this tool seeks 1) to detect, through a camera, students’ boredom, and 2) to alert teachers of this situation. The creation of the dataset used to train the AI was carried out with 12 people. The participants took part telematically. Each was recorded as they watched a video and answered questions about it.

Results: Despite using a small dataset, the study results show that it is possible to detect facial patterns associated with engagement and boredom. Online students’ faces are sufficient to detect characteristic patterns of boredom or engagement, but not to determine their degree with accuracy. Our artificial intelligence has managed to classify these states from explicit gestures, i.e., facial occlusion caused by the hand, smiling, having the eyes wide open, or facing the camera directly. According to the literature, these gestures represent typical boredom and engagement signals. In the case of holding the head with the hand, the trained AI tends to recognize boredom more easily when the person uses the left hand. This is due to a reduced dataset in which we have few images of people using the right hand to hold their head, even though both are clear patterns of boredom. The generated dataset is not large nor varied enough due to limited resources available. The authors would like to highlight one more time that this is a work-in-progress paper in which only preliminary results from a first developmental stage are presented, which does not mean this is not a valuable endeavor to be shared with the academic community.

Conclusion: This paper introduces an exploration of the boredom/engagement detection procedures that AI is making possible currently. Since the prospective work is focused on taking advantage of this knowledge to send the teacher information about the state in which their students are, we wanted with this paper to make a declaration of intentions to the specialists to open discussion and collaboration. The results pave the way for future research with a larger dataset to increase the effectiveness of AI and further develop the VITAL EMO tool.

Autores:

  1. Manero-Iglesias, Borja, Associate Professor, Faculty of Computer Sciences, Complutense University of Madrid, bmanero@ucm.es
  2. Ros-Velasco, Josefa, MSCA Postdoctoral Fellow in Boredom Studies, Faculty of Philosophy, Complutense University of Madrid, josros@ucm.es
  3. El-Yamri, Meriem, Predoctoral Fellow in Computer Sciences, Faculty of Computer Sciences, Complutense University of Madrid, melyamri@ucm.es
  4. Isar-Muñoz, Diego, BA in Computer Sciences, Faculty of Computer Sciences, Complutense University of Madrid, diegisar@ucm.es
  5. Ortiz-Marchut, Álvaro, BA in Computer Sciences, Faculty of Computer Sciences, Complutense University of Madrid, alvort03@ucm.es
  6. Padilla-Rodríguez, Daniel, BA in Computer Sciences, Faculty of Computer Sciences, Complutense University of Madrid, danpad01@ucm.es
  7. Prieto-Ibáñez, Sofía, BA in Computer Sciences, Faculty of Computer Sciences, Complutense University of Madrid, sofiapri@ucm.es

Palabras clave

Artificial Intelligence Boredom Education Machine Learning Online Teaching

Ponencia Online

Documentación de apoyo a la presentación ONLINE de la ponencia

Ver el video en youtube

Documento Complementario de Apoyo
Descargar DIAPOSITIVAS.pdf


Firmantes

Los autores de la ponencia

profile avatar

Josefa Ros Velasco

Ver Perfil

profile avatar

Borja Manero

Ver Perfil

profile avatar

Meriem El Yamri

Ver Perfil

profile avatar

Álvaro David Ortiz Marchut

Ver Perfil


Preguntas y comentarios al autor/es

Hay 2 comentarios en esta ponencia

    • profile avatar

      Ángel Fco. Tenorio Villalón

      Comentó el 11/11/2021 a las 13:30:24

      La herramienta es muy interesante ya que en un contexto de docencia virtual permitiría al docente saber si el alumnado se está desconectando de lo que se está explicando o si conviene un cambio de registro o modificar alguna actuación para favorecer la motivación... Lo cual es sumamente complicado a través de una plataforma educativa y sus herramientas de videoconferencia (es imposible ver si están poniendo caras de póker con una vista general como en una sesión presencial).

      Me surge una duda sobre la aplicabilidad del software. ¿Tendría que eestar integrado en la herramienta de videoconferencia? Si no es posible, ¿podría haber problemas para compatibilizar que se acceda a toda la información de transmisión del servidor donde se produce la transmisión? ¿Podría tenerse la info en tiempo real?
      Un saludo y gracias por la comunicación

      Responder

      • profile avatar

        Josefa Ros Velasco

        Comentó el 12/11/2021 a las 12:06:33

        ¡Buenos días, Ángel!
        Existirían tres posibilidades:
        - Integrarlo en las plataformas con nuestra API (Un punto de conexión a nuestro servidor) así, la plataforma nos enviaría todos los vídeos, para que así, nosotros procesemos la información.
        Desventajas: Es complicado hacerlo a tiempo real, ya que dependemos del ancho de banda y del estado de la conexión.
        - Hacer una plataforma de videoconferencias para que procese todos los datos en nuestro servidor.
        Desventajas: La capacidad de procesamiento sería enorme, ya que no solo deberíamos transmitir con poca latencia (retardo), sino que además deberíamos procesar todas las imágenes en nuestra inteligencia artificial.
        - Descargar la aplicación para que grabe todo el contenido que se ve en la plataforma.
        Desventajas: En el caso de haber muchos alumnos conectados, existirá pérdida de información, por ejemplo, Google Meet no permitiría visualizar a 80 alumnos, y en el caso de permitirlo, las imágenes serían tan pequeñas que nuestra inteligencia artificial no podría detectar rasgos faciales
        En las tres posibilidades descartaría hacerlo a tiempo real, ya que supongamos que tenemos una clase de 10 personas con la cámara encendida, cada una tiene lo mínimo para que un vídeo se vea fluido, es decir 24 fps (imágenes por segundo). Nuestra inteligencia artificial debería analizar un mínimo de 240 imágenes en un segundo. Otra opción sería recortar la cantidad de imágenes por segundo, pero se perdería información importante como los parpadeos. Finalmente podríamos analizar los vídeos, por ejemplo, cada 5 minutos, y actualizar la información cada dicho tiempo.
        Esperamos haber resulto sus preguntas y muchas gracias por su interés en la herramienta.
        Un cordial saludo,
        Vital Emo.

        Responder


Deja tu comentario

Lo siento, debes estar conectado para publicar un comentario.