Una encuesta sobre los sistemas de respuesta a preguntas sobre salud del consumidor

Publicado por primera vez:27 de noviembre de 2023

Abstracto

Los consumidores utilizan cada vez más la web para encontrar respuestas a sus consultas relacionadas con la salud. Desafortunadamente, a menudo tienen dificultades para formular las preguntas, lo que se ve agravado por la carga de tener que revisar largos documentos devueltos por el motor de búsqueda para buscar respuestas confiables. Para aliviar estas cargas para los usuarios, los sistemas automatizados de respuesta a preguntas sobre salud del consumidor intentan simular a un profesional humano refinando las consultas y dando las respuestas más pertinentes. Este artículo analiza enfoques, recursos y métodos de evaluación de última generación utilizados para responder automáticamente a preguntas sobre la salud del consumidor. Resumimos los principales logros de la comunidad de investigación y la industria, discutimos sus fortalezas y limitaciones y finalmente presentamos recomendaciones para mejorar aún más estos sistemas en términos de calidad, compromiso y semejanza humana.

INTRODUCCIÓN

En la búsqueda web tradicional, el usuario ingresa una consulta basada en palabras clave en un motor de búsqueda, y el motor de búsqueda devuelve una lista de documentos que probablemente contengan la respuesta que el usuario busca. Sin embargo, tener que recorrer una larga lista de registros para encontrar la respuesta deseada es cognitivamente exigente. A veces, los usuarios necesitan reformular la consulta varias veces hasta que lo que buscan coincide con el vocabulario del dominio. La respuesta automática a preguntas (QA) aborda estos problemas proporcionando respuestas directas y concisas a las consultas de los usuarios expresadas en lenguaje natural. Además, revisa errores ortográficos y reformula las consultas para reducir ambigüedades semánticas. Sin embargo, esta tarea es un desafío ya que el lenguaje natural suele ser ambiguo. Además, construir una respuesta requiere una comprensión detallada de la pregunta formulada, conocimiento experto del dominio y formas automáticas de generar texto utilizando, por ejemplo, modelos de generación de lenguaje (Datla, Arora et al. 2017 ).

El control de calidad automático puede ser general o específico de un dominio, también conocido como control de calidad de dominio abierto y restringido. El control de calidad de dominio abierto responde preguntas factoides o no factoides de una amplia gama de dominios, mientras que el control de calidad de dominio restringido responde preguntas de un área especializada, utilizando recursos lingüísticos específicos del dominio que permiten respuestas más precisas a una pregunta determinada (Olvera-Lobo y Gutiérrez-Artacho 2011 ). Tanto el control de calidad de dominio abierto como el de dominio restringido pueden adoptar modales conversacionales de uno o varios turnos. El control de calidad de un solo turno se centra en responder preguntas de forma única, es decir, una pregunta y una respuesta a la vez. En esto, el contexto de un problema no se traslada a otro. Por tanto, el sistema entiende cada pregunta por separado. Recientemente, ha habido un impulso hacia el control de calidad conversacional de múltiples turnos, donde los usuarios pueden interactuar interactivamente con un sistema a través de preguntas de seguimiento, que dependen del contexto anterior. El control de calidad conversacional es más natural y refleja la forma en que los humanos buscan información. Esta encuesta se centra en sistemas de control de calidad conversacionales y de un solo turno restringidos al ámbito de la salud del consumidor debido a su relativa complejidad y margen de mejora, como se analiza en las siguientes secciones.

El público en general consulta cada vez más recursos de conocimiento, especialmente la red mundial, antes o después de una visita al médico, para obtener información sobre una enfermedad, las contradicciones del tratamiento o los efectos secundarios de un medicamento. Sin embargo, a menudo tienen dificultades para encontrar respuestas confiables y concisas a sus preguntas, en parte debido a la complejidad de recorrer el largo texto relacionado con la salud que reciben como resultados. Consumer Health Question Answering (CHeQA) aborda esta preocupación proporcionando respuestas confiables y concisas a las preguntas sobre salud de los consumidores. Esta tarea es más desafiante que el control de calidad de dominio abierto debido a la jerga especializada utilizada en la atención médica y la brecha de conocimiento entre los consumidores y los profesionales médicos (Zweigenbaum 2005 ). Además, la falta de disponibilidad de conjuntos de datos de preguntas y respuestas sobre atención sanitaria a gran escala contribuye a los desafíos. Así, a pesar de la popularidad de los sistemas de control de calidad de dominio abierto (Chen et al. 2017 ; Tay, Tuan y Hui 2018 ; Ferrucci et al. 2010 ; Huang, Choi y Yih 2019 ; Zhu, Zeng y Huang 2018 ), los consumidores Los métodos de control de calidad de la salud son relativamente raros.

La tarea de control de calidad médica organizada por la pista LiveQA de TREC 2017 (Abacha et al. 2017 ) fue la primera en proporcionar un punto de referencia abierto para comparar sistemas CHeQA de un solo giro. La tarea se organizó en el marco del proyecto CHeQA ¹ de la Biblioteca Nacional de Medicina (NLM) de EE. UU. para abordar la respuesta automática a las preguntas sobre salud de los consumidores recibidas por la NLM de EE. UU. Motivó a varios grupos de investigación, como el Open Advancement of Question Answering (CMU-OAQA) de la Universidad Carnegie Mellon (Wang y Nyberg 2017 ), el Instituto de Aplicaciones Informáticas de la Universidad Normal del Este de China (ECNU-ICA) (An et al. 2017 ), Philips Research North America (PRNA) (Datla, Arora et al. 2017 ) y LiveMedQA (CMU-LiveMedQA) de la Universidad Carnegie Mellon (Yang et al. 2017 ) para desarrollar sistemas que se centren en responder preguntas sobre la salud de los consumidores.

Hay muchos estudios que analizan los sistemas de garantía de calidad en general (Gao, Galley y Li 2019 ; Mishra y Jain 2016 ; Bouziane et al. 2015 ) y estudios que abordan la garantía de calidad biomédica o clínica (Sharma et al. 2015 ; Dodiya y Jain 2013 ; Bauer y Berleant 2012 ; Athenikos y Han 2010 ). Una encuesta reciente realizada por Montenegro, da Costa y da Rosa Righi ( 2019 ) revisa los agentes conversacionales en salud. En esta encuesta, identifican una taxonomía de aplicaciones de agentes, desafíos actuales y brechas de investigación asociadas con los agentes conversacionales de atención médica. Sin embargo, la mayoría de los agentes analizados aquí están diseñados para casos de uso específicos, como asesoramiento virtual, seguimiento del estado físico y asistencia a pacientes en hospitales. Por lo tanto, falta en la literatura una encuesta exhaustiva que analice los enfoques y recursos que ayudan en la garantía de calidad de la CHe. Las preguntas sobre salud de los consumidores son diferentes de las preguntas de los profesionales médicos debido a la brecha de vocabulario entre los consumidores y los proveedores de atención médica. En la Tabla 1 se indica un ejemplo que ilustra este escenario . Un sistema ideal debería asignar términos vagos y coloquiales como “espinillas” o “cara de pizza” al mismo concepto médico “acné” o “acné vulgar”, permitiendo al sistema proporcionar respuestas precisas mediante la extracción de textos médicos. Esto plantea un desafío adicional para los sistemas diseñados para responder preguntas sobre la salud de los consumidores. El alcance de ampliar esos sistemas en términos de usabilidad también es más amplio en comparación con el control de calidad clínico.TABLA 1. Dos conversaciones de ejemplo que muestran que la misma pregunta es formulada por dos usuarios diferentes utilizando terminología diferente.

Consumidor_A: Tengo granos desde hace mucho tiempo. ¿ Qué puedo hacer para deshacerme de ellos?

Agente: El tratamiento del acné depende de su gravedad. Si solo tienes algunos puntos negros, puntos blancos y manchas…

Consumidor_B: Tengo cara de pizza desde que era niño. ¿ Qué tipos de remedios están disponibles?

Agente: El tratamiento del acné depende de su gravedad. Si solo tienes algunos puntos negros, puntos blancos y manchas…

Para llenar este vacío, seleccionamos 11 sistemas de control de calidad conversacionales y de un solo turno desarrollados desde 2012, restringidos al ámbito de la salud del consumidor. Revisamos esos sistemas en términos de su enfoque, arquitectura del sistema, fortalezas y limitaciones. Incluimos tanto sistemas basados en investigación como sistemas comerciales de la industria. La Figura 1 resume nuestros criterios de selección y los sistemas encuestados. También revisamos los recursos disponibles utilizados para abordar los desafíos lingüísticos específicos de este dominio y las métricas de evaluación utilizadas para medir su éxito. Finalmente, desarrollamos un conjunto de recomendaciones y pautas para desarrollar sistemas que sean potencialmente más atractivos y parecidos a los humanos. Dirigimos esta encuesta principalmente a audiencias de PNL e IR interesadas en aplicar estas tecnologías y recomendaciones para el avance de la atención médica del consumidor.

Los detalles están en el título que sigue a la imagen. — **FIGURA 1**Abrir en visor de figuras PowerPointCriterios de selección que llevaron a elegir los sistemas de respuesta a preguntas sobre salud del consumidor para la encuesta. Los criterios resaltados en azul conducen a enfoques CHeQA.

ENFOQUES VERDADEROS

Agrupamos estos 11 sistemas en tres categorías en términos del enfoque seguido para responder las preguntas sobre salud de los consumidores.

1.Enfoques tradicionales basados en la recuperación de información
2.Cuestionar enfoques basados en similitud/vinculación
3.Enfoques basados en gráficos de conocimiento

Los sistemas que utilizan cada uno de los enfoques anteriores para responder las preguntas sobre la salud de los consumidores se indican en la Figura 2 . También existen algunos métodos híbridos, que combinan los puntos fuertes de más de uno de los enfoques anteriores (Demner-Fushman, Mrabet y Ben Abacha 2020 ; Yang et al. 2017 ). Dichos sistemas se indican con círculos de dos colores en la Figura 2 . Las siguientes subsecciones describen en detalle los enfoques anteriores y los sistemas individuales que utilizan estos enfoques.

En la Tabla 2 se indica un resumen de los detalles de los sistemas CHeQA comerciales y basados en investigaciones en términos de la colección de documentos utilizados, los recursos utilizados, los conjuntos de datos de evaluación y las puntuaciones de desempeño .TABLA 2. Resumen de los sistemas de respuesta a preguntas sobre salud del consumidor comerciales y de investigación.

Sistema	Enfoque de principios utilizado	Colección de documentos	Otros conjuntos de datos o recursos utilizados	Conjuntos de datos de evaluación	Puntajes de desempeño
Sistemas de I+D
CMU-OAQA (Wang y Nyberg 2017 )	Recuperación de información tradicional	World Wide Web, Yahoo! Respuestas	Ninguno	Conjunto de datos de pruebas médicas de preguntas y respuestas de TREC LiveQA 2017 (104 pares de preguntas y respuestas)	0,637 (puntuación media)
PRNA (Datla, Arora et al. 2017 )	gráfico de conocimiento	Gráfico de conocimiento compuesto por artículos de Wikipedia.	NLP engine (Hasan et al. 2014)	TREC LiveQA’17 Medio	0,490 (puntuación media)
ECNU-ICA (An et al. 2017)	Similitud de preguntas	Yahoo! Respuestas, Respuestas.com	Ninguno	TREC LiveQA’17 Medio	0,402 (puntuación media)
Enfoque de vinculación de preguntas (Abacha y Demner-Fushman 2019a )	Vinculación de preguntas	Conjunto de datos MedQuAD (47,457 pares de preguntas y respuestas médicas seleccionados de 12 sitios web confiables de los NIH)	Motor de búsqueda de terrier (terrier.org); Conjuntos de datos de pares de oraciones de Stanford Natural Language Inference (SNLI) (Bowman et al. 2015 ) y multiNLI (Williams, Nangia y Bowman 2018 ); Quora ² ; QE clínico (Abacha y Demner-Fushman 2016 ); y conjuntos de datos de pares de preguntas SemEval-cQA (Nakov et al. 2016 )	TREC LiveQA’17 Medio	0,827 (puntaje promedio), 0,311 MAP@10, 0,333 MRR@10
CMU-LiveMedQA (Yang et al. 2017)	Gráfico de conocimiento tradicional IR +	Conjunto de datos de desarrollo de preguntas y respuestas médicas TREC LiveQA’17 (634 pares de preguntas y respuestas)	Conjunto de herramientas NLTK Bird (Bird 2006 ); y conjunto de datos de descomposición de preguntas GARD (Roberts, Masterton et al. 2014 )	TREC LiveQA’17 Medio	0,353 (puntuación media)
CHiQA (Demner-Fushman, Mrabet y Ben Abacha 2020 )	Similitud de preguntas IR + tradicional	MedlinePlus ( medlineplus.gov )	MetaMapa Lite	Preguntas simples de Alexa (104 pares de preguntas y respuestas)	2,336 (puntaje promedio), 0,766 MAP@10 y 0,866 MRR@10
				Conjuntos de datos de prueba y desarrollo de TREC LiveQA’17 Med (634 y 104 pares de preguntas y respuestas, respectivamente)	1,308 (puntaje promedio), 0,445 MAP@10, 0,516 MRR@10
investigueMe (Wong, Thangarajah y Padgham 2012 )	Similitud de preguntas	Una base de datos con 80.000 pares de preguntas y respuestas de Yahoo! Respuestas.	Ninguno	150 definitional questions extracted from WebMD (Olvera-Lobo and Gutiérrez-Artacho 2011)	94,00% (Precisión)
				274 preguntas (primer conjunto de datos ampliado con preguntas de seguimiento contextuales)	86,86% (Precisión)
				Conjunto de datos de control de calidad entre dominios TREC 2004 con 65 series de preguntas con 351 preguntas en total Voorhees ( 2004 )	87,80% (Precisión)
Sistemas comerciales
Clínica Cleveland	Similitud de preguntas	Contenido existente revisado por médicos	Desconocido	Desconocido	Desconocido
Florencia	Desconocido	MedlinePlus y Wikipedia	Desconocido	Desconocido	Desconocido
Pregunta a WebMD	Desconocido	Respuestas revisadas por médicos en WebMD	Desconocido	Desconocido	Desconocido
MedQué	Desconocido	Contenido de los NIH y los Centros para el Control y la Prevención de Enfermedades (CDC), revistas revisadas por pares de PubMed y artículos de Wikipedia con referencias de calidad.	Desconocido	Desconocido	Desconocido

Enfoques tradicionales basados en la recuperación de información

La recuperación de información se considera la forma más dominante de acceso a la información sobre los datos no estructurados. Dado que la mayor parte de la información sobre la salud de los consumidores está disponible en forma de documentos no estructurados, este enfoque funciona de manera eficiente para responder las preguntas sobre la salud de los consumidores, permitiéndoles consultar información utilizando lenguaje natural. Los enfoques tradicionales de CHeQA basados en la recuperación de información formulan consultas analizando el texto de las preguntas y recuperando las respuestas de los candidatos de colecciones de documentos relacionados con la salud utilizando métodos de puntuación basados en TF-IDF. Emplean técnicas de puntuación neuronales o no neuronales o combinaciones ponderadas para clasificar las respuestas de los candidatos y seleccionar la mejor entre ellas. La Figura 3 ilustra la arquitectura genérica o canalización de un sistema de control de calidad tradicional basado en la recuperación de información.

A pesar de las muchas ventajas de este enfoque, el enorme aumento de información relacionada con la salud en la web puede plantear muchos desafíos, como validar la confiabilidad de las respuestas obtenidas. Dado que en este proceso no interviene ninguna estructura o semántica bien definida, las respuestas obtenidas suelen ser aproximadas. Una de las desventajas importantes de este enfoque es la falta de coincidencia de vocabulario entre las preguntas de salud de los consumidores y los documentos médicos. Los métodos de expansión automática de consultas, como la indexación semántica latente o los métodos con un diccionario de sinónimos automático incorporado, pueden solucionar este problema. Investigaciones adicionales en esta área pueden hacer que este enfoque sea más sólido y confiable.

CMU-OAQA

El sistema CMU-OAQA (Wang y Nyberg 2017 ) utiliza un enfoque tradicional basado en la recuperación de información para responder preguntas de dominio abierto y sobre salud del consumidor. Sigue tres pasos: (1) recuperar páginas web relevantes (Clue Retrieval); (2) extraer las respuestas y clasificaciones de los candidatos (Answer Ranking); y (3) generar la respuesta final concatenando las respuestas de los candidatos mejor clasificados (Answer Passage Tiling). El sistema recupera páginas web relevantes formulando consultas utilizando el texto de la pregunta y enviándolas a motores de búsqueda como Bing Web Search y sitios web comunitarios de control de calidad como Yahoo! Respuestas. Luego, las respuestas de los candidatos (las tuplas título/cuerpo/respuesta que representan preguntas conceptuales o textos de respuesta) se extraen de las páginas web y se clasifican utilizando una combinación ponderada heurísticamente de (a) puntuación de similitud BM25 optimizada sobre el título y los textos del cuerpo; (b) un modelo de redes neuronales recurrentes codificador-decodificador atencional, que estima la relevancia de un texto de respuesta candidato dado un texto de pregunta; y (c) un modelo de identificación de paráfrasis de preguntas basado en vinculación dual neuronal, que predice la relevancia entre la pregunta de entrada y los títulos de las respuestas candidatas. Finalmente, se selecciona un subconjunto de las respuestas candidatas mejor clasificadas mediante un algoritmo voraz y se concatenan para producir la respuesta final. Este enfoque logró la puntuación media más alta de 0,637 en la subtarea médica TREC LiveQA 2017, en comparación con la puntuación media de 0,431. La puntuación promedio [0-3] se calculó en función de las puntuaciones otorgadas por evaluadores humanos en una escala Likert de 4 puntos (1: incorrecta, 2: incorrecta pero relacionada, 3: correcta pero incompleta; 4: correcta y completa) con las respuestas. recuperado por el sistema para preguntas en el conjunto de datos de la prueba de preguntas y respuestas médicas TREC LiveQA 2017 que consta de 104 preguntas médicas y respuestas asociadas.

Enfoques basados en gráficos de conocimiento

Los enfoques basados en gráficos de conocimiento crean y mantienen un gráfico de conocimiento que consta de información relacionada con la salud de manera que preserve la jerarquía de conceptos específicos del dominio médico. Extraen conceptos médicos del texto de la pregunta utilizando un analizador semántico y recorren el gráfico de conocimiento para encontrar la respuesta correcta. La Figura 4 ilustra la arquitectura genérica o canalización de un sistema de control de calidad basado en gráficos de conocimiento.

La principal ventaja de este enfoque sobre los métodos tradicionales y basados en similitudes de preguntas es que los gráficos de conocimiento pueden explicar mejor las respuestas producidas por el sistema. Si los atributos de la pregunta, como el enfoque y el tipo de pregunta, se pueden identificar correctamente, este método puede ser más confiable que los enfoques tradicionales y basados en similitudes de preguntas, ya que recupera respuestas de un gráfico de conocimiento validado y prediseñado que mantiene información de salud actualizada. . Se sabe que este enfoque tiene un rendimiento significativo en preguntas simples (Chakraborty et al. 2021 ). Sin embargo, consultar un gráfico de conocimiento se vuelve difícil cuando aumenta la complejidad de las preguntas, incluidos los agregados, las restricciones y las rutas de relación más largas. Estos métodos de recuperación matizados se consideran el siguiente conjunto de desafíos asociados con el control de calidad basado en gráficos de conocimiento (Chakraborty et al. 2021 ).

PRNA

El sistema PRNA (Datla, Arora et al. 2017 ) utiliza un gráfico de conocimiento compuesto por artículos de Wikipedia para responder preguntas sobre salud de los consumidores. La estructura de enlaces dentro de Wikipedia se convierte en un gráfico de conocimiento donde los nodos representan páginas de Wikipedia, conceptos con hipervínculos y páginas de redireccionamiento, y los bordes representan las relaciones entre ellos (Datla, Hasan et al. 2017 ). Identifica la sección más apropiada que responde a la pregunta extrayendo entidades médicas y clasificando la pregunta en uno de los 23 tipos de preguntas definidos en la subtarea médica TREC LiveQA 2017. Utiliza un motor de PNL (Hasan et al. 2014 ) para extraer entidades médicas como enfermedades, medicamentos y síntomas y normalizarlos para que puedan asignarse a sus correspondientes páginas de Wikipedia. Para identificar el tipo de pregunta se utiliza el algoritmo de extracción de características descrito en Sarker y González ( 2015 ). Si la pregunta tiene varios tipos de subpreguntas, responde a cada subpregunta identificando la sección apropiada en Wikipedia que coincida con el tipo de subpregunta. El sistema PRNA ocupó el segundo lugar en la subtarea médica TREC LiveQA 2017 con una puntuación promedio de 0,490.

Cuestionar enfoques basados en similitud/vinculación

Los enfoques basados en similitud/vinculación de preguntas suponen que la respuesta a una pregunta dada es la mejor respuesta correspondiente a la pregunta más similar o más implicada que ya tiene respuestas asociadas. Por lo tanto, en lugar de recuperar las respuestas que mejor coinciden para una pregunta determinada, este enfoque recupera preguntas similares que ya tienen respuestas asociadas mediante búsquedas en sitios web de preguntas y respuestas o métodos de puntuación basados en TF-IDF. Luego selecciona la mejor respuesta clasificando las preguntas recuperadas según la similitud de las preguntas o la puntuación de implicación de la pregunta calculada utilizando técnicas de puntuación neuronales o no neuronales. La Figura 5 ilustra la arquitectura genérica o canalización de un sistema de control de calidad basado en similitud/vinculación de preguntas.

Dado que preguntas similares encontradas en línea o en bases de datos seleccionadas pueden seguir patrones de conversación similares a los que vemos en preguntas reales sobre salud de los consumidores, y la cantidad de preguntas similares publicadas en línea o recibidas por agencias relacionadas con la salud sigue aumentando, este enfoque tiene el potencial de coincidir mejor. al lenguaje del consumidor que los métodos tradicionales o de gráficos de conocimiento. Elimina la necesidad de identificar explícitamente los atributos de las preguntas, como el enfoque y el tipo de pregunta, como lo requieren los métodos de gráficos de conocimiento, y resuelve los desafíos asociados con los métodos tradicionales y de gráficos de conocimiento en la comprensión de preguntas y la extracción de respuestas. Por lo tanto, los sistemas actuales tienden a centrarse cada vez más en este enfoque para responder a las preguntas sobre la salud de los consumidores.

ECNU-ICA

El sistema ECNU-ICA (An et al. 2017 ) utiliza un enfoque de control de calidad basado en similitudes de preguntas basado en la hipótesis de que la respuesta a la pregunta más similar puede responder mejor a la pregunta original que las demás. Utiliza este enfoque para responder preguntas sobre salud del consumidor y de dominio abierto. En primer lugar, recupera pares de preguntas y respuestas de candidatos semánticamente similares para una pregunta determinada mediante una búsqueda en sitios web de control de calidad de la comunidad, como Yahoo! Respuestas y Answers.com. Luego utiliza dos redes de memoria a corto plazo y larga duración para compartir parámetros (PS-LSTM) entrenadas en preguntas similares de Yahoo! Answers y Answers.com para representar semánticamente la pregunta original y cada pregunta del grupo de preguntas candidatas para conocer la similitud entre ellas. Esta representación se combina con información de palabras clave de las preguntas y se introduce en una función métrica simple para calcular la similitud. Luego, estos pares de preguntas y respuestas de los candidatos se reclasifican combinando las puntuaciones de similitud de cada par de preguntas obtenidas en el paso anterior con información externa, como la fuente y el orden en el sitio web de control de calidad de la comunidad desde donde se recuperaron. El sistema responde con la respuesta del par de preguntas y respuestas del candidato mejor clasificado como la mejor respuesta. Finalmente, juzga si la respuesta es elegible restringiendo la longitud de la respuesta a menos de 1000 (como lo requiere la subtarea médica TREC LiveQA 2017) y eliminando los caracteres ilegibles del texto de la respuesta. Este enfoque logró una puntuación promedio de 0,402 en la subtarea médica TREC LiveQA 2017.

Enfoque de vinculación de preguntas

El enfoque de cuestión-vinculación, desarrollado por Abacha y Demner-Fushman ( 2019a ), reconoce primero preguntas implicadas que ya tienen respuestas asociadas. Se dice que una pregunta A implica una pregunta B si cada respuesta a la pregunta B es también una respuesta correcta a la pregunta A. Para una pregunta determinada, utiliza el motor de búsqueda Terrier ³ para recuperar las preguntas de los candidatos de un conjunto de datos (MedQuAD) con más de 47.000 pares de preguntas y respuestas médicas seleccionadas de 12 sitios web confiables de los NIH. Para mejorar el rendimiento, las preguntas del conjunto de datos se indexan sin las respuestas asociadas. El enfoque de la pregunta, los sinónimos del enfoque de la pregunta, el tipo de pregunta y los términos que desencadenaron el tipo de pregunta también se indexan con cada pregunta para evitar deficiencias en la expansión de la consulta (por ejemplo, sinónimos incorrectos o irrelevantes, mayor tiempo de ejecución). Después de recuperar el conjunto de preguntas candidatas, aplica un clasificador RQE (Recognizing Question Entailment) basado en regresión logística, que está entrenado en Stanford Natural Language Inference (SNLI) (Bowman et al. 2015 ) y multiNLI (Williams, Nangia y Bowman 2018 ) conjuntos de datos de pares de oraciones y conjuntos de datos de pares de preguntas de Quora ⁴ , Clinical-QE (Abacha y Demner-Fushman 2016 ) y SemEval-cQA (Nakov et al. 2016 ), para filtrar las preguntas no implicadas y reclasificar a los candidatos restantes. Finalmente, se recupera la respuesta a la pregunta del candidato mejor clasificado y se presenta como la mejor respuesta. Este enfoque obtuvo una puntuación promedio de 0,827 sobre el conjunto de datos de la prueba de preguntas y respuestas médicas de TREC LiveQA 2017, superando los mejores resultados de la subtarea médica de TREC LiveQA 2017 en un 29,8 %.

Enfoques híbridos para CHeQA

Los enfoques híbridos para CHeQA combinan enfoques tradicionales basados en IR, basados en similitud/vinculación de preguntas y basados en gráficos de conocimiento para construir un sistema CHeQA completo. La idea es aprovechar los méritos de diferentes enfoques para construir un sistema de garantía de calidad más sólido y eficiente. Por ejemplo, los gráficos de conocimiento pueden proporcionar respuestas más precisas a las preguntas sobre la salud de los consumidores que el texto libre. Sin embargo, la naturaleza incompleta de los gráficos de conocimiento puede limitar el alcance de las preguntas que el sistema puede responder. Por lo tanto, un enfoque híbrido que explote tanto un gráfico de conocimiento como la recuperación de información tradicional a través de texto libre puede proporcionar una mejor solución para responder las preguntas sobre la salud de los consumidores.

SALIDA

El sistema Consumer Health Information and Question Answering (CHiQA) (Demner-Fushman, Mrabet y Ben Abacha 2020 ), desarrollado por la Biblioteca Nacional de Medicina de EE. UU. (NLM), recupera respuestas a preguntas sobre salud de los consumidores mediante la búsqueda en MedlinePlus, ⁵ una información en línea. servicio producido por la NLM de EE. UU., que utiliza el enfoque/focos (temas principales de interés, como enfermedades, medicamentos y dietas) y el tipo (tarea para la cual se necesita información) de la pregunta como términos de búsqueda. Un estudio realizado para determinar si es posible utilizar el enfoque y el tipo de pregunta de la solicitud de un consumidor para encontrar respuestas precisas en MedlinePlus y otros recursos en línea ha demostrado que los términos extraídos proporcionan suficiente información para encontrar respuestas autorizadas para más del 60% de las personas. las preguntas. Por lo tanto, este enfoque se utilizó en el desarrollo de CHiQA (Deardorff et al. 2017 ). Utiliza la herramienta MetaMap Lite ⁶ para identificar elementos PICO (P: Problema/Paciente/Población; I: Intervención/Indicador; C: Comparación; O: Resultado) en la pregunta, y la Máquina de Vector de Soporte (SVM) y Largo Corto Plazo. Enfoques basados en memoria (LSTM) para identificar el enfoque/focos y el tipo de la pregunta. La Figura 6 presenta la vista del desarrollador del sistema CHIQA, que muestra el análisis de MetaMap Lite de la pregunta, los focos de la pregunta y el tipo reconocido por los enfoques SVM y LSTM/CNN y las respuestas generadas. Este sistema se evaluó a partir de preguntas simples de Alexa generadas por el personal de MedlinePlus en un desarrollo piloto de las habilidades de Alexa y el conjunto de datos de preguntas y respuestas médicas de TREC LiveQA 2017. Pudo lograr una puntuación promedio de 1,308 en las preguntas médicas de TREC LiveQA, lo que representa un aumento del 58,16 % con respecto a la puntuación promedio obtenida mediante el enfoque de vinculación de preguntas de Abacha y Demner-Fushman ( 2019a ).

CMU-LiveMedQA

El sistema CMU-LiveMedQA (Yang et al. 2017 ) construye y mantiene un gráfico de conocimiento que organiza la información de cada entidad médica como un árbol para preservar la jerarquía de conceptos específicos del dominio médico, con la entidad como raíz y sus atributos como hojas. Las entidades médicas están organizadas en una matriz. Utiliza el conjunto de herramientas NLTK Bird (Bird 2006 ) y puntuaciones TF-IDF para inferir el enfoque de la pregunta (la entidad médica en foco); una red neuronal convolucional (CNN) de clasificación de texto entrenada en el conjunto de datos de desarrollo de preguntas y respuestas médicas TREC LiveQA 2017 y el conjunto de datos de descomposición de preguntas GARD Roberts, Kilicoglu et al. ( 2014 ) para inferir el tipo de pregunta (p. ej., Información, Causa y Tratamiento); y un buscador con reconocimiento de estructura que utiliza expresiones regulares y un motor de búsqueda Lucene BM25 para asignar el enfoque de la pregunta a la entidad médica y una tabla de búsqueda de atributos para asignar los tipos de preguntas a los atributos de la entidad en el gráfico de conocimiento. Por ejemplo, la pregunta “¿Cómo sé si tengo diabetes?” se puede formular como una consulta para recibir el atributo “síntoma” asociado con la entidad “Diabetes”. Se supone que cada pregunta tiene exactamente una entidad médica con uno o más atributos asociados.

En la subtarea médica TREC LiveQA 2017, el sistema CMU-LiveMedQA tuvo un desempeño peor que el promedio, recibiendo una puntuación de 0,353 por debajo de la mediana. Los autores concluyen que tres factores principales fueron responsables de su bajo rendimiento. (1) Dado que el modelo CNN se entrenó en un conjunto de datos pequeño, no era lo suficientemente sólido como para clasificar con precisión el tipo de pregunta. (2) Las coincidencias inexactas de las entidades médicas se debieron al uso de coincidencias difíciles o al buscador BM25. (3) El supuesto de que cada pregunta tiene exactamente una entidad médica no se cumple en las preguntas sobre interacciones medicamentosas que normalmente implican comparar dos entidades. Los autores sugieren que el rendimiento del sistema se puede mejorar (1) entrenando un modelo de predicción de tipos más robusto utilizando más datos de entrenamiento; y (2) relajar el supuesto de entidad única a entidades múltiples.

CHeQA conversacional multivuelta

Todos los enfoques CHeQA descritos hasta ahora se basan en la configuración de control de calidad de un solo turno. Esto supone que los consumidores pueden redactar una consulta complicada en lenguaje natural y recibir una respuesta concisa en un solo turno. Sin embargo, en la mayoría de los casos, debido a la ingenuidad y la falta de experiencia de los consumidores en el ámbito de la atención sanitaria, no logran describir sus necesidades de una sola vez. Por lo tanto, en este contexto se prefieren los agentes CHeQA conversacionales de múltiples turnos, que permiten a los consumidores realizar consultas de forma interactiva. Los usuarios a menudo comienzan con una necesidad de información vagamente expresada y la perfeccionan gradualmente a lo largo de la secuencia de interacción sin tener que redactar consultas complicadas al principio. Aunque este enfoque es más deseable, presenta nuevos desafíos, como gestionar el contexto y resolver correferencias y elipsis. Por lo tanto, además de un componente central de control de calidad, un agente CHeQA conversacional está equipado con otras estrategias para gestionar una conversación. En comparación con los enfoques CHeQA de un solo turno, los enfoques conversacionales de CHeQA de múltiples turnos son relativamente limitados. La siguiente subsección describe uno de esos métodos en detalle.

Consúltame

enquireMe (Wong, Thangarajah y Padgham 2012 ) es un sistema de control de calidad contextual que permite a los usuarios entablar conversaciones para obtener respuestas a sus preguntas sobre salud. En la Figura 7 se muestra un ejemplo de interacción con enquireMe . La interacción muestra cómo el sistema puede gestionar el contexto y resolver correferencias al responder un conjunto de preguntas relacionadas sobre el “dolor de cabeza” de manera conversacional.

enquireMe sigue un enfoque basado en similitudes de preguntas para responder las preguntas sobre salud de los consumidores. Utiliza un modelo de caída de peso para resolver correferencias y gestionar el contexto de la conversación. Primero, extrae frases nominales (frases clave) de la pregunta de entrada y les asigna pesos en función de la precisión con la que se pueden modelar sus apariciones utilizando la distribución de Poisson. Los pesos representan la cantidad de contenido de las frases clave. Se utiliza un modelo de decadencia para disminuir exponencialmente los pesos de las frases clave a lo largo del tiempo para mantener el contexto de interacción, lo cual es crucial para un sistema de control de calidad contextual. Las frases clave ponderadas extraídas de las entradas actuales y anteriores se utilizan para recuperar pares de preguntas y respuestas de los candidatos mediante una consulta estructurada simple de una base de datos que contiene más de 80.000 pares de preguntas y respuestas seleccionados de sitios web comunitarios de control de calidad como Yahoo! Respuestas. Utiliza un algoritmo de puntuación especial para puntuar y clasificar los pares de preguntas y respuestas en función del número de frases clave superpuestas y otros criterios, como el número de votos de los usuarios y si el par se ha utilizado previamente como respuesta en el contexto de la conversación. El par de preguntas y respuestas mejor clasificado se utiliza para generar la respuesta final.

Además de resolver correferencias, utiliza un algoritmo que, para cada pronombre en la pregunta de entrada, itera a través de frases clave previamente ponderadas y encuentra la palabra de contexto con mayor ponderación que también es un sustantivo y un concepto semilla utilizado por el administrador del sistema para extraer pares de preguntas y respuestas. Por tanto, este enfoque está limitado por la cobertura de la lista de conceptos de semillas.

enquireMe se evaluó en tres conjuntos de datos: (1) 150 preguntas de definición extraídas de WebMD (Olvera-Lobo y Gutiérrez-Artacho 2011 ); (2) 274 preguntas, incluidas preguntas ampliadas del primer conjunto de datos para incluir preguntas de seguimiento contextuales; y (3) conjunto de datos de control de calidad entre dominios TREC 2004 (Voorhees 2004 ). Pudo lograr puntuaciones de precisión de 94,00, 86,86 y 87,80 % en los tres conjuntos de datos de evaluación, respectivamente.

APLICACIONES COMERCIALES DE CHeQA

En esta sección, analizamos las aplicaciones disponibles comercialmente para CHeQA. El funcionamiento interno de estos sistemas no es fácilmente accesible al público en general. Sin embargo, resumimos la información compartida públicamente sobre ellos, incluidas las fuentes de conocimiento que utilizan y sus características. También mostramos algunos ejemplos de sesiones de preguntas y respuestas realizadas con estas aplicaciones para comprender mejor sus capacidades.

Preguntas y respuestas sobre salud de la Clínica Cleveland

Cleveland Clinic Health Q&A ( my.clevelandclinic.org/mobile-apps/health-qa ) es una aplicación móvil CHeQA de un solo turno disponible en la App Store. Utiliza contenido existente revisado por médicos para responder preguntas sobre salud de los consumidores. Busca las palabras clave en la pregunta de entrada en una base de datos que contiene más de 10,000 pares de preguntas y respuestas para encontrar la mejor respuesta. Un usuario puede escribir o pronunciar la pregunta en el dispositivo móvil. Luego proporciona una lista de preguntas similares, para las cuales ya existen respuestas, para que el usuario las seleccione. La Figura 8 muestra un ejemplo de una pregunta planteada a la aplicación y la respuesta recibida.

Florencia

Florence ( florence.chat ) es un asistente de salud personal en línea diseñado para responder preguntas de salud de los consumidores y realizar otras tareas como recordarle al usuario que debe tomar medicamentos y realizar un seguimiento de su salud. Los usuarios pueden hacer preguntas enviando mensajes instantáneos a Florence a través de Facebook Messenger, Skype y Kik y recibir respuestas. Florence utiliza contenido de MedlinePlus, la Administración de Medicamentos y Alimentos de EE. UU. y Wikipedia para generar respuestas. La Figura 9 muestra un ejemplo de una conversación con Florence a través de Facebook Messenger.

Pregunta a WebMD

Ask WebMD ( www.amazon.com/WebMD-Health-Corp/dp/B01MRM361G ) es una habilidad que se integra con Amazon Alexa y Google Assistant para responder preguntas básicas relacionadas con la salud (p. ej., tratamientos para dolencias comunes, definiciones de enfermedades básicas y efectos secundarios de las drogas) de manera conversacional. Lo lanza WebMD, la fuente líder de información de salud en los Estados Unidos. Utiliza una amplia gama de respuestas revisadas por médicos en WebMD sobre condiciones de salud, medicamentos y sus efectos secundarios para responder preguntas. También proporciona una opción para solicitar información adicional, que dirige al usuario a una página de WebMD para obtener más detalles. La Tabla 3 muestra un ejemplo de una conversación con Ask WebMD integrado con Amazon Alexa.TABLA 3. Un ejemplo de una conversación con Ask WebMD integrado con Amazon Alexa.

WebMD :	Bienvenido a WebMD. Puedo informarle sobre condiciones de salud, medicamentos o incluso efectos secundarios. ¿Qué te gustaría saber?
Usuario :	¿Qué es el insomnio?
WebMD :	El insomnio es la dificultad para conciliar el sueño o permanecer dormido. La falta de sueño puede dejarte cansado durante el día. Condiciones médicas como depresión, artritis y acidez de estómago pueden causar insomnio. El estrés, los medicamentos, la temperatura y el ruido también pueden mantenerle despierto. Los buenos hábitos de sueño, como acostarse a la misma hora todas las noches, pueden ayudar. Si eso no funciona, su médico puede recetarle medicamentos para dormir. ¿Quieres saber más sobre esto?
Usuario :	No.
WebMD :	¿Hay algo más que te gustaría saber?
Usuario :	Sí .
WebMD :	Bien, ¿qué te gustaría saber?
Usuario :	¿Cuáles son los efectos secundarios de la aspirina?
WebMD :	La aspirina puede causar malestar estomacal o acidez estomacal. Tiene un mayor riesgo de sufrir hemorragia si combina aspirina con otros medicamentos antiinflamatorios no esteroides o AINE. ¿Quieres saber más sobre esto?
Usuario :	No.
WebMD :	¿Hay algo más que te gustaría saber?
Usuario :	No gracias .
WebMD :	Gracias por utilizar WebMD. Adiós .

MedQué

MedWhat ( medwhat.com ) es un asistente de conversación que puede responder preguntas sobre salud de los consumidores. Está desarrollado por expertos en ciencia de datos y atención médica de Stanford y está disponible como aplicación móvil en Microsoft Store. Los usuarios pueden hacer preguntas desde MedWhat escribiendo o hablando por el dispositivo móvil. Utiliza contenido de fuentes confiables como los NIH y el Centro para el Control y la Prevención de Enfermedades (CDC), revistas revisadas por pares en PubMed y artículos de Wikipedia que utilizan referencias de calidad para responder preguntas. Proporciona respuestas personalizadas teniendo en cuenta el perfil de salud y el historial médico del usuario. Realiza un seguimiento y gestiona el contexto a lo largo de la conversación, lo que permite a los usuarios hacer preguntas de seguimiento. La Tabla 4 muestra un ejemplo de una conversación realizada con MedWhat.TABLA 4. Un chat de ejemplo con MedWhat, tomado de una sesión de demostración de la aplicación MedWhat en el Día de demostración de aprendizaje automático de Microsoft Accelerator de 2016.

MedQué :	¡Buenas tardes usuario! ¿En qué pregunta médica o de salud puedo ayudarte?
Usuario :	Tengo un resfrío .
MedQué :	Lamento escuchar ese usuario. Pero para asegurarnos de que es sólo un resfriado, ¿también tienes fiebre?
Usuario :	No, no tengo fiebre .
MedQué :	Buenas, si fuera gripe también tendrías fiebre. ¿Quieres saber cómo tratar tu resfriado?
Usuario :	Sí, por favor .
MedQué :	De acuerdo. Veo que tienes 30 años. Para un adulto, un resfriado se puede tratar con medicamentos de venta libre o descongestionantes. No tome antibióticos. Sin embargo, Usuario, veo en su historial médico que tiene presión arterial alta. ¿Puedes confirmar que esto es correcto?
Usuario :	Sí, tengo presión arterial alta .
MedQué :	En ese caso, no se recomiendan los descongestionantes porque pueden causar incluso presión arterial alta. Puede tomar Tylenol sin receta u obtener una receta para Relenza o Tamiflu .
Usuario :	¿Existen formas naturales de cuidar mi resfriado?
MedQué :	Sí, puedes beber sopa de pollo, tomar vitamina C, comer frutas y verduras, beber té y miel para aumentar tu sistema inmunológico .
Usuario :	Genial, ¿y cuántos Tynols puedo tomar al día?
MedQué :	Hasta 6 pastillas por día o 3000 mg. Los síntomas del resfriado deberían desaparecer en una semana. Si aún se siente mal después de 7 días, es posible que deba consultar a un médico. ¿Quieres que te haga un seguimiento en 7 días para ver cómo te sientes?
Usuario :	Sí, hazlo por favor .
MedQué :	Genial, te revisaré en 7 días y monitorearé tu condición mañana y durante toda la semana con preguntas de seguimiento diarias. Siéntete mejor Usuario .

RECURSOS REALES

Esta sección analiza recursos como los diversos conjuntos de datos disponibles públicamente y otras herramientas lingüísticas destinadas a ayudar en el desarrollo de enfoques CHeQA automatizados. Se pueden agrupar de la siguiente manera:

1.Conjuntos de datos de preguntas y respuestas
2.Conjuntos de datos de preguntas anotados semánticamente
3.Conjuntos de datos de preguntas relacionadas
4.Conjuntos de datos de preguntas y respuestas clasificados
5.Conjuntos de datos de corrección ortográfica
6.Conjuntos de datos específicos del idioma
7.Otras herramientas lingüísticas

La Figura 10 muestra el resumen de los diferentes tipos de recursos que revisamos en este artículo. Las siguientes subsecciones describen esos recursos en detalle.

Conjuntos de datos de preguntas y respuestas

Estos conjuntos de datos sirven como puntos de referencia para entrenar y evaluar los enfoques CHeQA. Se pueden utilizar como colecciones de documentos de las que se puede recuperar contenido para responder preguntas sobre la salud de los consumidores. Los conjuntos de datos de preguntas y respuestas que tienen anotaciones semánticas (por ejemplo, enfoque de la pregunta, tipo de pregunta) también ayudan a entrenar y evaluar métodos de comprensión de preguntas.

Conjunto de datos de preguntas y respuestas médicas de TREC LiveQA 2017

Este conjunto de datos de referencia fue introducido por Abacha et al. ( 2017 ) en la subtarea médica TREC LiveQA 2017. Consta de dos conjuntos de datos de entrenamiento y un conjunto de datos de prueba con preguntas y sus respectivas respuestas de referencia. Los dos conjuntos de datos de capacitación contienen 634 pares de preguntas y respuestas en total, que se construyen a partir de preguntas frecuentes en sitios web confiables del Instituto Nacional de Salud (NIH) de EE. UU. Las (sub)preguntas del conjunto de datos están anotadas con uno de los cuatro focos de preguntas (Enfermedad; Fármaco; Tratamiento y Examen) y 23 tipos de preguntas (p. ej., Tratamiento, Causa, Indicación y Dosis). Las respuestas de los candidatos a las preguntas del primer conjunto de datos de capacitación se recuperaron mediante la comparación automática entre los CHQ y las preguntas frecuentes según el enfoque y el tipo de pregunta. Pero sólo se conservaron para la capacitación los pares de preguntas y respuestas validados manualmente. Los bibliotecarios recuperaron manualmente las respuestas del segundo conjunto de datos de capacitación utilizando PubMed y motores de búsqueda web.

El conjunto de datos de prueba contiene 104 preguntas recibidas por la Biblioteca Nacional de Medicina (NLM) de EE. UU. junto con respuestas de referencia, que se recopilan manualmente de fuentes confiables, como los sitios web de los NIH. Las (sub)preguntas abarcan cinco focos de preguntas (Problema; Suplemento farmacológico; Alimento; Dispositivo de procedimiento; y Sustancia) y 26 tipos de preguntas. Este conjunto de datos es accesible públicamente en GitHub ( github.com/abachaa/LiveQA_MedicalTask_TREC2017 ).

MedQuAD (conjunto de datos de respuesta a preguntas médicas)

Este conjunto de datos presentado por Abacha y Demner-Fushman ( 2019a ) contiene 47 457 pares de preguntas y respuestas médicas generadas a partir de 12 sitios web confiables de los NIH (p. ej., cancer.gov, niddk.nih.gov, GARD, MedlinePlus Health Topics). Se utilizaron patrones hechos a mano específicos de cada sitio web para generar automáticamente pares de preguntas y respuestas basados en la estructura del documento y los títulos de las secciones. Cada pregunta del conjunto de datos está anotada con uno de los TRES focos de preguntas (Enfermedades, Medicamentos y otros) y 37 tipos de preguntas (p. ej., Tratamiento, Diagnóstico y Efectos secundarios). Las preguntas están anotadas además con sinónimos del enfoque de la pregunta, su identificador único de concepto (CUI) UMLS y el tipo semántico UMLS. El conjunto de datos es accesible públicamente en GitHub ( github.com/abachaa/MedQuAD ).

Conjunto de datos de control de calidad de medicamentos

Este conjunto de datos presentado por Ben Abacha et al. ( 2019 ) es un corpus estándar de oro para responder preguntas sobre medicamentos. Consta de 674 preguntas reales de consumidores recibidas por la NLM de EE. UU. sobre medicamentos y respuestas asociadas extraídas de sitios web como MedlinePlus, DailyMed, MayoClinic, NIH o sitios web del gobierno de EE. UU., sitios web de instituciones académicas y otros sitios web devueltos por la búsqueda de Google. Cada pregunta se anota manualmente con el enfoque de la pregunta (nombre del medicamento sobre el que trata la pregunta) y el tipo (p. ej., Información, Dosis, Uso e Interacción). El conjunto de datos está disponible públicamente en GitHub ( github.com/abachaa/Medication_QA_MedInfo2019 ).

Conjuntos de datos de preguntas anotados semánticamente

Estos conjuntos de datos constan de CHQ anotados con atributos de pregunta, como tipo de pregunta, enfoque y entidades nombradas. Estos conjuntos de datos se pueden utilizar para entrenar y evaluar métodos para la comprensión de preguntas, como clasificadores de tipos de preguntas, reconocedores de enfoque y clasificadores de descomposición de preguntas (Kilicoglu et al. 2018 ) que pueden ayudar en CHeQA.

Corpus NLM-CHQA

Este corpus presentado por Kilicoglu et al. ( 2018 ) es un corpus de dos partes que contiene preguntas sobre la salud del consumidor anotadas semánticamente. La primera parte, CHQA-email, consta de 1740 solicitudes de correo electrónico recibidas por el servicio de atención al cliente de NLM en relación con la salud del consumidor. La segunda parte, CHQA-web, consta de 874 preguntas relativamente breves planteadas al motor de búsqueda MedlinePlus como consultas. Cada (sub)pregunta se anota manualmente con sus entidades nombradas, enfoque de la pregunta y categoría (p. ej., el enfoque de la pregunta “calambres en las piernas” pertenece a la categoría “Problema”, denominado en conjunto tema de la pregunta), y tipo de pregunta y desencadenante (p. ej., La palabra “prueba” desencadena el tipo de pregunta “Diagnóstico”). Esta información se organiza en una representación llamada marco de preguntas . Cada (sub)pregunta puede tener más de un enfoque (por ejemplo, una reacción entre dos medicamentos). Las preguntas en CHQA-email están asociadas con 33 tipos de preguntas (Información, Causa, Diagnóstico, Dosis), mientras que las preguntas en CHQA-web están asociadas con 26 tipos de preguntas (creadas al fusionar algunos de los tipos de preguntas en CHQA-email que no no ocurre con frecuencia en CHQA-web). El corpus está disponible públicamente en bionlp.nlm.nih.gov .

Conjunto de datos de descomposición de preguntas GARD

Este conjunto de datos presentado por Roberts, Masterton et al. ( 2014 ) contiene 1467 solicitudes generadas por consumidores disponibles en el sitio web del Centro de información sobre enfermedades genéticas y raras (GARD) sobre enfermedades. Cada solicitud se descompone en subpreguntas y está comentada con 13 tipos de preguntas diferentes (p. ej., Anatomía, Causa, Complicación y Diagnóstico). Además, cada solicitud está anotada con una o más enfermedades de enfoque. Este proceso ha dado como resultado 2937 subpreguntas comentadas en total. El conjunto de datos está destinado a ayudar a entrenar y evaluar técnicas automáticas para descomponer preguntas médicas complejas y reconocer el enfoque y el tipo de preguntas. El conjunto de datos está disponible públicamente en el sitio web de la NLM de EE. UU. ( lhncbc.nlm.nih.gov/project/consumer-health-question-answering ).

Corpus CHQA-NER

Este corpus presentado por Kilicoglu et al. ( 2016 ) contiene 1548 preguntas de salud de los consumidores recibidas por la NLM de EE. UU. sobre enfermedades y medicamentos, que están anotadas manualmente con entidades con nombres biomédicos que pertenecen a 15 categorías amplias (p. ej., Anatomía, Problema, Procedimiento de diagnóstico y Suplemento farmacológico). El conjunto de datos está destinado a ayudar en la capacitación y evaluación de métodos para el reconocimiento de entidades nombradas (NER) biomédico en CHQ y a formar una base para reconocer tipos de preguntas, conceptos, relaciones semánticas y marcos de preguntas. El corpus está disponible públicamente en el sitio web de la NLM de EE. UU. ( lhncbc.nlm.nih.gov/project/consumer-health-question-answering ).

Conjuntos de datos de preguntas relacionadas

Estos conjuntos de datos contienen CHQ con una lista asociada de preguntas similares/implicadas. Se pueden utilizar para entrenar y evaluar métodos para identificar la vinculación entre dos preguntas (como se describe en Abacha y Demner-Fushman ( 2019a )) y desarrollar sistemas CHeQA que funcionen utilizando la vinculación de preguntas o la similitud para responder las CHQ.

Conjunto de datos RQE (Reconocimiento de vinculación de preguntas)

Este conjunto de datos presentado por Abacha y Demner-Fushman ( 2016 ) contiene 8588 pares de preguntas clínicas con una etiqueta que indica si las preguntas se relacionan entre sí o no. El conjunto de datos de la prueba RQE contiene 302 pares de preguntas, cada par consta de una pregunta recibida por la NLM de EE. UU. y una pregunta de las preguntas frecuentes de los NIH. En la Tabla 5 se muestran ejemplos de pares de preguntas implicadas y no implicadas del conjunto de datos de pruebas RQE . El conjunto de datos es de acceso público en GitHub ( github.com/abachaa/RQE_Data_AMIA2016 ).TABLA 5. Pares de preguntas vinculadas y no vinculadas del conjunto de datos de la prueba RQE (Abacha y Demner-Fushman 2016 ).

Par de preguntas implicadas :

– sepsis. ¿Se puede prevenir la sepsis? ¿Alguien puede contraer esto en un hospital? (CHQ)

– ¿ Cómo se trata la sepsis? (PREGUNTAS MÁS FRECUENTES)

Par de preguntas no vinculadas :

– sepsis. ¿Se puede prevenir la sepsis? ¿Alguien puede contraer esto en un hospital? (CHQ)

– ¿ Se ha desarrollado algún medicamento específicamente para tratar la sepsis? (PREGUNTAS MÁS FRECUENTES)

Conjuntos de datos de preguntas y respuestas clasificados

Estos conjuntos de datos contienen CHQ con una lista asociada de respuestas clasificadas según relevancia/precisión. Ayudan a entrenar y evaluar métodos que filtran y clasifican las respuestas recuperadas para una pregunta determinada.

Conjunto de datos de control de calidad de MEDIQA 2019

Este conjunto de datos presentado por Ben Abacha, Shivade y Demner-Fushman ( 2019 ) consta de dos conjuntos de capacitación que contienen preguntas médicas y las respuestas asociadas recuperadas por CHiQA ( chiqa.nlm.nih.gov ). El primer conjunto de capacitación consta de 104 CHQ que cubren diferentes tipos de preguntas sobre enfermedades y medicamentos (preguntas del examen médico TREC LiveQA 2017) y las respuestas asociadas. El segundo conjunto de entrenamiento contiene 104 preguntas simples sobre las enfermedades más frecuentes (conjunto de datos llamado Alexa) y las respuestas asociadas. Los conjuntos de datos de validación y prueba consisten en tipos similares de preguntas sobre enfermedades y medicamentos, y sus respuestas generadas por CHiQA (Demner-Fushman, Mrabet y Ben Abacha 2020 ). Cada respuesta en los conjuntos de datos de entrenamiento, validación y prueba está anotada con la clasificación del sistema, que corresponde a la clasificación de CHiQA, y la clasificación de referencia, que corresponde a la clasificación correcta. Las respuestas en los conjuntos de datos de entrenamiento y validación se anotan adicionalmente con la puntuación de referencia, que corresponde al juicio/calificación manual de la respuesta (4: Excelente, 3: Correcta pero incompleta, 2: Relacionada, 1: Incorrecta). El conjunto de datos es accesible públicamente en GitHub ( github.com/abachaa/MEDIQA2019/tree/master/MEDIQA_Task3_QA ).

Conjuntos de datos de corrección ortográfica

Estos conjuntos de datos contienen CHQ que están anotados y corregidos por errores ortográficos. Se pueden utilizar para entrenar y evaluar métodos para detectar y corregir errores ortográficos comunes en el lenguaje del consumidor.

Conjunto de datos de corrección ortográfica de CHQA

Este conjunto de datos presentado por Kilicoglu et al. ( 2015a ) contiene 472 CHQ recibidos por la NLM de EE. UU., que se anotan y corrigen manualmente para detectar errores ortográficos (errores ortográficos y de puntuación). Se anotan mil ocho errores ortográficos en un total de 1075 fichas. También contiene anotaciones sobre si el error ocurrió en un elemento de enfoque o en un elemento importante para extraer el marco semántico de la pregunta. El conjunto de datos está disponible públicamente en el sitio web de la NLM de EE. UU. ( lhncbc.nlm.nih.gov/project/consumer-health-question-answering ).

Conjuntos de datos específicos del idioma

Los conjuntos de datos específicos del idioma que ayudan en CHeQA contienen CHQ o pares de preguntas y respuestas en un idioma específico. Se pueden utilizar para desarrollar sistemas CHeQA específicos de cada idioma.

Qcorp

Este conjunto de datos presentado por Guo, Na y Li ( 2018 ) es un corpus de preguntas de salud chinas anotadas según un esquema de clasificación de dos capas que consta de 29 tipos de preguntas (p. ej., Diagnóstico, Tratamiento, Anatomía y fisiología, Epidemiología y Estilo de vida saludable). . El conjunto de datos consta de dos partes: la primera parte contiene 2000 preguntas relacionadas con la hipertensión; y la segunda parte incluye 3000 preguntas, que se seleccionan al azar de cinco sitios web de salud chinos dentro de seis secciones amplias: medicina interna, cirugía, obstetricia y ginecología, pediatría, enfermedades infecciosas y medicina tradicional china. Las preguntas se anotan manualmente con 7101 etiquetas en total de acuerdo con un esquema de clasificación bien definido y reglas de anotación que relacionan los subtemas con los tipos de preguntas. Se puede acceder al conjunto de datos en el sitio web de Qcorp ( www.phoc.org.cn/healthqa/qcorp ).

Corpus de preguntas y respuestas sobre salud del consumidor de Indonesia

Este corpus presentado por Hakim et al. ( 2017 ) contiene 86.731 pares de preguntas y respuestas sobre salud de los consumidores, recopiladas de cinco sitios web de preguntas y respuestas de Indonesia en el ámbito de la salud, en los que los médicos brindan respuestas. Cada pregunta está anotada con una de las 13 categorías de preguntas basadas en la especialización médica a la que pertenece (por ejemplo, Obstetricia y Ginecología, Nutrición y Salud General). Las preguntas se clasifican utilizando dos enfoques complementarios: un enfoque basado en diccionario y un enfoque de aprendizaje automático supervisado. Lamentablemente, no se puede encontrar un enlace en línea a este recurso.

Otros recursos de CHeQA

UMLS

El Sistema Unificado de Lenguaje Médico (UMLS) es un conjunto de archivos y software que reúne muchos vocabularios y estándares biomédicos y de salud para permitir la interoperabilidad entre sistemas informáticos (Bodenreider 2004 ). El UMLS consta de tres partes: Metatesauro, Léxico especializado y Red Semántica. El Metatesauro es el componente más grande de UMLS, un gran tesauro biomédico organizado por concepto o significado, y vincula nombres similares para el mismo concepto de casi 200 vocabularios diferentes. El Specialist Lexicon es un extenso léxico sintáctico de inglés general que incluye muchos términos biomédicos. La red semántica consta de un conjunto de tipos semánticos generales que proporcionan una categorización coherente de los conceptos representados en el metatesauro UMLS y un conjunto de relaciones semánticas útiles entre tipos semánticos. Estudios anteriores (Tolentino et al. 2007 ; Kilicoglu et al. 2015b ; Jimeno Yepes y Aronson 2012 ; Stevenson y Guo 2010 ) han utilizado UMLS para obtener una fuente de términos y significados de diccionario específicos de un dominio para corregir errores ortográficos y eliminar la ambigüedad de palabras ambiguas. que aparecen en el texto biomédico (p. ej., la palabra “frío” puede tener varios significados posibles, incluido “resfriado común” (enfermedad), “sensación de frío” (síntoma) y “temperatura fría” (síntoma), según el Metathesaurus de UMLS). El UMLS también consta de un Vocabulario de Salud del Consumidor (CHV), cuyo objetivo es ayudar a las aplicaciones de salud del consumidor a traducir términos técnicos a un lenguaje sencillo para el consumidor. Se puede acceder públicamente a los recursos UMLS a través de www.nlm.nih.gov/research/umls .

CDeletrear

Spell Checker for Consumer Language (CSpell) (Lu et al. 2019 ) es una herramienta independiente genérica, configurable, en tiempo real, de código abierto y distribuible destinada a corregir errores ortográficos en los CHQ. Puede manejar varios errores de ortografía, incluidos errores que no son palabras, errores de palabras reales, infracciones de límites de palabras, errores de puntuación y combinaciones de los anteriores. Utiliza un enfoque que utiliza doble incrustación dentro de Word2Vec para correcciones dependientes del contexto junto con correcciones basadas en diccionario en un sistema de clasificación de dos etapas. También cuenta con divisores y controladores para corregir infracciones de límites de palabras. Ha logrado una puntuación F ₁ de 80,93 y 69,17% en detección y corrección de errores ortográficos, respectivamente. El software CSpell y su conjunto de datos de prueba están disponibles en umlslex.nlm.nih.gov/cSpell .

MÉTODOS DE EVALUACIÓN DE CHeQA

Esta sección resume los métodos de evaluación utilizados en la literatura para evaluar el desempeño de los enfoques CHeQA. Se pueden utilizar como métricas estándar para evaluar enfoques conversacionales y de un solo turno para responder a los CHQ.

Evaluación de enfoques CHeQA de un solo turno.

Se utilizó el juicio humano para evaluar el rendimiento de los enfoques CHeQA de un solo giro presentados a la subtarea médica TREC LiveQA 2017. El conjunto de datos de prueba de la tarea para evaluar esos enfoques contiene 104 CHQ recibidos por la NLM de EE. UU. Las preguntas se eligieron de manera que cubran una amplia gama de tipos de preguntas (26) y tengan una distribución ligeramente diferente a la de las preguntas de capacitación para poder evaluar la escalabilidad de los enfoques. Las subpreguntas y el enfoque de la pregunta y las anotaciones de tipo no se proporcionaron inicialmente a los participantes. Las respuestas de referencia a las preguntas se recopilaron manualmente de fuentes confiables, como los sitios web de los NIH. Luego, los evaluadores del Instituto Nacional de Estándares y Tecnología (NIST) generaron paráfrasis/interpretaciones de preguntas después de leer tanto la pregunta original como las respuestas de referencia. Se utilizaron paráfrasis de preguntas, junto con las respuestas de referencia, para evaluar las respuestas de los participantes.Las respuestas producidas por cada enfoque se almacenaron condicionadas al cumplimiento de un límite de tiempo de 1 minuto y un límite de longitud de caracteres de 1000. Fueron evaluadas por evaluadores humanos (un evaluador por pregunta) del NIST, en base a una escala Likert de 4 puntos (1 : incorrecto, 2: incorrecto pero relacionado, 3: correcto pero incompleto; 4: correcto y completo). Se siguió el siguiente esquema de puntuación para calcular siete medidas para comparar el desempeño de los enfoques en la tarea.

avgScore [rango de 0 a 3] : la puntuación promedio general de las preguntas después de transferir las calificaciones de los niveles 1 a 4 a las puntuaciones de 0 a 3, tratando una respuesta de calificación de 1 nivel de la misma manera que una pregunta sin respuesta. Esta es la puntuación principal utilizada para clasificar los enfoques.
succ@i+ : el número de preguntas con puntuación i o superior(�∈2..4)dividido por el número total de preguntas.
prec@i+ : el número de preguntas con puntuación i o superior(�∈2..4)dividido por el número de preguntas respondidas por el sistema.

Las medidas anteriores se utilizaron para evaluar la respuesta principal obtenida para cada pregunta de la prueba. Las siguientes métricas también se utilizan para evaluar la calidad de las respuestas top-k recuperadas por los sistemas CHeQA (Abacha y Demner-Fushman

2019a ).

Precisión promedio media (MAP) : la media de las puntuaciones de precisión promedio en todas las preguntas. Esto viene dado por la ecuación ( 1 ), donde Q es el número de preguntas y�⁢en⁢gramo⁢PAG�es la precisión promedio de la i- ésima pregunta.MAPA=1�⁢∑��promedio⁢PAG�(1)La precisión promedio de una pregunta se calcula según lo indicado por la ecuación ( 2 ), donde K es el número de respuestas correctas y�⁢�⁢norte⁢�nortees el rango de la enésima respuesta.promedio=1�⁢∑norte=1�norterangonorte(2)
Rango recíproco medio (MRR) : MRR es el promedio de los rangos recíprocos para cada pregunta. Esto viene dado por la ecuación ( 3 ), donde Q es el número de preguntas y�⁢�⁢norte⁢��es el rango de la primera respuesta correcta para la i- ésima pregunta.MRR=1�⁢∑��1rango�(3)

Evaluación de enfoques CHeQA multivuelta.

La entrada a un sistema de control de calidad contextual como enquireMe (Wong, Thangarajah y Padgham 2012 ) es una secuencia de expresiones en evolución relacionadas con alguna necesidad de información común. Los métodos de evaluación deben probar tales enfoques al rastrear el contexto de una pregunta a la siguiente y resolver correferencias para mantener un diálogo coherente y enfocado. El conjunto de datos de control de calidad TREC 2004 (Voorhees 2004 ), que consta de 65 series de preguntas, donde cada pregunta de una serie solicita información sobre un objetivo común, está destinado a evaluar estas habilidades en sistemas de control de calidad contextuales de dominio abierto. La Tabla 6 muestra una serie de preguntas de muestra de este conjunto de datos.TABLA 6. Una serie de preguntas de muestra del seguimiento de tareas de control de calidad de TREC 2004 (Voorhees 2004 ).

cometa hale-bopp
FACTOIDE	¿Cuándo se descubrió el cometa?
FACTOIDE	¿Con qué frecuencia se acerca a la tierra?
LISTA	¿En qué países fue visible el cometa en su último giro?

Pero hasta donde sabemos, no existen conjuntos de datos disponibles públicamente que comprendan una serie de preguntas relacionadas con la salud del consumidor. Para superar esta limitación, los autores de enquireMe ampliaron las preguntas únicas del conjunto de datos de preguntas de definición utilizado en Olvera-Lobo y Gutiérrez-Artacho ( 2011 ) al incluir preguntas de seguimiento contextuales para evaluar la capacidad de control de calidad contextual de su sistema. Las preguntas sobre condiciones médicas se ampliaron incluyendo preguntas: “¿Qué lo causa? ” y “¿Cuáles son sus tratamientos?” . Las preguntas restantes sobre procedimientos médicos, opciones de tratamiento, dispositivos médicos y medicamentos se ampliaron incluyendo la pregunta “¿Cuáles son sus usos?” . Luego se puede aplicar un enfoque de evaluación basado en el juicio humano similar al proceso seguido en la subtarea médica de TREC LiveQA 2017 para juzgar la idoneidad de las respuestas generadas.

Los enfoques conversacionales avanzados de CHeQA, que podrían desarrollarse en el futuro y que tengan capacidades para hacer preguntas de seguimiento para refinar las consultas de los usuarios y permitirles participar en diálogos de iniciativas mixtas y generar respuestas similares a las humanas y conscientes de las emociones, pueden necesitar seguir métodos. Se utiliza para evaluar agentes de diálogo existentes orientados a tareas y basados en charlas. Nos gustaría dirigir a nuestros lectores a la encuesta realizada por Gao, Galley y Li ( 2019 ) que analiza métodos de evaluación basados en humanos y simulación para agentes de diálogo orientados a tareas y basados en charlas.

DIRECCIONES FUTURAS

Esta sección analiza las limitaciones de los enfoques CHeQA existentes y cómo abordar esas limitaciones beneficiará a las personas sin ningún conocimiento médico para acceder a la información de salud de manera más natural e intuitiva.

Uso de modelos de lenguaje grandes y previamente entrenados.

La introducción de modelos de lenguaje grande (LLM) como GPT-3 Brown et al. ( 2020 ) y GPT-4 (OpenAI 2023 ), PaLM (Chowdhery et al. 2023 ), LaMDA (Thoppilan et al. 2022 ) y LLaMA (Touvron et al. 2023 ) y modelos de lenguaje preentrenados (PLM) como como BERT (Devlin et al. 2019 ), RoBERTa (Liu et al. 2019 ), T5 (Raffel et al. 2020 ), ALBERT (Lan et al. 2019 ) y XLNET (Yang et al. 2019 ) han avanzado sustancialmente en Lo último en una serie de tareas de PNL, incluido el control de calidad. Se pueden utilizar indicaciones de pocos disparos o incluso de cero disparos en los LLM para que respondan las preguntas sobre la salud de los consumidores, mientras que es posible que sea necesario ajustar los PLM para realizar la tarea de CHeQA utilizando conjuntos de datos específicos de dominio pero comparativamente más pequeños. Ambos sistemas han demostrado un alto rendimiento en tareas de control de calidad, como lo demuestran los siguientes estudios.

Un estudio reciente realizado por Beilby y Hammarberg ( 2023 ) sobre el uso de ChatGPT (con tecnología GPT-3.5) para responder las preguntas de los pacientes sobre la fertilidad. La evaluación de las respuestas realizada por expertos informó que ChatGPT genera respuestas de alta calidad a las preguntas de los pacientes con poca evidencia de sesgo comercial, lo que sugiere que ChatGPT puede ser una herramienta útil para los pacientes que buscan información objetiva e imparcial. Un estudio transversal realizado por Ayers et al. ( 2023 ), para evaluar las respuestas de ChatGPT a preguntas de salud pública, informa que ChatGPT proporcionó constantemente respuestas basadas en evidencia a preguntas de salud pública.

Todos los sistemas de puntuación más alta en las tablas de clasificación SQuAD 2.0 (Rajpurkar et al. 2016 ) y CoQA (Conversational Question Answering) (Reddy, Chen y Manning 2019 ) para control de calidad de dominio abierto se basan en BERT. Estos sistemas se están acercando rápidamente al desempeño humano en los conjuntos de datos SQuAD y CoQA. Wen et al. ( 2020 ) adaptan BERT para el control de calidad clínico por qué . Entrenan a BERT con diversas fuentes de datos para realizar respuestas a preguntas de por qué (por qué QA) al estilo SQuAD 2.0 en notas clínicas. Muestran que con suficiente personalización del dominio, BERT puede lograr una precisión cercana al 70% en preguntas clínicas de por qué. Lee y cols. ( 2020 ) proponen Bio-BERT, un modelo de lenguaje de dominio específico obtenido mediante el entrenamiento previo de BERT en corpus biomédicos a gran escala para facilitar la extracción del texto biomédico. Muestra una mejora cercana al 12 % del MRR con respecto a otros modelos de última generación para el control de calidad biomédico.

El trabajo anterior implica que con indicaciones adecuadas y/o ajustes suficientes, tanto los LLM como los PLM se pueden adaptar para CHeQA incluso con una cantidad limitada de datos de entrenamiento. Esto tiene ventajas significativas sobre otros enfoques, ya que requiere menos tiempo para el entrenamiento y menos datos de entrenamiento. Debido a su capacidad de generalizar, puede ser muy adecuado para cuestiones de salud de los consumidores en particular, ya que a menudo están mal formuladas y pueden utilizar diferentes términos coloquiales para describir conceptos médicos. Los sistemas CHeQA existentes a veces no logran comprender las preguntas sobre la salud de los consumidores que incluyen términos tan coloquiales. Un ejemplo de tal situación se ilustra en la Figura 11A , donde el sistema CHiQA no interpreta la pregunta “¿Cómo deshacerse de las espinillas?” ya que no incluye ninguna terminología que coincida con los conceptos médicos de su fondo documental. Mientras que la misma pregunta formulada correctamente con términos médicos correctos como “¿Cómo tratar el acné?” recupera resultados correctos como se ve en la Figura 11B . Creemos que el uso de LLM y PLM con suficiente ajuste puede mejorar los sistemas CHeQA para generalizar mejor la terminología de los consumidores.

Sin embargo, un riesgo asociado con estos sistemas es la precisión de las respuestas generadas. Un estudio realizado por Hulman et al. ( 2023 ) para evaluar las respuestas dadas por ChatGPT a preguntas relacionadas con la diabetes frente a las respuestas dadas por humanos, informa que las respuestas de ChatGPT a dos de cada 10 preguntas relacionadas con la diabetes contienen información errónea. Con respecto a esto, la calidad de las respuestas proporcionadas por enfoques CHeQA más tradicionales como se describe en esta encuesta, cuyas respuestas provienen de contenido científico validado, puede ser mayor que las proporcionadas por sistemas basados en LLM genéricos o PLM ajustados en conjuntos más pequeños. de datos específicos del dominio. Por lo tanto, el trabajo futuro debería evaluar cuidadosamente la capacidad de los LLM y PLM para generar respuestas precisas y confiables a los CHQ en comparación con los enfoques tradicionales de CHeQA.

Control de calidad conversacional de iniciativa mixta

La interacción de iniciativa mixta es una interacción computadora-humano, en la que tanto la computadora como el humano pueden tomar la iniciativa y decidir qué paso dar a continuación (Allen, Guinn y Horvtz 1999 ). Es una propiedad crucial del diálogo eficaz que interactúa sin problemas con los humanos para realizar tareas complejas (Hearst et al. 1999 ). Permite tanto al sistema como al usuario interrumpir una conversación y hacer preguntas para aclarar cualquier cosa que no esté clara. Se vuelve importante para los sistemas CHeQA, principalmente debido a la brecha lingüística entre la salud del consumidor y el vocabulario médico.

Las preguntas sobre la salud de los consumidores contienen muchas ambigüedades debido a la falta de conocimiento y experiencia de los consumidores en el ámbito de la atención sanitaria. Un consumidor puede (1) utilizar términos ambiguos, que tienen más de un significado; por ejemplo, el término “resfriado” puede tener varios significados posibles, incluido “resfriado común” (enfermedad), “sensación de frío” (síntoma) y “ temperatura fría” (síntoma), según el UMLS Metathesaurus (Humphreys et al. 1998 ); (2) describir algo con sus propias palabras sin utilizar el término médico correcto; o (3) no transmitir claramente qué información requiere (por ejemplo, causas, prevención, opciones de tratamiento o mantenimiento) con respecto a una condición médica. Esto implica la importancia de hacer preguntas de seguimiento para aclarar tales ambigüedades antes de dar una respuesta. Debido a las complejidades técnicas que pueden existir para comprender la respuesta devuelta o cualquier pregunta aclaratoria, es importante que el usuario también pueda interrumpir una conversación y preguntar cualquier cosa que no entienda. La conversación con el agente comercial de CHeQA, MedWhat, ilustrada en la Tabla 4 , es un ejemplo de conversación de iniciativa mixta, en la que tanto el usuario como el agente interrumpen la conversación para recibir información adicional y aclarar dudas.

Para permitir este tipo de interacción, además de las capacidades de gestión de contexto, co-referenciación y resolución de puntos suspensivos, se requiere la integración de componentes adicionales, como un administrador de diálogo. En la Figura 12 se muestra la arquitectura típica de un agente de control de calidad conversacional de iniciativa mixta . El administrador de diálogo es responsable de comprender la intención del usuario, rastrear el estado del diálogo y decidir la siguiente respuesta según la política de diálogo. En cada turno, el agente recibe una expresión en lenguaje natural como entrada y selecciona una acción como salida. El espacio de acción puede consistir en un conjunto de preguntas para aclarar cualquier ambigüedad detectada en el enunciado del usuario o solicitar información faltante y una acción para dar respuesta a una pregunta. Esto generalmente refleja un sistema de diálogo orientado a tareas, donde el diálogo se lleva a cabo para ayudar a los usuarios a obtener una respuesta precisa a una pregunta, permitiéndoles transmitir su necesidad de información exacta a través de preguntas de seguimiento (Gao, Galley y Li 2019 ) de manera efectiva. . Por ejemplo, KB-InfoBot (Dhingra et al. 2017 ) es un agente de diálogo orientado a tareas y entrenable de un extremo a otro para consultar una base de conocimientos de películas utilizando lenguaje natural. Puede hacer a los usuarios preguntas fáciles de responder para ayudarles a buscar en la base de conocimientos. En la Figura 13 se muestra un ejemplo de una interacción con este bot .

En el pasado reciente también se han desarrollado otras estrategias para incorporar capacidades en los sistemas de control de calidad para hacer preguntas de seguimiento. Por ejemplo, Wu, Li y Lee ( 2015 ) propusieron una estrategia de gestión de diálogos de minimización de entropía (EMDM) para facilitar la consulta de una base de conocimientos utilizando lenguaje natural. La Tabla 7 muestra un ejemplo de interacción entre un usuario que busca una canción y un agente que utiliza la estrategia EMDM para responder. El agente siempre solicita el valor del atributo con la máxima entropía sobre las entradas restantes en la base de conocimientos para reducir el espacio de búsqueda. Los sistemas CHeQA pueden utilizar fácilmente estas técnicas para hacer que la experiencia de control de calidad sea más sólida y atractiva.TABLA 7. Un ejemplo de interacción entre un usuario que busca una canción y un agente que utiliza la estrategia de gestión de diálogo de minimización de entropía (EMDM) (Wu, Li y Lee 2015 ).

Sistema:	¿Qué puedo hacer por ti?
Usuario:	Me gustaría una canción de Maggie Chiang.
Sistema:	¿Que tipo de cancion?
Usuario:	uno popular
Sistema:	¿Quién es el letrista de esa canción?
Usuario:	Peggy Hsu
Sistema:	¿En qué álbum aparece esa canción?
Usuario:	Está en “Mi habitación”

Respuestas empáticas

Una tendencia reciente hacia hacer que los agentes conversacionales de dominios específicos sean más atractivos es incorporar propiedades más humanas, como rasgos de personalidad e inteligencia emocional. El trabajo reciente se centra más en las cualidades sociales de los agentes conversacionales de dominios específicos que en los aspectos funcionales (Xu et al. 2017 ; Liao et al. 2016 ; Yan et al. 2017 ). Por ejemplo, un estudio de Yu et al. propone un agente de atención al cliente en redes sociales capaz de generar respuestas mostrando empatía para ayudar a los usuarios a afrontar situaciones emocionales. Un análisis de contenido realizado sobre las solicitudes de los clientes en las redes sociales revela que más del 40% de las solicitudes son emocionales, lo que constituye la base de la propuesta de los autores. La Tabla 8 muestra ejemplos de respuestas empáticas generadas por este agente para las entradas emocionales del usuario.TABLA 8. Ejemplos de respuestas emocionales generadas por el agente de atención al cliente de redes sociales (Xu et al. 2017 ).

Cliente:	¡Su servicio al cliente es horrible! ¡Ni siquiera sabes cómo entregar paquetes!
Agente:	Siento escuchar eso. ¿Cuál fue la fecha de entrega proporcionada en su pedido?
Cliente:	No puedo esperar a viajar contigo la próxima semana por primera vez en mi vida contigo;)
Agente:	¡Estamos ansiosos por verte! ¡Estamos emocionados de tenerte a bordo con nosotros pronto!

Un estudio realizado para evaluar la inteligencia emocional de los estudiantes de medicina en la India (Sundararajan y Gopichandran 2018 ) muestra que las emociones positivas como la empatía, la comodidad y la simpatía tienen una influencia positiva en la relación médico-paciente. También se ha descubierto que la conciencia emocional aumenta la satisfacción del usuario y mejora la interacción sistema-usuario (McDuff y Czerwinski 2018 ). La capacidad de identificar emociones y responder de manera empática hace que los agentes sean más atractivos y humanos. Además, para compensar los posibles errores que pueden ocurrir al responder las preguntas de los consumidores, una respuesta como “Lo siento” puede hacer que los consumidores se sientan menos frustrados con el agente. Por tanto, incorporar la empatía en el diseño de los sistemas CHeQA puede resultar útil para la aceptación y el éxito de estas tecnologías.

La generación de respuestas empáticas y conscientes de las emociones ha ganado cada vez más atención en la investigación. Por ejemplo, Ghandeharioun et al. ( 2019 ) presentan EMMA, un agente de mHealth consciente de la emoción, que proporciona microactividades emocionalmente apropiadas para el bienestar mental de una manera empática. Al sugerir microintervenciones, utilizan un enfoque basado en reglas con frases escritas enriquecidas con emociones que son apropiadas para el estado de ánimo del usuario. Los resultados de un experimento con sujetos humanos de dos semanas de duración con 39 participantes muestran que EMMA se percibe como agradable. Xie, Svikhnushina y Pu ( 2020 ) describen un modelo de diálogo de participación emocional (MEED) de múltiples turnos de extremo a extremo, capaz de reconocer emociones y generar respuestas emocionalmente apropiadas. Utilizan un modelo de diálogo Seq2Seq basado en GRU que consta de un mecanismo jerárquico para rastrear el historial de conversaciones combinado con un RNN de emociones adicional para procesar la información emocional en cada expresión del historial. Huo et al. ( 2020 ) presentan TERG, un generador de respuestas emocionales consciente del tema, que funciona bien en la generación de respuestas emocionales relevantes para el tema discutido. Utilizan un modelo codificador-decodificador que tiene dos módulos: uno para controlar la emoción de la respuesta; y el otro para mejorar la relevancia del tema. TERG muestra mejoras sustanciales frente a varios métodos de referencia en la evaluación tanto automática como manual. Estos enfoques pueden ser adoptados por sistemas de control de calidad conversacionales y de turno único para brindar respuestas de una manera emocionalmente apropiada y empática. Se pueden diseñar técnicas automatizadas para identificar por separado las solicitudes emocionales e informativas realizadas por los consumidores y enrutar estas solicitudes a módulos separados para que se manejen adecuadamente. Sin embargo, la falta de conjuntos de datos de emociones relacionadas con la salud de médicos, pacientes o consumidores a gran escala limita el uso de tales enfoques en el ámbito de la salud del consumidor. El desarrollo de conjuntos de datos etiquetados con emociones sobre conversaciones relacionadas con la salud del consumidor facilitará investigaciones futuras sobre cómo incorporar la empatía en los sistemas de control de calidad de la salud del consumidor.

Controlabilidad e interpretabilidad.

Los enfoques de redes neuronales se utilizan ampliamente para el control de calidad conversacional en comparación con los métodos tradicionales basados en reglas debido a la generalización y adaptabilidad de los primeros sobre los segundos. Pero una limitación inherente es que las respuestas generadas son impredecibles y no pueden controlarse. Varios enfoques de generación de respuestas neuronales intentan obtener control sobre las respuestas generadas condicionándolas a actos de diálogo o etiquetas de emociones especificados manualmente (Zhou et al. 2017 ; Zhou y Wang 2017 ; Hu et al. 2018 ; Song et al. 2019 ) o utilizando funciones de pérdida basadas en heurísticas como minimizar o maximizar la disonancia afectiva entre indicaciones y respuestas (Asghar et al. 2018 ). Estos modelos pretenden generar respuestas más apropiadas que las generadas a partir de modelos puramente basados en datos. Pero la principal preocupación de estas reglas hechas a mano es su practicidad.

Xu, Wu y Wu ( 2018 ) intentan evitar la necesidad de condicionar explícitamente la respuesta a una etiqueta especificada manualmente mediante el uso de una red conjunta de selección de actos de diálogo y generación de respuestas. Primero seleccionan un acto de diálogo de una red de políticas de acuerdo con el contexto del diálogo y lo introducen en la red de generación, que genera una respuesta basada tanto en el historial del diálogo como en el acto de diálogo de entrada. Por lo tanto, es posible generar respuestas más controladas e interpretables sin la necesidad de reglas elaboradas manualmente.

Es vital en el ámbito de la atención médica generar respuestas explicables para evitar posibles contratiempos y riesgos de generar una respuesta inapropiada. Una encuesta realizada por Tjoa y Guan ( 2019 ) define la explicabilidad o interpretabilidad como la capacidad de (1) explicar las decisiones tomadas, (2) descubrir patrones dentro del mecanismo interno de un algoritmo, (3) presentar el sistema con modelos o matemáticas coherentes. Desafortunadamente, la naturaleza de caja negra de los modelos neuronales no está resuelta y muchas decisiones de las máquinas no se comprenden bien (Tjoa y Guan 2019 ). Tanto la controlabilidad como la interpretabilidad, cuando se integran en métodos de aprendizaje profundo, establecerían mejor la responsabilidad y aumentarían la confiabilidad de los sistemas CHeQA.

Otras preocupaciones

Fiabilidad versus abundancia

La mayoría de los enfoques CHeQA estudiados en este artículo utilizan la World Wide Web y foros comunitarios de control de calidad como Yahoo! Answers, Answers.com y Quora como fuentes de conocimiento para responder preguntas sobre salud de los consumidores. La abundancia de artículos relacionados con la salud y las preguntas de salud de los consumidores respondidas previamente pueden considerarse las razones más cercanas para su selección. Sin embargo, la credibilidad de estas fuentes suele ser menos conocida. El enfoque de vinculación de preguntas (Abacha y Demner-Fushman 2019a ), que ha logrado el mejor puntaje promedio actual en la subtarea médica TREC LiveQA 2017, destaca que restringir las fuentes de respuestas solo a recopilaciones confiables (como lo han hecho) mejora el desempeño del control de calidad ya que dichas fuentes contienen respuestas más relevantes a las preguntas formuladas. Además, Abacha y Demner-Fushman ( 2019b ), en su trabajo que estudia los factores detrás de la complejidad de las preguntas sobre la salud del consumidor, proporcionan evidencia empírica que respalda el papel de las fuentes de información confiables en la construcción de sistemas CHeQA eficientes, aunque contradice la tendencia generalizada de confiar en big data para el control de calidad relacionado con la salud. Por lo tanto, restringir las fuentes a bases de conocimiento confiables como registros MEDLINE ( www.nlm.nih.gov/bsd/medline.html ) y sitios web creíbles como los sitios web de NIH, WebMD ( www.webmd.com ), MayoClinic ( www.mayoclinic .org ) y OMS ( www.who.int ) para extraer respuestas y preparar pares de preguntas y respuestas para capacitación y pruebas.

Fiabilidad versus naturalidad

enquireMe (Wong, Thangarajah y Padgham 2012 ) afirma que la naturaleza coloquial y no técnica de los pares de preguntas y respuestas de la comunidad permite que el sistema genere respuestas más naturales en comparación con la extracción de oraciones o párrafos de otras formas de contenido web. Sin embargo, como se analizó en la subsección anterior, esto compromete la confiabilidad de las respuestas proporcionadas, lo cual es más crucial ya que, a diferencia de los profesionales médicos, los consumidores no tienen la capacidad de validar la información que reciben. Por lo tanto, se debe prestar atención a generar respuestas naturales a partir de fuentes de información creíbles. Traducir términos médicos a sus correspondientes términos del Vocabulario de Salud del Consumidor (CHV) es un enfoque que se puede considerar. Qenam et al. ( 2017 ) analizan formas de simplificar el texto utilizando CHV para generar informes de radiología centrados en el paciente. Utilizan la herramienta MetaMap ( metamap.nlm.nih.gov ) para vincular términos en informes de radiología con conceptos de CHV. Estas técnicas se pueden utilizar para eliminar las limitaciones del uso de fuentes de información creíbles debido a las barreras médicas del idioma.

CONCLUSIÓN

En este artículo, analizamos enfoques conversacionales de un solo turno y de múltiples turnos desarrollados en el pasado reciente para responder preguntas sobre la salud de los consumidores. Sin embargo, aún quedan muchos desafíos. Revisamos los recursos desarrollados para abordar algunos de estos desafíos, así como los métodos de evaluación y los puntos de referencia para evaluar los sistemas CHeQA de una y varias vueltas. Discutimos que una menor generalización, falta de empatía, interacción de iniciativas mixtas y menos interpretabilidad son algunas de las limitaciones de los sistemas CHeQA existentes y cómo abordar estas limitaciones puede beneficiar a las personas a la hora de transmitir sus necesidades de información de manera más efectiva, ofreciendo una experiencia más natural y confiable. experiencia de interacción inspiradora.

DECLARACION DE CONFLICTO DE INTERES

Los autores declaran que no existe ningún conflicto.

NOTAS FINALES

Biografías

Anuradha Welivita es una investigadora postdoctoral que trabaja en el Grupo de Interacción Humano-Computadora (HCI) de la Facultad de Ciencias de la Computación y la Comunicación del Instituto Federal Suizo de Tecnología en Lausana (EPFL). Obtuvo su doctorado. en Ciencias de la Computación de la misma universidad. Sus intereses de investigación se encuentran principalmente en el área del desarrollo de agentes conversacionales empáticos para apoyar a las personas en entornos terapéuticos y de dominio abierto. También está interesada en desarrollar y analizar recursos lingüísticos, principalmente el discurso humano. También tiene experiencia en el diseño y realización de experimentos de computación humana a gran escala.
Pearl Pu actualmente dirige el Grupo de Interacción Humano-Computadora (HCI) en la Facultad de Ciencias de la Computación y la Comunicación del Instituto Federal Suizo de Tecnología en Lausana (EPFL). Sus intereses de investigación incluyen la interacción entre humanos y computadoras, tecnología de recomendación, modelos de lenguaje para la generación de diálogos empáticos e inteligencia artificial y ética. Es miembro del comité directivo de la Conferencia Internacional ACM sobre Sistemas de Recomendación, oradora distinguida de ACM y formó parte de los consejos editoriales de varias revistas científicas altamente reconocidas. Ha recibido 14 premios de investigación de la Fundación Nacional de Ciencias de Suiza, tres premios de innovación tecnológica del gobierno suizo y un premio a la carrera de investigación de la Fundación Nacional de Ciencias de EE. UU. También cofundó tres empresas emergentes, por las que recibió el premio Rising Star 2008 de Sina.com y el premio Worldwide Innovation Challenge 2014 del presidente francés. Fue nombrada miembro de EurAI (Asociación Europea para la Inteligencia Artificial) en 2021.