Comprender el espíritu de una norma: desafíos para los agentes que aprenden normas

Publicado por primera vez:31 de octubre de 2023

Abstracto

Las normas sociales y morales son un tejido que mantiene unidas a las sociedades humanas y las ayuda a funcionar. Como tales, también se convertirán en un medio para evaluar el rendimiento de futuros sistemas hombre-máquina. Si bien la ética de las máquinas ha ofrecido varios enfoques para dotar a las máquinas de competencia normativa, desde los más basados en la lógica hasta los más basados en datos, ninguna de las propuestas hasta ahora ha considerado el desafío de capturar el “espíritu de una norma”, que a menudo elude interpretación rígida y complica hacer lo correcto. Presentamos algunos escenarios paradigmáticos en distintos contextos para ilustrar por qué puede ser fundamental hacer explícito el espíritu de una norma y por qué expone las deficiencias de las técnicas de “alineamiento de valores” basadas en meros datos, como el aprendizaje por refuerzo RL para humanos interactivos en tiempo real. interacción del robot. En cambio, sostenemos que el aprendizaje de normas, en particular el aprendizaje de captar el espíritu de una norma, requiere combinar enfoques basados en inferencias de sentido común y basados en datos.

INTRODUCCIÓN

Las interacciones sociales son difíciles de imaginar sin algún tipo de norma. Si bien las normas pueden describir patrones de comportamiento, también pueden poseer facetas morales de culpa, elogio y valores comunes. Lo que Bicchieri llama una “gramática de las interacciones sociales”, las normas son a la vez una forma de comportamiento y un conjunto de juicios y expectativas sobre cómo se supone que se deben hacer las cosas (Bicchieri 2005). Si bien no todas las normas son morales, incluso violar las normas sociales puede provocar consternación. Esto se aplica especialmente a los sistemas autónomos o a los robots que interactúan con las personas. Si estas máquinas se consideran algo inteligentes, navegarán por patrones comunes de comportamiento y enfrentarán expectativas de seguir algunos tipos de normas (Malle, Bello y Scheutz, 2019 ). Incluso se podría esperar que sancionaran violaciones de normas, a fin de apoyar la coordinación del trabajo y el movimiento en un espacio social determinado. Estos podrían abarcar desde una estación de tren o una fábrica hasta un centro de atención para personas mayores o un pequeño apartamento. Se podrían obtener varios tipos de roles sociales y autoridad, incluido quién se considera usuario y en qué términos está permitido ejercer control sobre su funcionamiento.

Las normas son aún más complejas de lo que se ha articulado hasta ahora en gran parte de la ética de las máquinas (Wallach, Allen y Smit 2020 ; Moor 2006 ). Esto no se debe sólo a las contradicciones entre las reglas establecidas, un punto muy trillado desde Asimov. Es que las normas tienen límites implícitos que los agentes competentes captan. Detenerse y esperar en un semáforo en rojo no significa esperar cuando el semáforo está roto y nunca cambia a verde, ni significa negarse a moverse cuando un oficial que dirige el tráfico le indica que lo haga. Ofrecer el asiento a las personas mayores en el transporte público no significa simplemente ofrecer y permanecer sentados. “Permanecer detrás de una línea” para un vagón de metro no significa permanecer entre esa línea y la vía.

Las normas también conllevan supuestos tácitos sobre las prioridades, propósitos y condiciones dependientes del contexto de otras normas con las que podrían entrar en conflicto. Se esperaría que dos adultos contándose chistes groseros se detuvieran al entrar a una escuela primaria, pero si era verano y estaban haciendo mantenimiento en ese edificio, tal vez no. Cuando se corta la electricidad en una tienda de comestibles o suena la alarma de incendio, seguir esperando en la cola no es una actitud de conformidad sino de indiferencia.

Esto podría parecer simplemente otro tipo de desafío de sentido común para los enfoques computacionales, ya sean explícitos y basados en reglas o implícitos y basados estadísticamente (compárese con Moor 2009 ). Como se ha señalado en la literatura sobre ética de las máquinas, el “problema del marco” sugiere que los sistemas de IA se enfrentarán a desafíos formidables, incluso con cantidades masivas de capacitación, sobre qué consecuencias son suficientes a considerar para tomar una decisión éticamente informada (Briggs 2012 ).

Pero en el caso de las normas, el problema va más allá de cuándo seguir una regla o ajustarse a un patrón de conducta. Las normas y los contextos pueden moldearse mutuamente a través de razones para actuar. No exponer a los niños a cierto lenguaje es parte de una norma contra las malas palabras, por lo que cuando no están en su lugar habitual (es decir, no en un edificio escolar), la norma de cómo hablar con los niños retrocede. Y sería parte de la respuesta a las acusaciones explicar por qué una norma ya no se aplica en un contexto, del mismo modo que sería por qué una norma ha cambiado un contexto donde normalmente está ausente (un camarero ha tenido que llevar a su hijo a un bar ruidoso por un breve tiempo).

No siempre se espera que los robots, a medida que se mueven, ejecutan tareas y se comunican, comprendan y se adapten a estas sutilezas. Aún así, incluso con un movimiento básico, cumplirán con las prácticas y expectativas de pasar a alguien, dejar pasar a alguien o alertar a una persona si alguien se mueve detrás de ellos. ¿Cómo sabrían no sólo estas expectativas básicas sino también su relación con otras normas (por ejemplo, las provocadas por una emergencia), así como las razones por las que una norma podría no seguirse?

En este artículo, enfrentamos estas preguntas a través de lo que podríamos llamar el “espíritu de las normas”, una forma de capturar estos criterios, a menudo tácitos, para seguir una norma en medio de circunstancias cambiantes. Nuestro objetivo es explicar qué significa esto para la ética de las máquinas, por qué es un aspecto tan crucial del comportamiento socialmente interactivo por parte de los robots y qué desafíos de diseño presenta en el futuro. Sostenemos que así como las normas ocupan un terreno intermedio en la regulación social, también lo ocupa el diseño de sistemas sólidamente interactivos: no pueden ignorar las normas en su funcionamiento ni aprender exhaustivamente todas las posibles aplicaciones de las normas. Debido a que la capacitación de sistemas puramente basados en datos no puede capturar la base conceptual del espíritu de una norma y las justificaciones relacionadas, sugerimos cómo los enfoques híbridos pueden contribuir a un diseño inclusivo y responsable. Sostenemos que el principal desafío de que exista un “espíritu” para las normas es el de aprender una norma de manera adaptativa, responsable y transparente. Esto no será sólo un desafío técnico complejo, sino también un imperativo para los sistemas de IA destinados a mejorar un contexto social.

ANTECEDENTES Y MOTIVACIÓN

Los sistemas encarnados se convierten en normas a medida que se acercan a la presencia física de las personas. Los populares vídeos de robots de Boston Dynamics provocan deleite, miedo y entusiasmo en parte porque nos hacen reflexionar sobre lo que se considera bailar, correr o incluso violencia (cuando el robot es derribado). De manera bastante apropiada, dado que un tipo de robot se llama “perro”, uno puede quedar absorto en lo animal, más que antropomórfico, que es el sistema (de la misma manera que uno puede recordar cómo se emplean los “perros” robóticos en el campo de batalla). ) (Carpintero 2016 ). Del mismo modo, cuando los robots ejecutan movimientos en un entorno de tareas, pueden obtener juicios normativos (a menudo positivos en términos de eficiencia y precisión) a partir de su comportamiento. Pero cuando estos sistemas actúan en conjunto con otros en un espacio compartido, por no hablar de comunicarse en tiempo real, lo que está en juego aumenta conceptual y éticamente. La ética de las máquinas ha tratado de dar forma filosófica a la guía interna que podría tener un sistema, ya sean reglas morales de arriba hacia abajo o de abajo hacia arriba a través de datos de entrenamiento a partir de un comportamiento ideal modelado (Wallach, Allen y Smit 2020 ). A menudo esto depende de si se busca únicamente una conducta o, más comunicativamente, de hasta qué punto un sistema debería ser capaz de representar lo que está haciendo y por qué. El objetivo amplio de “alineación de valores” no será suficiente si las personas necesitan saber por qué se hizo algo y qué se habría hecho si las circunstancias hubieran sido diferentes (Kasenberg, Arnold y Scheutz 2018 ). Ya sea que uno base la “competencia moral” de un sistema autónomo en normas, utilidades, reglas o virtudes, el dominio de aplicación particular de un sistema dará forma a esas demandas de explicación y justificación.

Un peligro identificado en esfuerzos anteriores en materia de ética de las máquinas es que la responsabilidad podría desviarse de los diseñadores humanos, especialmente si un sistema se promueve como un agente moral autenticado a través de los algoritmos y la capacitación detrás de él. Aún así, la falta de atención a las normas sociales en la toma de decisiones de un sistema no significa que el sistema estará exento de culpa por sus acciones. Las atribuciones de agencia y paciencia (Bryson 2018 ), como nos recuerda la investigación sobre la interacción entre humanos y robots (HRI), son difíciles de acorralar, por instintivas que sean.

Para que los sistemas alguna vez defiendan las normas de manera transparente, responsable y adecuada, es fundamental abordar las tensiones prácticas que las normas conllevan. Sostenemos que el espíritu de una norma puede exceder una simple especificación formal de acción condicional (“hacer x cuando y se obtiene”), ya que puede conllevar juicios implícitos hacia circunstancias nuevas (donde y aún no se ha obtenido de esta manera particular). La sensibilidad a las normas de un sistema, entonces, implica más que la adhesión a condicionales dentro de un rango esperado para sus interactuantes. Ofrece accesibilidad para una orientación normativa más sutil y delicada sobre la marcha.

La literatura más amplia de las ciencias sociales sobre las normas ha enfatizado las diversas direcciones que podría seguir la investigación, desde cómo se internalizan las normas como individuos hasta su papel social al proporcionar información e instituir obligaciones externas (Legros y Cislaghi 2020 ) . Para recordar la definición de Bicchieri, las normas son una “gramática de interacciones sociales”, que constituyen expectativas de lo que harán otros agentes, con el juicio adicional y la práctica sancionadora de lo que deberían hacer (Bicchieri 2005 ). En este artículo, utilizamos esta definición básica como guía, reconociendo que las normas sociales pueden diferir en función y grado de las normas “morales” si se toman como “imperativos incondicionales” (Bicchieri, Muldoon y Sontuoso 2018 ).

Dicho esto, en el caso del HRI, entre otros campos, es difícil trazar claramente la línea entre las normas sociales que definen lo que es aceptable y las normas morales que marcan lo que vale la pena censurar o culpar sin perder precisión empírica. Para la persona que necesita confiar en el desempeño de un sistema, la violación de una norma social puede tener varias implicaciones morales (Kuipers 2018 ). Malle, Bello y Scheutz ( 2019 ) han esbozado recientemente los requisitos para la competencia normativa , a falta de un modelo computacional que se centre directamente en su representación. Malle et al. señalan que las normas tienen un componente de “prevalencia” que registra la regularidad externa de las personas que siguen un patrón normativo de acción y un componente de “demanda” que representa la forma en que las normas dan forma a las decisiones e incurren en su aplicación por parte de una comunidad (Malle et al. 2021 ). Las normas sociales tienen un componente tanto de prevalencia como de demanda cuando se trata de acciones robóticas en espacios compartidos, aunque los términos evaluativos asociados con las normas sociales pueden tener menos carga que las normas típicamente designadas como normas morales.

La ética de las máquinas ha abordado las normas de manera directa e indirecta, incluidas técnicas de aprendizaje automático para identificar las normas como resultados de la capacitación (Fernandes, Santos y Lopes 2020 ; Shen, Geng y Jiang 2022 ; Nahian et al. 2020 ). Aunque se ha hecho un énfasis cada vez mayor en la verificabilidad y la claridad en torno a los principios (Umbrello y Yampolskiy 2022 ; Kim, Hooker y Donaldson 2021 ), sigue siendo un desafío práctico para un sistema de IA representar una norma como una justificación de patente o una hipótesis para la acción. Un uso prospectivo y discutible de las normas dificulta entrenar una máquina en un “banco de normas” (Choi 2021 ) para afirmar que se está haciendo una inferencia aislable a partir de una norma. El trabajo en robótica social y planificación ha identificado acertadamente la dificultad de representar normas explícitas en el razonamiento de un sistema (Carlucci et al. 2015 ).

Coggins y Steinert han cuestionado recientemente la idea misma de robots que cumplan con las normas como objetivo de diseño (Coggins y Steinert 2023 ). Las normas pueden encerrar prácticas sociales anticuadas u opresivas, así como marginar a ciertos grupos que carecen de la influencia social para cambiarlas, por lo que los robots que siguen sujetos a las normas actuales pueden resistir funcionalmente el cambio social necesario. Si bien esta crítica merece una respuesta más exhaustiva, a los efectos de este artículo señalaremos que las prácticas de cambio en sí mismas pueden y, en algunos casos, deben depender de normas. El contexto de diseño, uso e implementación de ciertas normas sobre otras será, por supuesto, primordial para buscar formas más justas de cumplimiento de las normas, pero los sistemas interactivos tendrán dificultades para ignorarlas por completo.

Con estas consideraciones en mente, este artículo busca explorar lo que significaría razonar sobre normas y aplicar una determinada norma a acciones concretas. Proponemos el “espíritu de una norma” como una categoría mediadora entre las características de prevalencia y demanda de las normas: un componente integrador que busca preservar y fomentar el compromiso comunitario con lo que es más importante defender de una norma.

El espíritu de una norma no es sólo un desafío logístico para formalizar reglas, sino también un desafío socialmente pragmático a la dependencia de datos y capacitación (simulada o disponible). Se refiere tanto a lo que estabiliza el cumplimiento de las normas como a lo que lo mantiene receptivo a las relaciones, los hechos y las necesidades cambiantes en un contexto social.

Los recientes problemas de las regulaciones y el cumplimiento de la COVID han puesto de relieve cómo puede desarrollarse la tensión entre rigidez y resiliencia: las personas pueden utilizar diferentes racionalizaciones antes y después de actuar para justificar la desviación de una regulación o norma (Harris 2020 ). Los robots que operan en un hospital y tienen la tarea de cumplir dichas regulaciones o protocolos relacionados podrían eventualmente enfrentar una interacción verbal que involucre tales razones: ¿cómo decidirán responder de manera responsable?

En trabajos anteriores, hemos argumentado que las excepciones a ciertas formas de cumplir las normas pueden en realidad constituir parte de esas normas y, de hecho, que la competencia con las normas a menudo significa conocer excepciones comunes (un camarero que retira un plato de la mesa y ve que un comensal está tratando de coma más) (Sarathy, Arnold y Scheutz 2019 ). Si bien en algunos casos puede haber reparaciones o ajustes para navegar una interacción basada en normas (“Lo siento, pensé que ya habías terminado con tu comida”), el “espíritu” de una norma representa un conjunto implícito de presuposiciones que las normas implican en circunstancias inciertas o inesperadas. Estos pueden conducir a más que pequeños ajustes, pero en realidad exigen cambios más drásticos. Si bien se reconoció brevemente en trabajos anteriores (Arnold y Scheutz 2022 ), la idea no se ha elaborado lo suficiente como para sugerir un objetivo de investigación distinto para la ética de las máquinas. En la siguiente sección, exploramos tres casos hipotéticos en los que el espíritu de una norma, como característica de la norma misma, pasa a primer plano.

TRES ESCENARIOS

Aquí presentamos tres escenarios interactivos específicos para mostrar el desafío persistente de las normas como algo explícito y adaptable a la novedad. Los escenarios ilustran por qué las normas son tan difíciles de separar de la interacción social en general, así como por qué operar en un espacio compartido es interactivo en muchas dimensiones. También presentan un desafío continuo para diseñar competencia normativa que sea confiable, pero restringida, que se adapte al espíritu de una norma sin invitar a proyecciones ilusorias de conciencia y sensibilidad. Gestionar las expectativas relacionales y al mismo tiempo defender normas importantes en espacios comunes sugiere que ni la deducción a partir de reglas de arriba hacia abajo ni la inducción de abajo hacia arriba sobre datos serán por sí solas como métodos suficientes.

Tienda de comestibles

Recientemente, las tiendas de comestibles han estado introduciendo robots en sus pasillos como una incursión promocional en la dinámica cliente-robot. Si bien aún no está claro cuáles son las tareas o funciones estándar de un robot de tienda de comestibles, proporciona un ejemplo adecuado de dónde entrarían en juego varias normas cuando un robot deambula por la tienda y se mezcla con los compradores. Debido a la implementación de “Marty” en algunas tiendas de comestibles durante la pandemia, ya han surgido dudas sobre el distanciamiento social y la posible interferencia de este robot en los pasillos (Turmelle 2020 ). Naturalmente, existen muchas otras reglas establecidas que podrían ampliarse o infringirse frente a otras prioridades: escapar del fuego podría justificar no recoger o incluso pagar por un artículo que uno toma de un estante.

Podemos identificar al menos tres conflictos principales relacionados con las normas que debemos gestionar. En primer lugar, puede haber normas contrapuestas, por lo que la cuestión es cuál priorizar. ¿Debería un robot suspender su operación de limpieza durante una alarma de incendio o una emergencia médica, tal vez para mantener la seguridad al no obstruir una pasarela? En segundo lugar, también existen límites en cuanto a dónde se aplica una norma; por ejemplo, el área más allá de una caja registradora (donde la gente ya ha pagado) y el espacio frente a ella. Es posible que el robot no limpie más allá de un área determinada, incluso cuando se le solicite que lo haga. Pero hay una tercera complicación que podríamos llamar propósitos implícitos de las normas, que regulan en qué medida y en qué forma se sostiene una norma. Estos pueden ser estándares circundantes mediante los cuales se determinan los límites de las normas, por ejemplo, equidad, igualdad y dignidad. Por ejemplo, si se suspende una norma habitual (que permite a las personas cortar una línea) en un caso, otros clientes lo verán y podrían inferir que ellos también deberían obtener los beneficios de dicha flexibilización de la norma.

Paso de peatones público

Si bien una tienda puede operar con roles ampliamente entendidos como los de cliente, cajero y asistente, otros espacios públicos plantean un panorama más abierto de posiciones y obligaciones sociales. Lo que significa que un robot opere en una calle quedó muy claro en un caso reciente en Pittsburgh, donde un robot de reparto impidió que una persona en silla de ruedas cruzara un paso de peatones (Martines 2019 ). El robot se quedó en medio de un corte de acera, una pausa para que un semáforo estuviera a punto de girar para detenerse. La función de repartir alimentos se estaba cumpliendo, solo que otras personas en ese espacio público intentaban moverse y vivir según sus diversos propósitos (algunos de ellos, quizás, también repartiendo mercancías). La norma de no cruzar hasta que una luz lo permita claramente, o mantener una distancia razonable de otras personas, tenía un “espíritu” implícito: no interferir con una persona que no tiene otro camino que el de su propia ubicación. Hay una infinidad de casos aún más claros de conflicto y resolución de normas que imaginar precisamente en este contexto.

Pasillo del hospital

Con la aparición de la COVID y las demandas de espacios clínicos estériles y formas efectivas de distanciamiento social, los robots han surgido aún con más fuerza en las mentes de quienes imaginan cómo las instalaciones médicas pueden funcionar sin el contacto y la proximidad típicos de los cuidadores humanos. El robot TUG (Bloss 2011 ) entrega suministros mientras maniobra por los pasillos del hospital, y los robots acompañantes se han probado durante mucho tiempo como garantía interactiva para pacientes preocupados (especialmente niños) (ScienceDaily 2021 ). Si bien el distanciamiento social podría significar menos personas con las que un sistema autónomo necesitaría interactuar, la esterilidad material de un robot ofrece la oportunidad de canalizar, si no proporcionar de forma independiente, una presencia social. Las despedidas en el lecho de muerte a través de FaceTime se han convertido ahora, trágicamente, en una tarea familiar para los médicos, pero uno puede imaginar fácilmente, si no felizmente, otras formas de interacción generada tecnológicamente para quienes reciben cuidados. Presumiblemente fueron los momentos traumáticos y confusos de estar sola mientras sufría los que llevaron a una mujer a pedir ayuda a Alexa horas antes de fallecer.

Dejando de lado la interacción cargada en los espacios clínicos, incluso la negociación de un pasillo por parte de un robot de entrega cumple con las expectativas normativas. Que los visitantes o los pacientes se dirijan a ellos para solicitar información, tener que moverse sin bloquear o asustar a las personas, moverse a una velocidad a la que otros puedan adaptarse y en la que puedan confiar: son normas que en gran medida no están declaradas pero, cuando se violan, muestran parte de su propósito. El espíritu de una norma de saludo (reciprocidad de un discurso, especialmente si hay una pregunta dirigida al destinatario) no es anular las normas de movimiento y ocupación de espacio: detenerse en medio de un pasillo concurrido no es un buen cumplimiento de una norma de saludo. . Ser una presencia no amenazante con los niños no significa jugar con ellos mientras otros se dirigen a una cita.

EL TERRENO MEDIO DE LAS NORMAS

Diseñar sistemas robóticos para cumplir normas implica al menos una situación espinosa, si no siempre un dilema absoluto. Una comprensión profunda de cuándo y dónde se aplica una norma no será posible basándose únicamente en ejemplos anteriores, si eso significa sólo los datos del comportamiento sancionador o no sancionador utilizados para los enfoques de aprendizaje por refuerzo (RL). La conjunción de un tipo de comportamiento con culpa o elogio (o retroalimentación positiva o negativa similar) no necesariamente imparte ninguna razón de por qué se aplicó una norma en un caso y no en otro. Si un plato de galletas desatendido con el letrero “Take One” reflejara una norma estricta, cualquier interpretación podría seguir siendo técnicamente correcta. Podría significar que otros compañeros pueden tomar una pero la persona que los invita se llevará el plato y lo que quede en él, técnicamente no se llevará más de una galleta pero terminará con muchas de ellas. Este tipo de exploits son parte de por qué los sistemas RL pueden tener éxito en encontrar formas de maximizar la utilidad en un entorno determinado (especialmente aquellos, como en el caso de los videojuegos, donde se puede explorar y explotar un espacio completo) (Shao et al. 2019 ). Desde el punto de vista de las reglas, simplemente agregar corredores calificados a las especificaciones de la norma puede no captar lo que llamamos su espíritu. Hay características del entorno que no dependen de una descripción más completa para determinar el alcance de una norma, sino de una comprensión diferente de las circunstancias o condiciones circundantes. Una norma de distanciamiento (especialmente adecuada en estos tiempos de pandemia) podría suspenderse en caso de inundación u otras amenazas inmediatas y apremiantes a la seguridad física. De manera similar, las normas que se aplican en contextos aproximadamente marcados (dentro o fuera de una tienda, o entre la tienda y la calle) no siempre mejoran haciendo identificaciones espaciales cada vez más elaboradas (definiendo el umbral entre el interior y el exterior por pulgadas en lugar de dejar esa área de transición vaga). podría ser incluso menos funcional, no más).

Algunos comentaristas sobre la ética de las máquinas han considerado estas ambigüedades como parte del motivo por el cual cualquier forma moralmente explícita de guía robótica interna está equivocada (van Wynsberghe y Robbins 2019 ). Los robots no sólo podrían manejar mal estas situaciones, sino que también podrían ser engañosos al presentar un razonamiento “moral” que en realidad no afirman. El mismo medio por el cual un robot podría tomar una decisión éticamente informada podría ser la oportunidad que un mal actor podría aprovechar para orientarlo hacia un incentivo maligno o perverso (Vanderelst y Winfield 2018 ). Del mismo modo, las normas podrían cambiar más rápidamente de lo que se codifica e implementa (Coggins y Steinert 2023 ). Si el razonamiento basado en normas es tan vulnerable a que se codifiquen o empleen normas equivocadas, ¿por qué intentarlo?

La principal debilidad de estas críticas es que el error, el engaño y las malas intenciones pueden aprovechar tan fácilmente un sistema libre de normas como un sistema guiado por normas. En el caso de sistemas algorítmicos diseñados con poca o ninguna consideración de posibles violaciones de normas, la falta de normas es aún más conveniente para eludir por completo el diseño basado en valores. De hecho, se corre el riesgo de ser cómplice de sistemas opacos aplicados imprudentemente al decir que, de todos modos, es imposible acertar en la formulación explícita de normas en la toma de decisiones. Además, una vez que se ingresa interactivamente a los espacios sociales, las normas entran en vigor independientemente de cuán explícitamente puedan tratarlas los sistemas. La cuestión en todos los casos es cuál es la mejor forma de respetar las normas. Cerrar vías de reconocimiento de normas puede ponerlas en peligro en general más que los refinamientos iterativos para formularlas mejor. La preocupación de exagerar algo como “moral” sólo subraya, como lo han hecho muchos esfuerzos en la “explicabilidad” de la IA, dónde se pueden ubicar y criticar juicios explícitos, para que no se acepte la opacidad como una necesidad para los juicios de cualquier sistema de IA. Nos ocuparemos ahora de cuestiones relacionadas con la recepción social.

INTERPRETACIÓN DE LA CARTA VERSUS DEL ESPÍRITU

La función del espíritu de una norma se puede ver cuando en su lugar se sigue la “letra” de una norma o petición. En una discusión apasionada, cuando un moderador le recuerda a un interruptor frecuente que “por favor, deja de hablar, queremos escuchar a esta persona terminar”, la interpretación de la carta podría ser dejar de hablar por el resto de la discusión. Cuando se invita al interruptor a comentar y simplemente sacude la cabeza con los labios bien cerrados, la reacción no será que se toma en serio el “deja de hablar”, sino que es grosero. Seguir la letra, pero no el espíritu de una norma, no dará lugar a sanciones típicas de violaciones (ya sea amonestación, multa o prisión), sino a una gama más amplia de desaprobación implícita o explícita: poner los ojos en blanco, mover la cabeza, muy posiblemente una pérdida de confianza en el intérprete. Aprender el espíritu de una norma es un desafío social, ya que los observadores y quienes la aplican tienen muchas reacciones y señales que indican que la norma se está perdiendo a medida que se aplica.

De acuerdo con esta faceta de las normas, los niños parecen centrarse más en la interpretación del espíritu que en la letra de un principio a medida que crecen (Bregant, Wellbery y Shaw 2019 ). Esto indica que a medida que su sistema cognitivo evoluciona, son capaces de comprender y centrarse en la intención detrás de un principio, en lugar de en su interpretación literal. En algunos aspectos, esto se asemeja a los esfuerzos de los robots por comprender las solicitudes indirectas, que no siempre son preguntas directas (Briggs, Williams y Scheutz, 2017 ).

NORMAS Y CONTEXTO EN LA FORMACIÓN MUTUA

Como se analizó anteriormente, las normas no son sólo un comportamiento prevaleciente, sino una exigencia del comportamiento futuro. Por lo tanto, la competencia normativa se extiende más allá de las acciones disponibles dentro de las condiciones actualmente existentes. Incluye variaciones contrafácticas que justifican o explican por qué se decidió la actuación real, qué posibles acciones se habrían tomado en diferentes circunstancias. Nuestros tres escenarios muestran cómo el contexto puede determinar hasta qué punto se aplican esas normas. Fuera de una vía pública, un robot móvil no estará sujeto a una señal de paso, del mismo modo que un robot se desplaza entre un espacio esterilizado y un área pública de un hospital. Al mismo tiempo, no se debe pensar que el contexto actual define normas, sin ninguna influencia formativa de las normas mismas. Tras reflexionar, nos damos cuenta de que las normas ordinarias a veces pueden cambiar la forma en que se identifica un contexto. Una persona que necesita asistencia médica en una biblioteca puede anular la expectativa habitual de silencio de los técnicos de emergencias médicas (EMT) que ingresan. Si esa persona es transportada a través de diferentes áreas al salir (por ejemplo, oficina, librería), la situación de emergencia los moldea para que se parezcan más entre sí. Entonces, reconocer lo que se hace es que tal situación (incluido no molestar a los técnicos de emergencias médicas con otras solicitudes) atraviesa y conecta contextos típicamente distintos en un territorio unificado donde la norma todavía se aplica (se podría decir alternativamente que estos contextos pueden constituir un contexto normativo más amplio).

Este punto es fundamental para pensar en cómo se aprenden las normas y los contextos, qué prescripciones, permisos y prohibiciones se trasmiten y qué no. El espíritu de una norma designa qué razones y prioridades justifican esos recorridos, y cómo identificar qué comparten esos contextos que los invitan. En el ejemplo de la EMT, la suspensión de la actividad ordinaria no se aplicaría a un cuarto de servicio donde un electricista estaba realizando una reparación crítica en los circuitos del edificio. El espíritu de una norma de emergencia médica significa que no se espera que otras acciones urgentes relacionadas con la seguridad en un espacio determinado se adapten como lo haría una librería o una oficina de registro.

Vale la pena reconocer nuevamente que las normas abarcan desde regularidades sociales que son instrumentales para un propósito claro (una línea que se forma aquí en lugar de allá) hasta demandas con mayor carga moral cuya violación genera sanción (ayudar a levantar a alguien que ha caído en la línea). . Al mismo tiempo, la distinción misma parece necesitar un mapeo práctico y matices contextuales (romperse la línea tiene diferente peso dependiendo de lo que se esté esperando).

RESTRINGIDO Y CONFIABLE: LOGRAR EL EQUILIBRIO ADECUADO EN LA COMPETENCIA NORMA

¿Cómo transmite un sistema su verdadera competencia normativa? La ventaja de actuar con el “espíritu” de una norma es una mayor confianza y facilidad entre otras personas con las que uno interactúa, incluida la atribución de ser responsable, considerado, etc. En el caso de un robot, también puede generar atribuciones de comprensión, paciencia y sensibilidad que el robot no posee. Incluso observar el tacto de un robot puede generar diversas atribuciones (a menudo dependientes del género) sobre su competencia social (Arnold y Scheutz 2018 ). ¿Cómo puede un robot diseñado responsablemente transmitir alguna forma de comprensión de las normas sin evocar, aunque sea sin querer, una comprensión de la justicia o el sufrimiento más sensible y sabia de la que realmente posee? Este riesgo se aplica aún más en el caso de los agentes de RL, donde las proyecciones de razonamiento explícito pueden tergiversar cómo funcionan.

Lo que refleja el espíritu de una norma es que el verdadero cumplimiento de la norma no se produce a través de pura rigidez, sino más bien de una modulación aceptable del comportamiento en medio de las exigencias de otras normas y circunstancias relativamente nuevas. Ser lo suficientemente adaptable para cumplir una norma significa que la aplicación de una regla puede desarrollar contornos a través de encuentros previos de casos análogos (Forbus 2019 ). Al mismo tiempo, el cumplimiento de una norma también implica la posibilidad de impugnarla, rendir cuentas y sancionarla por parte de una comunidad más amplia. Los agentes a menudo necesitarán ofrecer razones explícitas que puedan ser probadas, corregidas y desarrolladas mientras las discuten con otros. Por lo tanto, ser adaptable (incluso con cantidades masivas de datos de entrenamiento) no es excusa para ser opaco.

Presentado en estos términos abstractos, parece difícil precisar cómo los sistemas de IA deberían gestionar estos desafíos. Algunos trabajos sobre explicabilidad al menos han intentado resolver algunas de estas tensiones, pero se concentran en gran medida en la fuerza causal, en contraposición a la normativa (Miller 2018 ). La diferencia es fundamental para los sistemas hombre-máquina, ya que la explicación de la causa por la que algo sucedió puede faltar como explicación o justificación moral de lo sucedido. Del mismo modo, proyectar un resultado probable de una determinada acción puede no indicar en absoluto si el curso de acción previsto amenaza con violar una norma (sin mencionar qué cursos de acción alternativos serían preferibles como resultado).

La competencia normativa, entonces, consiste en defender con transparencia lo que evita que una norma sea inútil o irrelevante. El problema que lo acompaña es cómo representar lo suficiente sobre una norma para hacer que un agente sea confiable, transparente y colaborador sin sugerir que el sistema se basa en sentimientos sutiles o un discernimiento superior sobre cómo funcionan las normas. Si esa sugerencia de sofisticación se generara más allá de la operación técnica real del sistema, una implementación robótica correría un mayor riesgo de decepción, dolor y pérdida de dignidad. ¿Cómo pueden los sistemas presentar una competencia normativa restringida sin exagerar el alcance de esa competencia? ¿Cómo previene la manipulación normativa de los interactuantes dotar a los sistemas de reconocimiento de normas para que confíen en ellos?

Neutralización y negación de normas.

Por supuesto, una vulnerabilidad en el conocimiento de las normas podría surgir de que un agente maligno obtenga acceso y cambie las especificaciones de un sistema desde el exterior (Vanderelst y Winfield 2018 ). Además del amplio desafío que supone el hacking (que se aplica a diversas formas de sistemas informáticos), consideramos que vale la pena mencionar un último problema a la hora de capturar el espíritu de una norma: la negación y neutralización de la norma. Como se muestra en su artículo clásico, Sykes y Matza exponen cinco formas en que se pueden neutralizar las normas para justificar la delincuencia de un agente (Sykes y Matza 1957 ). Se pueden hacer apelaciones, algunas sin duda de mala fe, a por qué la desviación no perjudica a otras partes, o por qué cumple normas o prioridades más elevadas. ¿Cómo responderá un robot dialogante a estos llamamientos de quienes podrían estar violando una norma por malos intereses? Una vez más, esto podría llevar a algunos a descartar el proyecto de cumplimiento de normas por considerarlo demasiado difícil y difícil de manejar, tal vez con un posible “lado oscuro” de manipulación (Vanderelst y Winfield 2018 ). Sin embargo, esto todavía deja sin respuesta la cuestión de la interacción competente en un entorno de normas. Lo que parece más justificable es un conjunto de indicaciones y una articulación explícita de hasta dónde puede llegar el robot en su razonamiento sobre las normas (y, de hecho, si ese razonamiento explícito tiene lugar). Los robots de las tiendas de comestibles no pueden razonar sobre protocolos médicos, aunque un médico que atienda a un cliente desmayado podría tener que hacerlo. Tiene que haber integridad y fragilidad de las normas, donde no se impidan propósitos más amplios pero no cualquier racionalización pueda manipular al robot. ¿Cómo pueden los sistemas tener competencia normativa restringida y no invitar a apelaciones más allá de ese límite?

EL FALLO DE REPRESENTACIÓN DE NORMAS DE LOS ALGORITMOS BASADOS EN RL

Un enfoque común hacia el comportamiento normativo por parte de los defensores de los “agentes éticos implícitos” (Moor 2009 ) es, en primer lugar, no representar normas en un agente, sino dejar que el agente aprenda cómo comportarse de una manera no conforme, por ejemplo, observando comportamiento humano (Russell, Dewey y Tegmark 2015 ). La afirmación es que simplemente hay demasiadas normas para codificarlas o diseñarlas manualmente en el agente, y que los algoritmos entrenados mediante el aprendizaje por refuerzo inverso (IRL) (o sus variantes) eventualmente, con suficientes observaciones buenas, aprenderán una función de valor apropiada. , que pueden utilizar para aprender una política (por ejemplo, a través de RL) que sea consistente con las normas humanas (Milli et al. 2017 ). Sus “valores” están alineados con los valores humanos, aunque “valor” aquí es equívoco porque los valores basados en RL (como los valores Q o las utilidades esperadas) pueden no servir como “valores” medidos cognitiva y afectivamente en el razonamiento moral (Greene 2014). ). En cambio, si algo está alineado, entonces son las disposiciones: en la situación S , ambos agentes están ( idealmente) dispuestos a realizar (o abstenerse de realizar) la acción A. La dificultad, por supuesto, de aprender normas a partir únicamente de la conducta observada es que no es posible distinguir una acción A realizada en C porque es obligatoria de otra realizada porque tiene la recompensa esperada más alta. Por el contrario, que A no se realice en C podría significar cosas muy diferentes desde el punto de vista normativo: puede estar permitido no realizarlo o prohibirlo. Pero no es posible determinar a partir de su ausencia si una acción está prohibida. Si A está prohibido en C , entonces si el alumno nunca observa A en C , también podría deberse a que A en C no es óptimo. Alternativamente, si A se exhibe en C , el alumno no puede inferir que A está permitido en C porque el ejecutante podría haber violado una prohibición de realizar A en C (y no fue sancionado, por lo tanto, la violación no pudo ser detectada). Sin embargo, existe una diferencia crítica entre el incumplimiento de las obligaciones y el incumplimiento de la mejor acción en un contexto dado: el segundo simplemente no logrará que el agente obtenga la mejor recompensa posible, mientras que el primero podría violar la ley.

En defensa de la IRL, se podría argumentar que mientras el agente se ajuste a las normas humanas mediante su comportamiento, no importa si puede discriminar entre obligación y opcionalidad, y permiso y prohibición. Sin embargo, no poder hacerlo conlleva graves deficiencias que, en última instancia, harán que esos aprendices de normas no sean aptos para las sociedades humanas. Por un lado, no está claro si el método anterior permite al alumno generalizar adecuadamente a contextos y acciones no observados, como a menudo lo exige el espíritu de una norma. En la vida diaria humana, simplemente hay demasiados aspectos coincidentes de las acciones humanas (dependiendo del contexto en el que se realiza una acción y el objetivo, rol, etc. del ejecutante) para que un alumno obtenga una muestra lo suficientemente buena como para hacer generalizaciones significativas. únicamente del comportamiento observado.

Si el agente nunca observa empujar a otra persona (porque en general no se permite empujar), y un peatón distraído y descuidado que cruza la calle está a punto de ser atropellado por un camión que se acerca rápidamente, el agente debe empujarlo fuera de peligro (violando una norma sigue a otra, “infligir algún daño físico para evitar un daño peor”). Un estudiante IRL que haya visto empujar antes en diferentes contextos, pero no en éste, no empujará, no tiene ningún incentivo para hacerlo (para que empuje, necesitaría ser recompensado porque la otra persona no resulta perjudicada, pero eso Este aspecto típicamente no será parte de su función de recompensa aprendida; y, en general, no está claro qué tan amplio y amplio tendría que ser el alcance para incluir los efectos de cadenas causales grandes y más largas de acciones realizadas u omitidas). . Si bien la configuración de la recompensa según la estructura de recompensa aprendida puede ayudar en algunos casos, es probable que pase por alto modificaciones importantes (por ejemplo, si la escena y la acción observadas se filman como parte de una película).

El espíritu de una norma exacerba significativamente la deficiencia anterior porque permite una gama más amplia de comportamientos humanos observados que, si bien no son ideales, en sentido estricto tampoco son violaciones. Poner a los niños atados para que obedezcan la prescripción de “no dejar a sus hijos desatendidos” sorprendería, aunque no viola ninguna ley. Permanecer detenido en un semáforo en rojo en una intersección sin tráfico cruzado y no apartarse del camino cuando un automóvil que se acerca rápidamente está a punto de chocar contra el vehículo detenido es, aunque extraño, seguir la ley, pero no está en el espíritu de la ley (para regular el tráfico y evitar daños).

Lo que el espíritu de una norma subraya es que la culpa inmediata y directa es mucho más difícil de modelar cuando una norma se mantiene de manera atípica y extraña. La persona que no “capta” ese espíritu se frustra precisamente porque, técnicamente, está siguiendo una regla o norma básica. La persona cuyos 12 artículos en el supermercado son todas cajas gigantes de botellas o productos de limpieza no ha violado la directiva de “12 artículos o menos”, pero todos los que están detrás de ella pueden enfadarse y poner los ojos en blanco. Quizás no sean inmorales, pero sí exasperantes y desconsiderados. ¿Qué tipo de corrección o ajuste al seguimiento de normas tendría sentido en tales casos, especialmente en tiempo real?

A la hora de resolver las normas de forma práctica, lo que ayuda enormemente son las razones y conceptos modulares que pueden guiar la acción. Si un gerente determina que la superficie de un piso, debido a un derrame sin precedentes, se ha vuelto insegura, es posible que deba comunicar “Limpiar otro pasillo, este no es seguro”. La capacitación que un robot como Marty ha recibido hasta ahora sobre su comportamiento de detección de derrames puede no haber revelado ninguna relación entre anormalidades anteriores en el taller y su tarea de limpieza, y no habría tiempo para que probara su trapeado en el derrame actual. . Más bien, necesita una consideración lo suficientemente explícita como para ajustar su defensa de una norma y al mismo tiempo mantener su fuerza general en otros casos.

El poder de los enfoques RL/IRL (ahora comúnmente, aunque dudosamente, combinados con la “alineación de valores”) es explotar lo que no está especificado o expresamente codificado desde “arriba”, por así decirlo. El talón de ese Aquiles en particular será adquirir los conceptos que marcan la diferencia entre competencia con una norma y cumplimiento asocial (a veces social, a veces antisocial, sin un medio confiable de decir cuándo o por qué).

APRENDIZAJE DE NORMAS: UN DESAFÍO CONVOCANTE

El espíritu de una norma es lo que preserva su integridad entre otras normas, condiciones asumidas y contextos. Como sugiere nuestra discusión anterior, resolver ese espíritu no es tan fácil como una regla de orden superior o una utilidad optimizadora. Esto no es sólo un problema para un sistema que permanece explícito en sus razones para actuar para que sean responsables y revisables. También convoca un desafío complementario para que un sistema socialmente interactivo aprenda sobre las normas. ¿Cómo puede el aprendizaje ser lo suficientemente dinámico como para ser instruido en circunstancias cambiantes y al mismo tiempo aprender genuinamente una norma funcional, accesible e identificable? Proponemos que el aprendizaje dinámico es una intersección de la investigación donde varios enfoques de IA podrían proponer cómo satisfacer las necesidades explícitas e implícitas de actuar en un espacio normativo.

Es importante distinguir las normas de aprendizaje del marco habitual de RL de aprendizaje de políticas óptimas o pares Estado-acción. En el último caso, por supuesto, la tarea es aprender cuál es la mejor acción dado un estado particular (teniendo en cuenta a qué recompensas futuras podría conducir a través de estados y acciones posteriores). Por otro lado, aprender una norma significa encontrar la entidad o entidades prescriptivas que se aplican a las acciones en un contexto. Son medios explícitos de evaluación que ocurren en medio de la acción, en algunos casos a través de sanciones.

Se podría argumentar que los avances recientes en RL con retroalimentación humana (RLHF), tal como se utiliza para afinar el entrenamiento de modelos de lenguaje grandes (LLM), podrían ser de ayuda en este caso (Ouyang et al. 2022 ). Se podría imaginar el uso de LLM para generar varios contextos normativos y preguntar a los humanos sobre diferentes acciones en esos contextos, utilizando las preferencias humanas para aprender un modelo de recompensa para el algoritmo RL que se utiliza posteriormente para actualizar la política de seguimiento de normas del agente. Pero como es probable que se produzcan mejoras en el comportamiento del agente (como ocurre con los LLM), serán sólo incrementales y difíciles de imaginar para alcanzar el “espíritu de la norma”. Consideremos simplemente la cuestión de cuántos ejemplos de retroalimentación que contrasten diferentes acciones en diferentes contextos normativos serían necesarios para capturar el espíritu de solicitudes normativas como “espera tu turno” o “muéstrale algo de respeto”: ¿100, 1000, más? Si bien es fácil generar automáticamente cualquier número de variaciones del contexto normativo, no está claro qué cobertura y, por tanto, qué experimentos comparativos humanos se necesitan para diferentes tipos de normas, especialmente aquellas de aplicación bastante amplia. Además de la cuestión de cuántos ejemplos se necesitarán, no está claro si un modelo de recompensa entrenado a partir de retroalimentación humana basado en comparaciones de diferentes acciones en contextos normativos tiene sentido normativo si las acciones son igualmente malas desde un punto de vista normativo y por lo que es difícil comparar. Y si el modelo de recompensa se entrena con una “puntuación moral”, podría haber demasiada divergencia entre los etiquetadores como para revelar una preferencia clara. El problema general aquí es que en los casos de violaciones de normas, y especialmente aquellos con conflictos de normas, a menudo no hay una respuesta correcta, sino que la respuesta depende de las circunstancias y de cómo las personas las interpretan y argumentan con respecto a los principios para justificar elecciones y acciones. El entorno RLHF simplemente no está diseñado para abordar la complejidad de los juicios normativos humanos.

Por lo tanto, el punto sigue siendo que inferir qué acciones cumplen una norma y, en particular, qué cumple el espíritu de una norma, complica el emparejamiento estado-acción como única regularidad aprendida. Una norma es mucho más que una característica estatal (aunque puede estar constituida en parte por ella). Como señalaremos a continuación, las normas pueden aplicarse a estados dispares sin depender de un conjunto definido de características comunes, por lo tanto, confiar en características de estados comunes para generalizar desde estados aprendidos a nuevos estados no funcionará (como sería necesario para varias técnicas de aprendizaje automático). , como la configuración de recompensas). Las normas, por lo tanto, sirven como estándares que se basan en el comportamiento habitual pero también tienen un elemento conceptual y contrafáctico de cómo el desempeño real ha fallado. En otras palabras, rastrear o registrar una norma puede requerir el uso de analogías para ofrecer una razón por la cual un estado inesperado requiere una determinada acción para ajustarse a una norma (Forbus et al. 2020 ).

Características y realizabilidad múltiple.

¿Cómo se puede aprender una entidad como una norma de manera que siga siendo explícita, responsable, revisable y accesible? Una forma de pensar sobre el aprendizaje de normas es mediante una analogía con el funcionalismo. Putnam propuso, como forma de presentar una explicación funcionalista de la mente, que ciertos estados podrían ser “multiplicablemente realizables” (Putnam 1967 ). Es decir, diferentes estados físicos podrían alcanzar el mismo estado mental (por ejemplo, dolor en varias especies de animales). En consecuencia, así como los estados mentales funcionales se realizarían en diferentes sistemas físicos (dejando de lado por ahora el debate sobre cuán diferentes podrían ser), las normas podrían verse como una función constante a través de diferentes instancias. No es necesario que una tienda venda los mismos productos, tenga el mismo diseño o el mismo procedimiento de pago para imponer la norma de pagar un artículo antes de salir. Pero, ¿cuál sería la estructura de datos constante o el conjunto de reglas que un sistema podría aplicar e inferir acciones de diferentes almacenes? Además, ¿cuál sería el espíritu de esa norma que podría dar cabida a matices y variaciones que los seguidores de la norma entienden implícitamente (por ejemplo, que un empleado le pida que pague fuera de la tienda en una caja que han instalado allí)? Una vez más, tal espíritu refleja cómo la competencia normativa significa conocer ciertas limitaciones básicas, casos extremos y marcos de referencia más amplios sobre cómo se sostiene y defiende una norma.

La idea de que las normas son realizables de forma múltiple en diferentes contextos sugiere que el aprendizaje de normas requerirá detalles más finos sobre lo que delinea una norma que leer un conjunto de prescripciones y prohibiciones adjuntas a estados específicos. Puede que no exista una prescripción y/o prohibición distinta que se aplique a todos los contextos donde funciona la norma, del mismo modo que es posible que no todos los estados donde se aplica la norma compartan un aspecto común. El espíritu de una norma, como función y contexto que se aprende, podría verse como un concepto de grupo, donde una concentración de superposiciones marca normas discernibles. Las diversas instancias de la norma que se siguen pueden superponerse en varios rasgos sin que uno o más rasgos sean una constante en todos ellos.

Un sistema podría citar varios de estos conjuntos de aspectos compartidos como una forma de proyectar una norma en un nuevo contexto. El lugar para comprar un artículo podría acumular aproximadamente casos de intercambio en algunos tipos de barreras (un mostrador, un escritorio, una caja registradora, tal vez un escáner de autopago), sin afirmar que todos los casos de ventas deben tener una barrera.

El aprendizaje de normas significaría llegar a reconocer, incluso en circunstancias nuevas, cuándo se aplica una norma. Si bien puede que no sea posible generar una representación explícita de una norma deóntica a partir de datos (por las razones que hemos discutido), también puede haber características aprendidas a través de medios basados en RL que explican cómo funciona una norma. Junto con otras normas, su “espíritu” podría tener regularidades imprevistas pero instructivas extraídas de las observaciones. Volviendo a nuestras analogías, puede haber patrones reveladores al moverse en los pasillos de los hospitales que las personas no muestran en las tiendas y que un estudiante de RL basado en patrones podría detectar.

A esto lo llamamos un desafío de convocatoria porque las compensaciones entre conceptos estables y datos actualizados requieren una articulación más concertada que la que se ha intentado hasta ahora al abordar las normas. Los nuevos datos no siempre autorizan la identificación de una nueva norma, sino que pueden ampliar la forma en que se aplica una norma. Al mismo tiempo, la representación de las condiciones que un sistema incluye en su inferencia de acción conforme a las normas puede estar sujeta a revisión. Si esa revisión se realiza sólo a través del entrenamiento (quizás un plan de movimiento demasiado preciso para las instrucciones verbales), entonces la interacción explícita sobre esa revisión puede ser en gran medida inútil. Pero si el lenguaje natural en tiempo real es capaz de decir qué está permitido o no, qué es o no una infracción, entonces un sistema debería poder revisar una representación accesible en su arquitectura.

El espíritu de una norma resume cómo funcionan las normas en distintos contextos y representa un tipo de concepto de grupo para mapear los estados en permisos, prohibiciones y obligaciones. Si bien una norma puede aprenderse claramente en un contexto, lo que se transmite con fuerza y prioridad relativa a otras normas en otros contextos es otro desafío de aprendizaje.

Esto parece especialmente crítico de abordar dadas las diferentes funciones de las sanciones según las normas sociales y/o morales, incluida la forma en que los agentes artificiales se relacionan con las prácticas sancionadoras (Sarathy, Arnold y Scheutz 2019 ; Jackson y Williams 2019 ). Hay una serie de atribuciones sociales que podrían llevar a que los robots provoquen confusión o incurran en culpa como agentes en el espacio compartido, pero para el aprendizaje de normas, la pregunta principal podría ser ¿cómo contribuye la sanción observada a construir una representación de normas con el alcance adecuado? ¿La sanción de una acción reclasificaría instancias anteriores de una acción que se había observado o intentado, o se retendría para una determinación posterior? Idealmente, un enfoque de aprendizaje de normas aprendería de la instrucción en conceptos generalizables y compartidos sobre qué característica de una acción en un contexto particular es incorrecta y qué características son aceptables.

Prestaciones, usos apropiados y alcance de realización.

El ejemplo de aprender las posibilidades de un objeto es una analogía distintivamente instructiva con el aprendizaje de normas en un entorno dinámico. Lo que el uso de un objeto presenta en un contexto puede tener implicaciones prácticas muy diferentes de su uso en otro. Ver a un entrenador de tenis balancear una raqueta cerca de un estudiante puede parecer similar a un movimiento violento de un arma, tanto en términos de velocidad como de proximidad relativa a otra persona. Un pisapapeles pesado sobre un escritorio, cuando se levanta y se levanta sobre la cabeza de una persona encogida, puede haber perdido conexión con evitar que las notas se caigan del escritorio. Por un lado, se podría decir que ninguna cantidad de reglas podría capturar todos los usos posibles de tales objetos, lo que significa que las interpretaciones de una acción basadas en reglas podrían ser demasiado restringidas. Por otro lado, el principio de generalización también va en contra del aprendizaje automático basado en datos, ya que esos enfoques no recurren a la abstracción de arriba hacia abajo para seleccionar un conjunto de objetos experimentados (por peso, forma, textura y facilidad de sostener) sin la interferencia de aspectos irrelevantes (color, textura, ruido de piezas internas sueltas). Se podría hacer una analogía relacionada con los topes de puertas, que vienen en una amplia gama de formas pero poseen algunas constantes aproximadas de peso, altura y tracción en un piso que pertenecen a su función principal. Estos permiten ver un objeto nuevo y justificar por qué podría o no servir como tope de puerta. En términos de proyectar y aplicar un concepto a circunstancias nuevas, parece más prometedor tener un concepto explícito para organizar y consolidar las percepciones de un sistema que esperar que el refuerzo destile un concepto de topes a partir de tales percepciones únicamente.

Hacia el aprendizaje del espíritu de una norma

La discusión anterior apunta a los desafíos con los enfoques estándar de “alineamiento de valores” que intentan aprender políticas de acción que mapeen estados a acciones de una manera que maximice la recompensa del agente con base en una función de recompensa que aprendió al observar el comportamiento humano (por ejemplo, a través de IRL). . En lugar de este proceso de dos fases (primero, aprender la función de recompensa del ser humano detallada en términos de algunas características que podrían no ser suficientes o relevantes), proponemos un proceso de aprendizaje de cuatro pasos (donde el aprendizaje de las cuatro partes podría entrelazarse) que tiene la ventaja de ser explícito, responsable, revisable y accesible y permite al alumno entablar diálogos sobre los principios que aprendió y cómo los utilizó:

1.aprender cómo los estados ambientales S se relacionan con los contextos normativosnorte⁢�
2.aprender representaciones normativas explícitas N de normas que se aplican ennorte⁢�(en algún lenguaje formal con semántica claramente definida)
3.aprender qué subconjunto consistente de todas las normas aplicables N ennorte⁢�a seguir (este subconjunto puede estar sujeto a cambios)
4.Con base en el subconjunto consistente elegido de normas aplicables, aprenda qué acciones maximizan el logro de objetivos.

El primer problema de aprendizaje tiene como objetivo aprender un concepto funcional a partir de instancias del concepto: lo que constituye un contexto normativo particular. Por ejemplo, un contexto de “pedir direcciones” (AfD) podría consistir en que un solicitante intente saber cómo llegar a un lugar en particular y un respondedor proporcione las instrucciones si las conoce. Esta interacción puede tener lugar en una gran variedad de condiciones físicas y virtuales (en la entrada de un centro comercial, un estacionamiento, el lobby de un hotel, una estación de metro, una acera de una ciudad) pero también podría ser a través de voz o texto en un teléfono ( incluidas las redes sociales). Parece muy probable que no haya características ambientales particulares que todos estos contextos tengan en común aparte de las abstracciones antes mencionadas: dos agentes, uno con una intención de saber (que se manifiesta de diferentes maneras), otro con la potencial para responder la consulta. Por lo tanto, cualquier algoritmo que intente caracterizar los contextos de AfD en términos de características físicas del espacio circundante, los tipos de ropa que usan los agentes, o su edad, etc., casi con certeza fallará o solo podrá capturar partes de la norma. conceptos. Para la norma, los contextos son “conceptos agrupados” (al igual que la mayoría de los otros conceptos humanos) en el sentido de que puede que no haya una única propiedad definitoria que los caracterice completamente a todos (algunos pueden definirse mediante disyunciones, otros mediante conceptos amplios más excepciones, etc.) . Por lo tanto, el algoritmo de aprendizaje debe aprender a abstraer “completamente” las características relevantes más generales, que podrían representarse de diferentes maneras (por ejemplo, forma lógica, lenguaje natural incrustado en un espacio vectorial, etc.). Este aprendizaje de abstracción podría lograrse comenzando con características contextuales ricas al experimentar un contexto de AfD por primera vez, y con cada encuentro diferente posterior, el algoritmo podría relajar la descripción del contexto hasta que se haya obtenido la descripción más general, incluidos los estados mentales de otros. agentes (como intenciones o estados de creencias); alternativamente, el agente podría preguntar explícitamente qué constituye dicho contexto y utilizar una definición de lenguaje natural para realizar un aprendizaje de contexto “de una sola vez”, por ejemplo, Scheutz et al. ( 2017 ).El segundo algoritmo debe entonces aprender qué normas se aplican en contextos de AfD y cómo representarlas. En el caso más simple, las normas son obligaciones de actuar de una manera particular, prohibiciones de realizar ciertas acciones o una combinación de ambas (las normas más complejas involucran aspectos temporales que requieren representaciones formales más complejas, por ejemplo, ver Arnold, Kasenberg y Scheutz (

2021). )). Por ejemplo, si uno conoce la respuesta a la consulta de instrucciones y no tiene una buena razón para ocultarla, debe proporcionar las instrucciones. Las razones para no proporcionarlos podrían incluir: conflictos con la privacidad del respondedor (como cuando un extraño pregunta cómo llegar a la casa del proveedor de direcciones, o su automóvil o el lugar de trabajo de su pareja); si el proveedor de direcciones tiene prisa; al proveedor no se le permite hablar en voz alta (por ejemplo, en un teatro); una razón legal para no ayudar al solicitante (por ejemplo, ayudar a un ladrón a escapar de un centro comercial). Una representación de norma simple podría verse así:

�⁢norte⁢(�⁢�⁢�−�⁢oh⁡norte⁢�⁢Es⁡�⁢�)∧�⁢�⁢�⁡(�,�⁢�⁢�⁢Es⁡�⁢�⁢�⁢oh⁡norte⁢�⁢oh⁡(yo⁢oh⁡�))∧�⁢norte⁢oh⁡En⁢�⁡(�,�⁢�⁢�⁢Es⁡�⁢�⁢�⁢oh⁡norte⁢�⁢oh⁡(yo⁢oh⁡�))→pag⁢�⁢oh⁡en⁢�⁢�⁢Es⁡(�,�,�⁢�⁢�⁢Es⁡�⁢�⁢�⁢oh⁡norte⁢�⁡(yo⁢oh⁡�))con una expresión refinada que agrega la cláusula de excepción “predeterminada” “contexto normal (AfD)” a los antecedentes (con un contexto AfD no normal que incluye las excepciones descritas anteriormente). Pero son posibles otras representaciones (nuevamente, podríamos usar incrustaciones de lenguaje natural).

La obligación anterior de proporcionar instrucciones incluye aspectos sobre qué información proporcionar, que también debe aprenderse: proporcionar información veraz, indicar si uno no está seguro acerca de parte de las instrucciones, confirmar que las instrucciones fueron entendidas por el solicitante, etc. . Además, es posible que sea necesario adquirir normas adicionales, como la norma de escribir instrucciones para una persona con discapacidad auditiva, tal vez acompañar a la persona hasta el lugar de destino si está lo suficientemente cerca y la persona tiene discapacidad visual, es un niño o un extranjero que no puede entender las instrucciones. También es posible que sea necesario aprender modificaciones adicionales: por ejemplo, que quien da la dirección no está obligado a realizar ninguna acción que pueda ser de alguna manera riesgosa (entrar en el automóvil con el solicitante para conducir hasta el lugar de destino, prestarle el teléfono al solicitante). la dirección que se muestra en Google Maps) o cuando se pueden abandonar los intentos de comunicar direcciones (por ejemplo, el solicitante no escucha y sigue preguntando una y otra vez, demostrando que no está interesado en entenderlas).

El tercer algoritmo debe entonces aprender cómo las normas de AfD se comparan con normas que son importantes en contextos externos, por ejemplo, normas generales como “no mentir”, “no lastimar a una persona”, “ser cortés, “sé respetuoso”, etc. Por ejemplo, la obligación de que el respondedor sea cortés o incluso de proporcionar la información ya no se aplica si el solicitante no muestra el comportamiento apropiado (“Oye idiota, ¿dónde está la próxima farmacia por aquí?” no exige una respuesta). Podría haber una emergencia en la que dirigir a alguien hacia una salida sólo podría exacerbar el problema de aglomeración allí, de modo que esperar antes de dar instrucciones podría ser la mejor opción.

Finalmente, una vez que se aprenden todos los aspectos anteriores (al menos hasta un nivel suficiente de competencia), dentro del espacio de acciones permitidas, el alumno presumiblemente podría intentar afinar qué comportamiento óptimo (usando un método de optimización como RL que toma en cuenta las limitaciones normativas). Sin embargo, una vez más, la incorporación de tal método no es la primera prioridad; más bien, es la adquisición de las restricciones normativas adecuadas.

Si bien sabemos cómo resolver el cuarto problema de aprendizaje, los primeros tres son desafíos de investigación abiertos que deben abordarse (para algún esfuerzo para resolver el segundo, ver Kasenberg y Scheutz ( 2018 )). Necesitan lidiar tanto con la escasez de datos (para comprender el alcance del espíritu de una norma) como con la riqueza de información irrelevante que debe abstraerse (para llegar al núcleo de lo que la norma intenta regular). Lo más importante es que los métodos de aprendizaje y las representaciones deben permitir la apertura de las normas que aplican en casos que el agente no haya encontrado. Extenderse al “mundo abierto” es un aspecto constitutivo de las normas en el sentido de que cubren lo desconocido, es decir, contextos novedosos en los que deberían aplicarse. Captar el espíritu de una norma, por lo tanto, es el objetivo final de los agentes que operan en el mundo abierto, porque no es posible enumerar todos los contextos posibles en los que se aplica una norma. La naturaleza difícil y exigente de este aprendizaje puede invitar a una evaluación práctica de cuál es la mejor manera de gestionar y diseñar sistemas con recursos limitados, pero buscar una agencia en un mundo abierto sin restricciones normativas es desvincular la acción autónoma del control responsable.

CONCLUSIÓN

El hecho de que las normas sean tan sutiles y complejas que tengan un “espíritu” podría parecer razón suficiente para evitar intentar codificarlas, aunque sea parcialmente. Pero incluso con modestas ambiciones interactivas para un sistema autónomo, será difícil evitar ese espíritu para diversas normas. La competencia normativa y el aprendizaje de normas deberán presentar distintos niveles de complejidad sin dejar de ser accesibles para aquellos que estén al alcance práctico de un sistema. La vida de las normas depende de prácticas que están sujetas a nuevas formulaciones, no de una letra preservada sin ambigüedad de interpretación y reimaginación. Al mismo tiempo, esas prácticas dependen de referencias e inferencias entendidas, no sólo de un registro de comportamiento. ¿Hasta qué punto deberían diseñarse robots para intentar replicar tales juicios, especialmente en torno a normas morales (no sólo sociales)? ¿Deberían las normas estar fuera del vocabulario formal de estos sistemas? Hemos demostrado que las cargas de la interacción en el espacio social, por leves que sean, hacen que las normas sean una característica imperativa que los sistemas deben reconocer y comunicar si se quieren hacer esfuerzos transparentes para defenderlas. Propusimos un problema de aprendizaje de cuatro partes como una posible solución para abordar el desafío de comprender y adquirir el espíritu de una norma y alentar a la comunidad de IA a abordarla, ya sea proporcionando enfoques alternativos a las soluciones o mostrando lo que aún falta. Entre las muchas amenazas que plantean los sistemas algorítmicos en la sociedad, ya existe una gran urgencia para este problema interactivo. Ya sea con chatbots que infligen daño psicológico a través de expresiones éticamente deficientes o con autos autónomos que no toman decisiones responsables y reconocibles en la carretera, no se puede ignorar el entramado de normas.

EXPRESIONES DE GRATITUD

Este trabajo fue financiado en parte por la subvención AFOSR #FA9550-23-1-0425.

DECLARACION DE CONFLICTO DE INTERES

Los autores declaran que no existe ningún conflicto.

Biografías

Thomas Arnold es profesor visitante de Ética Tecnológica en el Departamento de Ciencias de la Computación de la Universidad de Tufts e investigador asociado en el Laboratorio de Interacción Humano-Robot de Tufts.
Matthias Scheutz es profesor de Tecnología Aplicada Karol en la Facultad de Ingeniería de la Universidad de Tufts. Su investigación actual se centra en robots cognitivos éticos complejos con capacidades de interacción de lenguaje natural, resolución de problemas y aprendizaje basado en instrucciones en mundos abiertos.