Tests of World Model and Theory of Mind as Tools for Building Trust in Moral AGI Agents

Keywords: ethics of artificial intelligence, trust in technology, artificial moral agent, theory of mind test, world model test

Abstract

The paper considers the problem of building trust in computational artefacts of the AGI (Artificial General Intelligence) type, which are defined from an ethical point of view as explicite moral agents. As a result of an analysis based on research of the literature and current trends in the development of AGI systems, several conditions have been presented for the construction of behavioural tests necessary to check the correctness of their functioning considered both from an ethical and social point of view. Conducting of such tests should simplify the market approval procedures of AGI systems at the level of manufacturers, the individual users and certification authorities.

Author Biographies

Krzysztof Sołoducha, Wojskowa Akademia Techniczna

Doktor habilitowany nauk humanistycznych w zakresie filozofii. Profesor nadzwyczajny w Zakładzie Nauk Humanistycznych na Wydziale Bezpieczeństwa Logistyki, i Zarządzania Wojskowej Akademii Technicznej w Warszawie. Autor kilku książek z zakresu filozofii hermeneutyki. Redaktor naukowy monografii Filozofia informatyki.

Paweł Stacewicz , Politechnika Warszawska

Filozof, informatyk i dydaktyk matematyki. Pracuje jako adiunkt na Wydziale Administracji i Nauk Społecznych Politechniki Warszawskiej. Jest autorem trzech monografii naukowych o tematyce z pogranicza informatyki i filozofii oraz redaktorem naukowym kilku monografii zbiorowych z serii „Informatyka a filozofia”. Opublikował ponad 30 artykułów naukowych z dziedziny logiki, filozofii informatyki i filozofii umysłu (powiązanej z kognitywistyką). W roku 2015 zainicjował cykl konferencji międzynarodowych pt. „Philosophy in Informatics”, które współorganizuje do dziś. Redaguje blog akademicki Cafe Aleph (http://marciszewski.eu/).

References

Allen, C., Smit, I., Wallach W. (2005). Artificial morality: top-down, bottom-up, and hybrid approaches. Ethics and information technology, volume 7, s. 149–155.

Allen, C., Smit, I., Wallach W. (2007). Machine morality: bottom-up and top-down approaches for modelling human moral faculties. Ai & Society, 22, 565–582. DOI: 10.1007/s00146-007-0099-0.

Allen, C., Varner, G., Zinser, J. (2000). Prolegomena to any future artificial moral agent. Journal of Experimental & Theoretical Artificial Intelligence, Volume 12, 2000 - Issue 3, 251-261. DOI: 10.1080/09528130050111428.

Arnold T., Scheutz M. (2016). Against the moral Turing test: accountable design and the moral reasoning of autonomous systems. Ethics and Information Technology 18, s. 103–115. Doi.org/ 10.1007/s10676-016-9389-x.

Awada, E. Dsouzab, S. Shariffc, A. Rahwanb, I. Bonnefon, J.F. (2020), Universals and variations in moral decisions made in 42 countries by 70,000 participants. PNAS, Vol. 117 | No. 5, 2332-2337. DOI: 10.1073/pnas.191151711.

Awada, E. Dsouza, S. Shariffc, A. Kim, R. Schulz, J. Heinrich, J. Rahwanb, I. Bonnefon, J.F. (2018), The moral machine experiment. Nature, Volume 563, s. 59–64.

Aseron, R. Bhaskaran, V. Peruzzi, N. (2015). A beginner's guide to conjoint analysis. Dostęp: https://www.youtube.com/watch?v=RvmZG4cFU0k (04.07.2022).

Barney D. (2008). Społeczeństwo sieci. Warszawa: Wydawnictwo Sic!

Bigman, Y., Gray, K. (2020), Life and death decisions of autonomous vehicles, Nature, Volume 579, E1–E2. Doi.org/10.1038/s41586-020-1987-4.

Bochen, M. (2019). Epistemiczna wartość doświadczenia zmysłowego. Wilfrid Sellars versus John McDowell. Kultura i Wartości Nr 27 (2019), s. 191-217.

Bostrom, N. (2014), Supertinteligencja. Gliwice: Helion.

Brock, H.W. (1980). Game theory, social choice and ethics. Dordrecht - Boston – London: D. Reidel Publishing Company.

Budgol M. (2009), Zaufanie technologiczne. Ekonomika i Organizacja Przedsiębiorstwa, Nr 11, 3–9.

Carey S., Spelke E. (1996). Science and core knowledge. Philosophy of Science 63 (December 1996), 515-533.

Chalmers, D. (2010). Świadomy umysł. Warszawa: PWN.

Christian B. (2020). The Alignment Problem: Machine Learning and Human Values. W. W. Norton & Company.

Davidson, D. (1984). On the very idea of conceptual scheme, [w:] tenże, Inquiries into truth and interpretation. Oxford: Oxford UP.

Davidson, D. (2005). Seeing through language. W: tenże, Truth, language, and history, 127-141. Clarendon Press-Oxford University Press.

Dehaene, S. (2020). How we learn: why brains learn better than any machine… for now. Viking

De Wall, F. (2012). Zachowanie moralne u zwierząt. Pozyskano z: https://www.youtube.com/watch?v=VyGN92UAnjI (dostęp: 20.12.2022).

Dignum, V. (2017). Responsible autonomy. Pozyskano z: https://arxiv.org/pdf/1706.02513.pdf. (dostęp: 20.12.2022).

Drozdek A. (1998). Human Intelligence and Turing Test. AI & SOCIETY, 12, 315-

Ejdys J. (2017). Determinanty zaufania do technologii. Przegląd organizacji, 12/2017, 20-27.

Floridi L., Sanders J. (2004) On the morality of artificial agents. Minds and

Machines, 14(3), 349–379.

Foot Ph. (1967), The problem of abortion and the doctrine of the double effect. W: tejże, Virtues and Vices: and other essays in moral philosophy, s. 5–15. Doi.org/10.1093/0199252866.003.0002

Gallagher, S. (2004). Hermeneutics and the cognitive science. Journal of Consciousness Studies 2004/11, 162-174.

Gerdens A., Øhrstrøm P. (2015). Issues in robot ethics seen through the lens of a moral Turing Test. Journal of Information, Communication and Ethics in Society, 13(2), 98-109. DOI: 10.1108/JICES-09-2014-0038.

Giddens A. (2002). Nowoczesność i tożsamość. „Ja” i społeczeństwo w epoce późnej nowoczesności. Wydawnictwo Naukowe PWN.

Giddens A. (2009). Europa w epoce globalnej. Warszawa: Wydawnictwo Naukowe PWN.

Greene, J. (2013). Moral tribes: emotion, reason and the gap between us and them. Boston: Atlantic Books.

Gryz, J. (2021). Sztuczna inteligencja: powstanie, rozwój, rokowania. Pozyskano z: https://www.youtube.com/watch?v=3ZDfVgC897k (dostęp: 17.06.2021).

Hoffman, D.L. Novak, T.P. (1996). Marketing in Hypermedia Computer-Mediated Environments: Conceptual Foundations. Journal of Marketing, Vol. 60, No 3, 50-68.

Hyeongjoo, K., Sunyong B (2021). Designing and applying a moral Turing Test. Advances in Science, Technology and Engineering Systems Journal, Vol. 6, No. 2, 93-98.

Hofstede, G. (2007). Kultury i organizacje. Zaprogramowanie umysłu. Warszawa: PTE.

Inglehart, R., Welzel, C. (2005). Modernization, cultural change, and democracy: The human development sequence. Cambridge Univ. Press.

Jörgensen, J. (1938). Imperatives and logic. Erkenntnis, vol. 7 nr 4, 288–296.

Kaplan, C. (2023). Artificial intelligence: past, present, and future. Pozyskano z: https://www.youtube.com/watch?v=ZTt_GI0-wKA (dostęp: 23.12.2022).

Kohlberg, L., (1958). The development of modes of moral thinking and choice in the years ten to sixteen. (Doctoral dissertation). University of Chicago Press.

Konieczny, F. (1935). O wielości cywilizacji. Kraków: Gebethner i Wolff.

Kosiński M. (2023). Theory of Mind Might Have Spontaneously Emerged in Large Language Models. Arxiv.org. Pozyskano z: https://arxiv.org/abs/2302.02083.

Kusch, M. (1989). Language as calculus vs. language as universal medium. A study in Husserl, Heidegger and Gadamer. D. Reidel Publishing Company.

Makowski, P. (2011). Gilotyna Hume’a. Przegląd Filozoficzny – Nowa Seria Nr 4 (76) 2011, 1-15.

Motoki, F., Neto, V.P., Rodrigues V. (2023). More human than human: measuring ChatGPT political bias. Public Choice. Doi: https://doi.org/10.1007/s11127-023-01097-2.

Liberty, E. (2023). Solving ChatGPT hallucinations with vector embeddings. Pozyskano z: https://www.youtube.com/watch?v=FUgp4oaxj-M (dostęp: 15.02.2023).

McDowell, J. (2008). Avoiding the myth of the given. W: Lingard J. (ed.), John BcDowell. Experience, Norm, and Nature. Blackwell Publishing.

McDowell, J. (1996). Mind and world. Boston: Harvard University Press.

McIntyre, A. (1996). Dziedzictwo cnoty. Studium z teorii moralności, tłum. Adam Chmielewski. Warszawa: PWN.

Mirnig, A. Meschtscherjakov, A. (2019). Trolled by the trolley problem. On what matters for ethical decision making in automated vehicles. W: CHI '19: Proceedings of the 2019 CHI Conference on Human Factors in Computing Systems, Paper No. 509, 1- 10. DOI: 10.1145/3290605.3300739.

Moor, J. H. (2006). The nature, importance, and difficulty of machine ethics. IEEE Intelligent Systems, 21(4), 18–21.

Oleron, P. Piaget, J. Inhelder, B. (1967). Inteligencja. Warszawa: PWN.

Pigden, Ch. (1989). Logic and the autonomy of ethics. Australasian Journal of Philosophy, Vol. 67, No. 2, 127-151.

Polak, P. Krzanowski, R. (2020). Phronetic ethics in social robotics: A new approach to building ethical robots. Studies in Logic, Grammar and Rhetoric 63 (76) 2020, 165-173. DOI: 10.2478/slgr-2020-0033.

Rorty, R. (1994). Filozofia a zwierciadło natury, tłum. Michał Szczubiałka. Warszawa: Wydawnictwo Spacja: Fundacja Aletheia.

Russel, S. (2023). How Not To Destroy the World With AI. Pozyskano z: https://www.youtube.com/watch?v=ISkAkiAkK7A. (dostęp: 05.05.2023)

Russel, S. Norvig, P. (2010). Artificial intelligence. A modern approach. London: Pearson Education.

Searle, J.R. (1980). Minds, brains and programms. The Behavioral and Brain Sciences, 3, 417-424.

Searle, J. (1987). Jak wywieść «powinien» z «jest». W: Tenże, Czynności mowy, przeł. B. Chwedeńczuk, 220-221. PAX.

Sellars, W. (1997). Empiricism and the philosophy of mind, Harvard: Harvard UP. Empiryzm i filozofia umysłu, tłum. Jarosław Gryz. W: Stanosz B. (red.) (1991). Empiryzm współczesny. Wydawnictwo UW.

Sobal, V. Jyothir, S.V. Jalagam, S. Carion, N. LeCun, Y, (2022). Joint Embedding Predictive Architectures Focus on Slow Features. arXiv:2211.10831v1 [cs.LG], 1-4. Pozyskano z: https://arxiv.org/pdf/2211.10831.pdf. ( dostęp: 20.05.2023).

Szynkiewicz, M. (2014). Problem zaufania w kontekście rozwoju społecznego znaczenia technologii informatycznych. Filo-sofija. 24, s. 259-272.

Stacewicz, P. (2023). Wyjaśnianie, zaufanie i test Turinga. W: Zaufanie do systemów sztucznej inteligencji, 23-35. Warszawa: Oficyna Wydawnicza Politechniki Warszawskiej.

Turing A. (1950). Computing machinery and intelligence. Mind, 59, 433–460.

Turner R. (2018). Computational Artefacts: Towards a Philosophy of Computer Science. Berlin: Springer.

Vaswani A., Shazeer N., Parmur N., Uszkoreit J., Jones L., Gomez A., Kaiser Ł. (2017). Attention is all you need. ArXiv:1706.03762v5 [cs.CL].

Véliz C. (2021). Moral zombies: why algorithms are not moral agents. AI & SOCIETY 36, 487–497. DOI: 10.1007/s00146-021-01189-x.

Walzer M. (2012). Moralne maksimum, moralne minimum. Warszawa: Wydawnictwo Krytyki Politycznej.

Weinberger, O. (1984). Is and ought reconsidered. Archiv fur Rechts und Sozialphilosophie, Bd. Lxx/4, 454-469.

Williams, B. (2006). Ethics and the limits of philosophy. Boston: Routledge.

Woleński, J. (1980). Z zagadnień analitycznej filozofii prawa. Warszawa: PWN.

Wolfram S. (2023). What Is ChatGPT Doing … and Why Does It Work? Pozyskano z: https://writings.stephenwolfram.com/2023/02/what-is-chatgpt-doing-and-why-does-it-work/ ( dostęp: 29.05.2023).

Quine, W. van O, (2000). Dwa dogmaty empiryzmu, tłum. Barbara Stanosz. W: tenże. Z punktu widzenia logiki. Aletheia.

Yudkowsky, E. (2004). Coherent extrapolated volition. The Singularity Institute.

Zajonc, R., Murphy S. (1994). Afekt, poznanie i świadomość: Rola afektywnych bodźców poprzedzających przy optymalnych i suboptymalnych ekspozycjach. Przegląd Psychologiczny 37, s. 261-299.

Załuski, W. (2003). Błąd naturalistyczny. W: Stelmach J. (red.), Studia z filozofii prawa, 111–121. Wydawnictwo UJ.

Zenner, K. (2022). The AI act. Pozyskano z: https://artificialintelligenceact.eu/documents/ (dostęp: 20.02.2023).

Published
2023-11-19
How to Cite
[1]
Sołoducha, K. and Stacewicz , P. 2023. Tests of World Model and Theory of Mind as Tools for Building Trust in Moral AGI Agents. Perspectives on Culture. 45, 2 (Nov. 2023), 391-404. DOI:https://doi.org/10.35765/pk.2024.4502.28.