Tests of World Model and Theory of Mind as Tools for Building Trust in Moral AGI Agents
Abstract
The paper considers the problem of building trust in computational artefacts of the AGI (Artificial General Intelligence) type, which are defined from an ethical point of view as explicite moral agents. As a result of an analysis based on research of the literature and current trends in the development of AGI systems, several conditions have been presented for the construction of behavioural tests necessary to check the correctness of their functioning considered both from an ethical and social point of view. Conducting of such tests should simplify the market approval procedures of AGI systems at the level of manufacturers, the individual users and certification authorities.
References
Allen, C., Smit, I., Wallach W. (2005). Artificial morality: top-down, bottom-up, and hybrid approaches. Ethics and information technology, volume 7, s. 149–155.
Allen, C., Smit, I., Wallach W. (2007). Machine morality: bottom-up and top-down approaches for modelling human moral faculties. Ai & Society, 22, 565–582. DOI: 10.1007/s00146-007-0099-0.
Allen, C., Varner, G., Zinser, J. (2000). Prolegomena to any future artificial moral agent. Journal of Experimental & Theoretical Artificial Intelligence, Volume 12, 2000 - Issue 3, 251-261. DOI: 10.1080/09528130050111428.
Arnold T., Scheutz M. (2016). Against the moral Turing test: accountable design and the moral reasoning of autonomous systems. Ethics and Information Technology 18, s. 103–115. Doi.org/ 10.1007/s10676-016-9389-x.
Awada, E. Dsouzab, S. Shariffc, A. Rahwanb, I. Bonnefon, J.F. (2020), Universals and variations in moral decisions made in 42 countries by 70,000 participants. PNAS, Vol. 117 | No. 5, 2332-2337. DOI: 10.1073/pnas.191151711.
Awada, E. Dsouza, S. Shariffc, A. Kim, R. Schulz, J. Heinrich, J. Rahwanb, I. Bonnefon, J.F. (2018), The moral machine experiment. Nature, Volume 563, s. 59–64.
Aseron, R. Bhaskaran, V. Peruzzi, N. (2015). A beginner's guide to conjoint analysis. Dostęp: https://www.youtube.com/watch?v=RvmZG4cFU0k (04.07.2022).
Barney D. (2008). Społeczeństwo sieci. Warszawa: Wydawnictwo Sic!
Bigman, Y., Gray, K. (2020), Life and death decisions of autonomous vehicles, Nature, Volume 579, E1–E2. Doi.org/10.1038/s41586-020-1987-4.
Bochen, M. (2019). Epistemiczna wartość doświadczenia zmysłowego. Wilfrid Sellars versus John McDowell. Kultura i Wartości Nr 27 (2019), s. 191-217.
Bostrom, N. (2014), Supertinteligencja. Gliwice: Helion.
Brock, H.W. (1980). Game theory, social choice and ethics. Dordrecht - Boston – London: D. Reidel Publishing Company.
Budgol M. (2009), Zaufanie technologiczne. Ekonomika i Organizacja Przedsiębiorstwa, Nr 11, 3–9.
Carey S., Spelke E. (1996). Science and core knowledge. Philosophy of Science 63 (December 1996), 515-533.
Chalmers, D. (2010). Świadomy umysł. Warszawa: PWN.
Christian B. (2020). The Alignment Problem: Machine Learning and Human Values. W. W. Norton & Company.
Davidson, D. (1984). On the very idea of conceptual scheme, [w:] tenże, Inquiries into truth and interpretation. Oxford: Oxford UP.
Davidson, D. (2005). Seeing through language. W: tenże, Truth, language, and history, 127-141. Clarendon Press-Oxford University Press.
Dehaene, S. (2020). How we learn: why brains learn better than any machine… for now. Viking
De Wall, F. (2012). Zachowanie moralne u zwierząt. Pozyskano z: https://www.youtube.com/watch?v=VyGN92UAnjI (dostęp: 20.12.2022).
Dignum, V. (2017). Responsible autonomy. Pozyskano z: https://arxiv.org/pdf/1706.02513.pdf. (dostęp: 20.12.2022).
Drozdek A. (1998). Human Intelligence and Turing Test. AI & SOCIETY, 12, 315-
Ejdys J. (2017). Determinanty zaufania do technologii. Przegląd organizacji, 12/2017, 20-27.
Floridi L., Sanders J. (2004) On the morality of artificial agents. Minds and
Machines, 14(3), 349–379.
Foot Ph. (1967), The problem of abortion and the doctrine of the double effect. W: tejże, Virtues and Vices: and other essays in moral philosophy, s. 5–15. Doi.org/10.1093/0199252866.003.0002
Gallagher, S. (2004). Hermeneutics and the cognitive science. Journal of Consciousness Studies 2004/11, 162-174.
Gerdens A., Øhrstrøm P. (2015). Issues in robot ethics seen through the lens of a moral Turing Test. Journal of Information, Communication and Ethics in Society, 13(2), 98-109. DOI: 10.1108/JICES-09-2014-0038.
Giddens A. (2002). Nowoczesność i tożsamość. „Ja” i społeczeństwo w epoce późnej nowoczesności. Wydawnictwo Naukowe PWN.
Giddens A. (2009). Europa w epoce globalnej. Warszawa: Wydawnictwo Naukowe PWN.
Greene, J. (2013). Moral tribes: emotion, reason and the gap between us and them. Boston: Atlantic Books.
Gryz, J. (2021). Sztuczna inteligencja: powstanie, rozwój, rokowania. Pozyskano z: https://www.youtube.com/watch?v=3ZDfVgC897k (dostęp: 17.06.2021).
Hoffman, D.L. Novak, T.P. (1996). Marketing in Hypermedia Computer-Mediated Environments: Conceptual Foundations. Journal of Marketing, Vol. 60, No 3, 50-68.
Hyeongjoo, K., Sunyong B (2021). Designing and applying a moral Turing Test. Advances in Science, Technology and Engineering Systems Journal, Vol. 6, No. 2, 93-98.
Hofstede, G. (2007). Kultury i organizacje. Zaprogramowanie umysłu. Warszawa: PTE.
Inglehart, R., Welzel, C. (2005). Modernization, cultural change, and democracy: The human development sequence. Cambridge Univ. Press.
Jörgensen, J. (1938). Imperatives and logic. Erkenntnis, vol. 7 nr 4, 288–296.
Kaplan, C. (2023). Artificial intelligence: past, present, and future. Pozyskano z: https://www.youtube.com/watch?v=ZTt_GI0-wKA (dostęp: 23.12.2022).
Kohlberg, L., (1958). The development of modes of moral thinking and choice in the years ten to sixteen. (Doctoral dissertation). University of Chicago Press.
Konieczny, F. (1935). O wielości cywilizacji. Kraków: Gebethner i Wolff.
Kosiński M. (2023). Theory of Mind Might Have Spontaneously Emerged in Large Language Models. Arxiv.org. Pozyskano z: https://arxiv.org/abs/2302.02083.
Kusch, M. (1989). Language as calculus vs. language as universal medium. A study in Husserl, Heidegger and Gadamer. D. Reidel Publishing Company.
Makowski, P. (2011). Gilotyna Hume’a. Przegląd Filozoficzny – Nowa Seria Nr 4 (76) 2011, 1-15.
Motoki, F., Neto, V.P., Rodrigues V. (2023). More human than human: measuring ChatGPT political bias. Public Choice. Doi: https://doi.org/10.1007/s11127-023-01097-2.
Liberty, E. (2023). Solving ChatGPT hallucinations with vector embeddings. Pozyskano z: https://www.youtube.com/watch?v=FUgp4oaxj-M (dostęp: 15.02.2023).
McDowell, J. (2008). Avoiding the myth of the given. W: Lingard J. (ed.), John BcDowell. Experience, Norm, and Nature. Blackwell Publishing.
McDowell, J. (1996). Mind and world. Boston: Harvard University Press.
McIntyre, A. (1996). Dziedzictwo cnoty. Studium z teorii moralności, tłum. Adam Chmielewski. Warszawa: PWN.
Mirnig, A. Meschtscherjakov, A. (2019). Trolled by the trolley problem. On what matters for ethical decision making in automated vehicles. W: CHI '19: Proceedings of the 2019 CHI Conference on Human Factors in Computing Systems, Paper No. 509, 1- 10. DOI: 10.1145/3290605.3300739.
Moor, J. H. (2006). The nature, importance, and difficulty of machine ethics. IEEE Intelligent Systems, 21(4), 18–21.
Oleron, P. Piaget, J. Inhelder, B. (1967). Inteligencja. Warszawa: PWN.
Pigden, Ch. (1989). Logic and the autonomy of ethics. Australasian Journal of Philosophy, Vol. 67, No. 2, 127-151.
Polak, P. Krzanowski, R. (2020). Phronetic ethics in social robotics: A new approach to building ethical robots. Studies in Logic, Grammar and Rhetoric 63 (76) 2020, 165-173. DOI: 10.2478/slgr-2020-0033.
Rorty, R. (1994). Filozofia a zwierciadło natury, tłum. Michał Szczubiałka. Warszawa: Wydawnictwo Spacja: Fundacja Aletheia.
Russel, S. (2023). How Not To Destroy the World With AI. Pozyskano z: https://www.youtube.com/watch?v=ISkAkiAkK7A. (dostęp: 05.05.2023)
Russel, S. Norvig, P. (2010). Artificial intelligence. A modern approach. London: Pearson Education.
Searle, J.R. (1980). Minds, brains and programms. The Behavioral and Brain Sciences, 3, 417-424.
Searle, J. (1987). Jak wywieść «powinien» z «jest». W: Tenże, Czynności mowy, przeł. B. Chwedeńczuk, 220-221. PAX.
Sellars, W. (1997). Empiricism and the philosophy of mind, Harvard: Harvard UP. Empiryzm i filozofia umysłu, tłum. Jarosław Gryz. W: Stanosz B. (red.) (1991). Empiryzm współczesny. Wydawnictwo UW.
Sobal, V. Jyothir, S.V. Jalagam, S. Carion, N. LeCun, Y, (2022). Joint Embedding Predictive Architectures Focus on Slow Features. arXiv:2211.10831v1 [cs.LG], 1-4. Pozyskano z: https://arxiv.org/pdf/2211.10831.pdf. ( dostęp: 20.05.2023).
Szynkiewicz, M. (2014). Problem zaufania w kontekście rozwoju społecznego znaczenia technologii informatycznych. Filo-sofija. 24, s. 259-272.
Stacewicz, P. (2023). Wyjaśnianie, zaufanie i test Turinga. W: Zaufanie do systemów sztucznej inteligencji, 23-35. Warszawa: Oficyna Wydawnicza Politechniki Warszawskiej.
Turing A. (1950). Computing machinery and intelligence. Mind, 59, 433–460.
Turner R. (2018). Computational Artefacts: Towards a Philosophy of Computer Science. Berlin: Springer.
Vaswani A., Shazeer N., Parmur N., Uszkoreit J., Jones L., Gomez A., Kaiser Ł. (2017). Attention is all you need. ArXiv:1706.03762v5 [cs.CL].
Véliz C. (2021). Moral zombies: why algorithms are not moral agents. AI & SOCIETY 36, 487–497. DOI: 10.1007/s00146-021-01189-x.
Walzer M. (2012). Moralne maksimum, moralne minimum. Warszawa: Wydawnictwo Krytyki Politycznej.
Weinberger, O. (1984). Is and ought reconsidered. Archiv fur Rechts und Sozialphilosophie, Bd. Lxx/4, 454-469.
Williams, B. (2006). Ethics and the limits of philosophy. Boston: Routledge.
Woleński, J. (1980). Z zagadnień analitycznej filozofii prawa. Warszawa: PWN.
Wolfram S. (2023). What Is ChatGPT Doing … and Why Does It Work? Pozyskano z: https://writings.stephenwolfram.com/2023/02/what-is-chatgpt-doing-and-why-does-it-work/ ( dostęp: 29.05.2023).
Quine, W. van O, (2000). Dwa dogmaty empiryzmu, tłum. Barbara Stanosz. W: tenże. Z punktu widzenia logiki. Aletheia.
Yudkowsky, E. (2004). Coherent extrapolated volition. The Singularity Institute.
Zajonc, R., Murphy S. (1994). Afekt, poznanie i świadomość: Rola afektywnych bodźców poprzedzających przy optymalnych i suboptymalnych ekspozycjach. Przegląd Psychologiczny 37, s. 261-299.
Załuski, W. (2003). Błąd naturalistyczny. W: Stelmach J. (red.), Studia z filozofii prawa, 111–121. Wydawnictwo UJ.
Zenner, K. (2022). The AI act. Pozyskano z: https://artificialintelligenceact.eu/documents/ (dostęp: 20.02.2023).
Copyright (c) 2024 Perspectives on Culture
![Creative Commons License](http://i.creativecommons.org/l/by/4.0/88x31.png)
This work is licensed under a Creative Commons Attribution 4.0 International License.
Autor, zgłaszając swój artykuł, wyraża zgodę na korzystanie przez Wydawnictwo Uniwersystet Ignatianum z utworu na następujących polach eksploatacji:
- utrwalania utworu w formie papierowej, a także na nośniku cyfrowym lub magnetycznym;
- zwielokrotnienia utworu dowolną techniką, bez ograniczenia ilości wydań i liczby egzemplarzy;
- rozpowszechniania utworu i jego zwielokrotnionych egzemplarzy na jakimkolwiek nośniku, w tym wprowadzenia do obrotu, sprzedaży, użyczenia, najmu;
- wprowadzenia utworu do pamięci komputera;
- rozpowszechniania utworu w sieciach informatycznych, w tym w sieci Internet;
- publicznego wykonania, wystawienia, wyświetlenia, odtworzenia oraz nadawania i reemitowania, a także publicznego udostępniania utworu w taki sposób, aby każdy mógł mieć do niego dostęp w miejscu i czasie przez siebie wybranym.
Wydawca zobowiązuje się szanować osobiste prawa autorskie do utworu.