Citation link: http://dx.doi.org/10.25819/ubsi/10225
Files in This Item:
File Description SizeFormat
WPS_23_The_Conditional_Voice_Recorder_2.pdf1.26 MBAdobe PDFThumbnail
View/Open
Dokument Type: Book
metadata.dc.title: The ‘Conditional Voice Recorder’: Data practices in the co-operative advancement and implementation of data-collection technology
Authors: Hector, Tim 
Niersberger-Gueye, Franziska 
Petri, Franziska 
Hrncal, Christine 
Institute: DFG-Sonderforschungsbereich 1187 "Medien der Kooperation" 
Free keywords: Smart Speaker, Sprachassistenzsystem, Intelligente Persönliche Assistenten, Voice-User-Interfaces, Mensch-Maschine-Interaktion, Datenpraktiken, Forschungspraktiken, Spracherkennung, Datenerhebung, Smart Speaker, Voice Assistant, Intelligent Personal Assistant, Voice-user interface, Human-Machine-Interaction, Data Practices, Research Practices, Hot-word detection, Data collection
Dewey Decimal Classification: 302.23 Medien (Kommunikationsmittel), Medienwissenschaft
GHBS-Clases: KNZZ
Issue Date: 2022
Publish Date: 2022
Series/Report no.: Working paper series / SFB 1187 Medien der Kooperation
Abstract: 
Stationary voice-controlled systems are installed in an increasing number of households. The devices are operated primarily via voice-user interfaces, which evaluate the spoken commands cloud-based, and are aligned to the principles of interpersonal interaction. This raises questions about the integration of the devices into everyday practices carried out in the household: How is use of Smart Speakers negotiated situationally, embedded in interpersonal interactions, and (how) are aspects of data privacy, data processing and potential exploitation reflected by the users? The project "Un/desired Observation in Interaction: Intelligent Personal Assistants" in the CRC "Media of Cooperation" approaches these questions empirically.
However, such an investigation of smart speakers faces the methodological challenge that this requires voice data documenting not only the use of the smart speaker itself, but also the contexts of the use that go beyond mere "voice commands". Therefore, a "Conditional Voice Recorder" (CVR), a technology developed in Nottingham by Porcheron and colleagues (2018), was brought to bear to create audio recordings of usage contexts. These include not only the voice command itself, but also a few minutes before and after the smart speaker is addressed. However, the original device required further technical development to be compatible not only with Amazon's smart speaker model, but also products from other providers (Google and Apple).
The paper reflects on this advancement and the implementation of the CVR – i.e. our own research practices – as data practices. On the one hand, it makes visible which (otherwise opaque) data were collected and processed during the advancement, how the usage of the CVR itself is inscribed in the data recorded with it, and which data practices were carried out in the evaluation. On the other hand, it documents the advancement and application of the CVR to enable other studies with it (or similar technologies).

In einer zunehmenden Zahl von Haushalten sind stationäre Sprachassistenzsysteme installiert. Die Steuerung solcher Geräte erfolgt primär über Voice-User-Interfaces, die cloudbasiert gesprochensprachliche Kommandos auswerten, und orientiert sich (herstellerseitig) an Prinzipien der zwischenmenschlichen Interaktion. Dies wirft Fragen nach der Einbindung der Geräte in die im Haushalt vollzogenen Alltagspraktiken auf: Wie wird die Nutzung situativ verhandelt, in zwischenmenschliche Interaktionen eingebettet und (wie) werden Aspekte des Datenschutzes und der Datenauswertung und potenziellen -verwertung durch die Anbeiter dabei reflektiert? Das Projekt B06 („Un/erbetene Beobachtung in Interaktion: ,Intelligente Persönliche Assistenten‘“) im Sonderforschungsbereich 1187 „Medien der Kooperation“ widmet sich mit einem empirischen Anspruch diesen Fragen.
Allerdings steht eine so ausgerichtete Untersuchung von Smart Speakern vor der methodischen Herausforderung, dass dazu Sprachdaten erforderlich sind, die nicht nur die Anwendung des Smart Speakers selbst, sondern auch die Kontexte der Anwendung dokumentieren, die über reine „Sprachbefehle“ hinausreichen. Daher wurde ein „Conditional Voice Recorder“ (CVR), eine in Nottingham von Porcheron und Kolleg*innen (2018) entwickelte Technologie, zum Einsatz gebracht, die es ermöglicht, Audio-Aufnahmen von Anwendungssituationen zu erstellen. Diese umfassen nicht nur den Sprachbefehl selbst, sondern auch einige Minuten vor und nach der Adressierung des Smart Speakers, sodass kontextbezogene, praxeologische Analysen ermöglicht werden. Das in Nottingham entwickelte Gerät bedurfte jedoch der technischen Weiterentwicklung, um nicht nur das Smart-Speaker-Modell von Amazon, sondern auch die Produkte andere Hersteller (Google und Apple) einbeziehen zu können.
Das Working Paper reflektiert diese Weiterentwicklung und die anschließende Anwendung des CVR – d.h. unsere eigenen Forschungspraktiken – als Datenpraktiken. Es macht einerseits sichtbar, welche (ansonsten opaken) Daten bei der Weiterentwicklung erhoben und verarbeitet wurden, wie sich die Anwendung des CVR selbst in die damit aufgezeichneten Daten einschreibt und welche Datenpraktiken bei der Auswertung vollzogen wurden. Andererseits wird zugleich die Weiterentwicklung und Anwendung des CVR dokumentiert, um anderen Forscher*innen Untersuchungen mit dieser oder ähnlichen Technologien zu ermöglichen.
DOI: http://dx.doi.org/10.25819/ubsi/10225
URN: urn:nbn:de:hbz:467-23145
URI: https://dspace.ub.uni-siegen.de/handle/ubsi/2314
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Appears in Collections:Publikationen aus der Universität Siegen

This item is protected by original copyright

Show full item record

Page view(s)

571
checked on Dec 22, 2024

Download(s)

192
checked on Dec 22, 2024

Google ScholarTM

Check

Altmetric


This item is licensed under a Creative Commons License Creative Commons