How-to

Posted 18 September, 2015 by Alix Dunn

Behind the scenes: how we helped kick start a microtasking site

Working on the landspeeder, TIE fighter and Vader's TIE fighter

Working on the landspeeder, TIE fighter and Vader’s TIE fighter (Credit: Tom Simpson)

Over the past few months, we’ve been working with a Matchbox partner to explore, select, and design a microtasking platform. This blog post shares highlights from our research, the solution we eventually chose, and what we learned along the way.

(Versión en español abajo)

Microtasking is becoming increasingly popular among NGOs. (Microwork is a series of small tasks that together comprise a large unified project, and are completed by many people over the Internet.) It’s particularly useful for organizations with large amounts of information (such as receipts on government spending or contracts) that need help with the mammoth task of tagging and organizing it. Engaging volunteers in this work also offers a useful (and hopefully fun) way for the public to get involved in civic efforts.

The organization we’re working with is turning a stack (around 50,000) of politicians’ expenses into meaningful machine-readable data that can be analyzed, from often hand-written paper copies. (You can read more about how they digitized these documents in this blog post.) Once these paper documents are transformed into data, the organization can use a microtasking platform to engage hundreds (or thousands) of people to help identify how government officials are actually spending public funds.

What we were looking for in a microtasking platform

  1. We knew that our Matchbox partner had a unique collection of data, as well as a unique use for it. So we wanted to be sure that we’d have the flexibility to customize the back-end of the platform to fit our needs.
  2. Given the sensitive nature of the organization’s work, we wanted the option to host the platform themselves in order to protect it from spying eyes.
  3. Furthermore, we ideally wanted a platform based on open source code. Using open source tools means three things: the organization would benefit from building on existing code instead of starting from scratch; other people could benefit from ongoing development of the code; and anyone is able to vet the code’s quality (and security).
  4. Good front-end design: We wanted to focus on a design that allowed for ease-of-use so that the site would make the most of those willing to give their time.
  5. We wanted our partner to have control over which  documents were made public and when. This would give the team the opportunity to review and select the most interesting documents for crowdsourcing.

With these requirements in mind, we looked at several strong microtask platform options, including:

  • Crowdata, designed by the La Nacion team from Argentina.
  • Pybossa, designed to power the Crowdcrafting platform.

The first thing we did was set up calls with these teams. When using an open source tool, particularly one that has a full development team behind it, we find it helpful to reach out, explain what we’re working on, see if they have advice, and also learn more about how our work can feed back into their code base. This goes a long way in building up good karma, and also contributes to an ecosystem of tools that we know, love, and – more importantly – use.

What we learned from our conversation with Pybossa:

  • It’s designed primarily for finding clues in images that are easy for humans to see but difficult for computers, such as identifying landfills, or locating cities in satellite images.
  • Pybossa excels at presenting concise data for minimal interaction (usually just one checkbox or click per interaction).
  • Pybossa would allow the organization to control when a document is made public (one of our requirements).

We knew that the platform we were building needed to allow for substantial amounts of interaction (type of expense, name of product, date, category, etc), and that this would mean tweaking Pybossa´s code base quite extensively.

Then we spoke with Crowdata, which turned out to be closer to our use case. Crowdata was built specifically for liberating public expenditure data from scanned PDFs.

After these conversations and after analysing the code from both of these platforms, we decided to build our tool by combining existing open source components from Crowdata and some of our own original code. We will open source and share the code for others to use and build upon (but we are unable to support ongoing maintenance).

Selecting our approach to developing and configuring the platform was only one step – we also had to work on:

  • Building a data model that could accommodate each politician’s expenses.
  • Designing usability and a user interface that would be easy for volunteers to understand, use and contribute to.
  • Developing a full-faceted features analysis (FAA) – a way of organizing information into a systematic order to sort the functionality “must-haves” from the “would-likes”.
  • Finding a hosting provider that could give us the privacy protections and technical operating environment that the site would need.
  • Finding a web development shop that knew Python, could skin an interactive wireframe (turn our pretty pictures into actual website code), would help us package the site into a white label suite that others could reuse, and could do it all on a pretty tight timeline.

We were lucky to work with some very talented people on this project, and we’re excited to share the results of the work later next month.

Cheers to those who helped us out!

We would like to give a shout-out to the lovely people below who have given time to this project so far.

  • Our favorite UX designer, Julie Lorch, who helped us organize wireframes that we used to make decisions about the data model and the desired interaction.
  • The wonderful Nicole, who gave her expertise to help organise and digitise 50,000 receipts. Read more about that process here.
  • Georges and the programming team at Open Data Kosovo for turning the design into reality!
  • Eva from FairPlay Alliance, who gave her time to help us think through growing and managing future volunteers.
  • Daniel from Pybossa, who talked us through what his application can and cannot do.
  • Koumbit, the hosting provider that is hosting the project.
  • Flor from La Nación in Argentina, who oversees Vozdata and its open source complement Crowdata.
  • Marietta from K-Monitor, who helped us think through pros and cons of existing solutions from their own perspective of liberating public spending data in Hungary.

Detrás de cámaras: cómo ayudamos a arrancar un sitio de microtasking

Desde hace varios meses hemos trabajado con un socio de Matchbox para explorar, seleccionar y diseñar una plataforma de microtasking. En esta publicación se comparten los aspectos más significativos de nuestras investigaciones, la solución que elegimos, y lo que aprendimos en el camino.

El Microtasking se ha vuelto cada vez más popular entre las ONGs (el Microworkmicrotrabajo- es una serie de pequeñas tareas que en conjunto componen un proyecto articulado, y se llevan a cabo por varias personas en internet). Es particularmente útil para organizaciones que manejan grandes cantidades de información (como comprobantes de gastos gubernamentales o contratos) que necesitan ayuda con la descomunal tarea de etiquetarla y organizarla. El empleo de voluntarios para este trabajo también nos ofrece una útil (y con suerte divertida) manera de hacer que el público participe en los esfuerzos cívicos.

La organización con la que trabajamos transforma una pila de (cerca de 50,000) gastos de políticos en datos significativos que las máquinas pueden leer para poder analizarlos, casi siempre, a partir de textos escritos a mano. (En esta publicación podrá leer más sobre cómo se digitalizaron estos documentos.) Una vez que se transforman los documentos de papel en datos, la organización puede utilizar una plataforma de microtasking para emplear a cientos (o miles) de personas para ayudar a identificar cómo gastan los funcionarios de gobierno los fondos públicos.

Lo que buscábamos en una plataforma de microtasking

  1. Sabíamos que nuestro socio de Matchbox tenía una recolección de datos peculiar, así como un uso igualmente peculiar para la misma. Entonces, queríamos asegurarnos de que tendríamos la flexibilidad de personalizar el extremo posterior de la plataforma para satisfacer nuestras necesidades.
  2. Debido a la naturaleza vulnerable del trabajo de la organización, queríamos la opción de que ellos mismos albergaran la plataforma para protegerla de espías.
  3. Además, idealmente queríamos una plataforma basada en un código abierto. El uso de una herramienta abierta implica tres cosas: la organización se beneficiaría al construir sobre un código existente, en lugar de empezar de cero. Otras personas podrían beneficiarse del desarrollo continuo del código. Y cualquier persona puede examinar la calidad del código (y su seguridad).
  4. Un buen diseño de la interfaz: queríamos enfocarnos en un diseño que permitiera un uso fácil para que el sitio pudiera ofrecer lo más posible a aquellos que estén dispuestos a dar su tiempo.
  5. Queríamos que nuestro socio tuviera el control sobre qué documentos se harían públicos y cuándo. Esto le daría al equipo la oportunidad de revisar y seleccionar los documentos más interesantes para el crowdsourcing.

Con estos requisitos en mente, vimos varias buenas opciones de plataformas de microtask, incluyendo:

  • Crowdata, diseñada por el equipo de La Nación de Argentina
  • Pybossa, diseñada para impulsar la plataforma de Crowdcrafting.

Lo primero que hicimos fue establecer teleconferencias con estos equipos. Cuando se usa una herramienta abierta, en particular una que tiene todo un equipo de desarrollo detrás, creemos que es útil contactarlos, explicarles en qué estamos trabajando, ver si tienen algún consejo, y también aprender más de la forma en que nuestro trabajo puede repercutir en su base de códigos. Esto tiene mucho que ver con establecer una buena relación, y también contribuye con un ecosistema de herramientas que conocemos, adoramos y sobre todo, usamos.

Lo que aprendimos en nuestra conversación con Pybossa:

Sabíamos que la plataforma que estábamos construyendo tendría que permitir mucha de interacción (tipo de gasto, nombre del producto, fecha, categoría, etc.) y que esto implicaría modificar de gran manera el código base de Pybossa.

Después hablamos con Crowdata, que resultó acercarse más a nuestro caso. Crowdata se construyó con el específico propósito de liberar los datos del gasto publico de los PDF escaneados.

Después de estas conversaciones y después de analizar el código de las dos plataformas, decidimos construir nuestra herramienta por medio de la combinación de componentes de fuentes abiertas existentes de Crowdata con parte de nuestro propio código. Abriremos y compartiremos el código para que otras personas lo usen y construyan a partir de él (pero no podemos hacernos cargo de un mantenimiento continuo).

Seleccionar nuestro enfoque para desarrollar y configurar la plataforma fue solo un paso (también teníamos que trabajar en):

  • Construir un modelo de datos que pudiera adecuarse a los gastos de cada uno de los políticos.
  • Diseñar una interfaz de uso y de usuario que sea fácil de entender, utilizar y contribuir para los voluntarios.
  • Desarrollar un análisis de características de aspecto completo (FAA, por sus siglas en inglés) – una manera de organizar información en un orden sistemático para distinguir los componentes “esenciales” de los “deseables”.
  • Encontrar un proveedor de servidor de alojamiento que nos pudiera dar las protecciones de privacidad y el entorno técnico-operativo que necesitaría el sitio.
  • Encontrar a un proveedor de desarrollo web que conociera Python, que pudiera desarrollar un wireframe interactivo (transformar nuestras lindas imágenes en un código de sitio web de verdad), que nos ayudara a empacar el sitio en una serie de white label que otros podrían reutilizar, y que pudiera hacerlo todo en un periodo de tiempo muy reducido.

Tuvimos la suerte de trabajar con personas muy talentosas en este proyecto, y nos emociona la idea de compartir los resultados de este trabajo el próximo mes.

¡Gracias a todos los que nos ayudaron !

Nos gustaría hacer un reconocimiento a las adorable personas a continuación que han dedicado su tiempo a este proyecto hasta ahora.

  • Nuestra diseñadora favorita de UX, Julie Lorch, quien nos ayudó a organizar wireframes que utilizamos para tomar decisiones sobre el modelo de datos y de la interacción deseada.
  • La maravillosa Nicole, quien nos brindó su conocimiento para ayudarnos a organizar y digitalizar 50,000 recibos. Leer más acerca de ese proceso aquí.
  • ¡Georges y el equipo de programación en Open Data Kosovo por volver el diseño realidad!
  • Eva de FairPlay Alliance, quien dedicó su tiempo a ayudarnos a pensar en el crecimiento y la gestión de futuros voluntarios.
  • Daniel de Pybossa, quien nos guió a través de lo que su aplicación puede y no puede hacer.
  • Koumbit, el servidor de alojamiento que albergará el proyecto.
    Flor de La Nación en Argentina, quien supervisa Vozdata y su complemento de fuente abierta Crowdata.
  • Marietta de K-monitor, quien nos ayudó a pensar en los pros y contras de las soluciones existentes desde su propia perspectiva de liberar los datos del gasto público en Hungría.

Related articles