Entrevista a Manuel Herranz, CEO: Pangeanic, datos, traducción automática y blockchain

Acaban de conseguir el mayor contrato que la Comisión Europea ha otorgado en traducción automática ¿Qué significa NTEU y ese contrato para Pangeanic?

NTEU quiere decir “Neural Translation for the EU”. A finales de 2018 creamos un consorcio junto con otras dos empresas europeas (KantanMT de Irlanda y Tilde de Letonia) para afrontar algo que jamás nadie había hecho antes, ni tan siquiera Microsoft o Google o con sus traductores Bing Translator o Google Translate: aprovechar grandes cantidades de datos (unos 15 millones de frases) entre todas las posibles combinaciones de lenguas oficiales de la Unión Europea para crear motores de traducción automática con una calidad casi humana.

Estas dos empresas tradicionalmente pivotan cuando han de traducir entre combinaciones en las que no interviene el inglés. Por ejemplo, para traducir del alemán, árabe o ruso al español, primero traducen al inglés y de ahí al español. Esto, obviamente, provoca una pérdida de calidad, sobre todo cuando los idiomas son más lejanos. Puede parecer curioso, pero sintácticamente, el inglés y el español comparten muchas estructuras, pero cuando el salto es del griego al polaco, o del rumano al húngaro, la pérdida es ostensible. Estas combinaciones nos pueden parecer exóticas, pero no lo son en absoluto. Europea necesita transferir datos entre Administraciones Públicas a diario. Estos datos se producen en el idioma de cada Estado Miembro y deben distribuirse a los demás, o a algunos: hablo de litigación transnacional (recordemos el caso del Diéselgate de Volkswagen o el cártel de los camiones), de facturación sanitaria entre países, de datos de seguridad pública…. todo lo que crea realmente un Mercado Único. NTEU resolverá este problema siendo el filtro a través del cual traducir todo tipo de datos por parte de todas las Administraciones Públicas europeas y nacionales, pues cada Estado Miembro podrá usar la tecnología. Será, por decirlo así, un Google Translate para cada país.

Para nosotros representa un nuevo hito en la serie de contratos europeos que hemos logrado para construir infraestructuras digitales europeas. Todos hemos visto rotondas, carreteras, proyectos agrícolas o vías férreas cofinanciadas por la UE. Las infraestructuras digitales hacen que Europa funcione como una sola entidad. En la actualidad estamos trabajando en una base de datos nacional en la que cada Estado Miembro puede guardar sus memorias de traducción (NEC TM) y en el desarrollo de un Chatbot multilingüe en entornos culturales.

Menciona mucho la palabra “Datos”. Parece que vivimos en una sociedad que lucha por obtener más y más datos todos los días. Todo lo que hacemos crea, se deriva en datos que otros aprovechan para nuestro beneficio. ¿Qué significa la palabra “datos” para usted?

En Pangeanic, una de las primeras decisiones que tomamos fue medir y almacenar cada dato que pudiéramos crear durante los procesos de traducción, anonimización, etc., para que nuestros clientes pudieran aprovecharlo en su beneficio. Esto significa que nuestros clientes de servicios de traducción saben las palabras, idiomas, horas, trabajos que hemos realizado, así como la inversión por idioma, por ejemplo. Nuestros clientes de anonimización saben las líneas o el número de ítems categorizados que se han anonimizado (personas, direcciones, teléfonos, correos electrónicos). Para transcripción el número de horas, vídeo. También el número de documentos en todos los casos. Algunos de nuestros clientes de traducción automática nos piden instalaciones in-situ, dentro de su infraestructura, y les proporcionamos paneles de control para que tengan esa valiosa información al alcance de la mano.

Hay clientes para quienes esos datos son valiosos, hay otros que no. Pero todos tienen la oportunidad de ver los datos que se han creado como parte de nuestro servicio de traducción o servicios similares. Hemos segmentado todos los datos por cliente y hemos creado una serie de formas de utilizar ese enfoque basado en datos que verdaderamente les aporta valor. Tenemos cerca de 1.000 clientes que utilizan este método.

Esto significa que no compartimos ni podemos compartir esos datos operativos, pero podemos crear una serie de formas de utilizar la tecnología para producir mejores resultados y que nuestros análisis den valor a los datos (textuales) de nuestros clientes. Por ejemplo, podemos clasificar automáticamente y organizar el contenido y seleccionar los perfiles de los traductores más aptos para cada trabajo. Podemos aprovechar información antigua y de Internet para la traducción, optimizar los flujos de trabajo, ayudar a los clientes a estimar la calidad de los motores de NMT que construimos para ellos y comparar el rendimiento y los resultados. En el mejor de los escenarios, podemos instalar motores de traducción privados que los propios clientes pueden mejorar con sus preferencias y decisiones. Así, cada motor “aprende” con las preferencias terminológicas de cada uso.

Personalmente, soy muy optimista en cuanto al valor de los datos que generamos para nuestros clientes actuales y futuros y estoy muy interesado en plataformas de machine learning de código abierto, como TensorFlow y Pytorch que son altamente aprovechables.

Nuestra misión: Descubrir, Adquirir, Transmitir, Organizar los contenidos de cada organización para llegar hasta la última persona de la Tierra

¿Qué piensa del blockchain en su campo? ¿Triunfará?

No, no creo. Comprendo la seguridad que puede aportar dentro de ciertos entornos, pero en el caso del lenguaje, resulta poco útil. Podemos tener una base de datos, como lo es nuestra ActivaTM, llenarla de traducciones de la ONU, la agencia europea del medicamento, la UE misma y decir ¡hey, esta frase está certificada porque coincide con una que hizo la ONU hace 1 año! Pero esa frase, fuera de contexto, puede ser terrible. Si se trata de un párrafo o un texto jurídico estándar, la descarga automática es algo que ya llevan haciendo programas de creación de textos desde hace años…. Blockchain y lenguaje no van de la mano.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *