¿ES POSIBLE EL USO DE BIG DATA EN MATERIA TRIBUTARIA?
RESUMEN
Las bases de datos constituyen hoy en día grandes almacenes de información, de las cuales se pueden extraer multiplicidad de contenidos. La información allí existente nos puede ser útil, pero cuando esta es excesiva o quizás muy amplia, puede generar confusiones. De allí la importancia de contar con una herramienta que permita procesar la información para obtener mejores resultados de la misma. Aquí es donde interviene el Big data.
PALABRAS CLAVE
Almacenes de datos / información / contenidos / algoritmos / patrones de conducta / tendencias
ABSTRACT
The databases nowadays constitute large stores of information, from which multiple contents can be extracted. The information there may be useful, but when it is excessive, or perhaps very wide, it can cause confusion. From there, the importance of having a tool that allows you to process the information to obtain better results from it. This is where big data comes in.
KEYWORDS
data stores / information / content / algorithms / behavior patterns / trends
TITLE
Is it possible to use big data in tax matters?
- INTRODUCCIÓN
Las empresas privadas y las entidades públicas cuentan con grandes bases de datos, en donde se registran las operaciones que realizan y/o los servicios que prestan a terceros. Ello constituye hoy en día grandes almacenes de información, de las cuales se pueden extraer multiplicidad de contenidos. La información allí contenida es variada y útil, pero cuando la misma es excesiva, puede generar confusiones.
Si esta información se puede organizar y sistematizar de diversas maneras, a través del uso de algoritmos y filtros, se obtendrá la posibilidad de ubicar patrones de conducta, tendencias de consumo, indicadores importantes para la toma de decisiones o planificación de políticas de desarrollo, entre otros. Para lograr ello, se requiere la aplicación del Big Data.
El motivo del presente informe es analizar el tema del Big data y verificar su posible utilización por parte de la Administración Tributaria.
- LAS BASES DE DATOS
Tradicionalmente se ha señalado que una base de datos es un conjunto o colección agrupada de datos que se encuentran relacionados entre sí, dentro de la cual existe un significado implícito.
Tengamos en cuenta que, los datos son recolectados y explotados por los distintos sistemas de consulta que tienen las empresas privadas o instituciones públicas.
Hace algunos años elaboramos un trabajo, sobre la posibilidad que una administración tributaria pueda crear un Datawarehouse. En dicho documento indicamos que “Cada empresa o institución por muy pequeña que sea cuenta con una base de datos, en la que guarda información valiosa para el desempeño de sus actividades propias a su giro, tales como fechas de transacciones, compras efectuadas, pagos por realizar, obligaciones pendientes, clientes nuevos y antiguos, direcciones importantes, entre otras cosas. De este modo se convierte en el mejor archivo de trabajo propio, a través del cual acceden normalmente algunos trabajadores por medio de una clave personal, estableciendo también jerarquías en el uso de la información contenida en la mencionada base de datos”[1].
La base de datos cuenta con los denominados campos, los cuales constituyen unidades de información mínimas, las que se deben ir completando con los elementos que se incorporen a la referida base.
Tengamos en cuenta que los datos representan el nivel más bajo de la información y como tales no tienen un valor intrínseco, sino que adquieren importancia cuando son agrupados bajo una cierta lógica de utilidad[2].
Los campos indicados anteriormente pueden ser variados y dependerá de la forma en la que la base de datos los considere. Estos pueden ser, entre otros:
- CAMPO BOOLEANO[3]: Aquí la información que se ingresa únicamente posee dos tipos de estados “Verdadero” SI y “Falso” NO.
- NUMÉRICO: En este campo encontramos registros de datos considerando únicamente números, dependerá del volumen de la información la asignación de la cantidad de números a utilizarse.
Por su parte, PÉREZ VALDES indica con respecto a este campo que “Entre los diferentes tipos de campos numéricos podemos encontrar enteros “sin decimales” y reales “decimales”[4].
- FECHAS DE CALENDARIO: Aquí se guardan las fechas de los hechos y actos lo que permite su rápida consulta, además que permitiría realizar cruces de datos para ver tendencias o patrones de conducta por fechas.
- ALFANUMÉRICO: Aquí existe la combinación de dos variables, por un lado, las letras y por otro los números, lo cual incrementa considerablemente el número de registros almacenados[5].
Coincidimos con BRÚ FORÉS cuando indica que “Los datos ya no sólo tienen un formato y volumen accesibles y procesable con cierta facilidad (small data); pasan a tener volumen extremo, con una amplia variedad de tipos de datos y con una velocidad de creación vertiginosa”[6].
Por su parte, KOTOROV indica que “Los datos, hoy día, pueden contar con muchas variables. Resulta difícil visualizar toda esta información sin la ayuda de una máquina. Al emplear técnicas matemáticas, las máquinas pueden rastrear montañas de datos para encontrar patrones que les permitan a los analistas descubrir tendencias. Esta información se podría emplear para desarrollar estrategias comerciales como, por ejemplo, determinar a qué perfil de usuario deberíamos dirigirnos mediante campañas de marketing para obtener el mayor retorno de inversión”[7].
- INFORMACIÓN DISPONIBLE, EN CANTIDAD E INMEDIATA
La información está constituida por los datos y algunos hechos organizados, siendo necesario que sean puestos en un contexto o en el marco de referencia de una persona o entidad, con lo cual ya es posible obtener la utilidad de la misma. Aquí los datos son ordenados, agrupados, analizados e interpretados.
De este modo, la información hoy en día constituye un elemento valioso que procura ser aprovechada al máximo, pero para lograr ello, ésta debe encontrarse en posibilidad de ser consultada sin dificultades o con el menor número de trabas para acceder a la misma, lo cual implica que se encuentre disponible, en cantidad suficiente y que permita su acceso inmediato.
Un ejemplo del uso de la información disponible en el campo fiscal, puede indicar lo siguiente:
“los datos tributarios actuales tienen tres tendencias deseadas por todas las Administraciones: mayor disponibilidad, mayor cantidad y mayor inmediatez.
Con estas tendencias, la eficiencia de la comprobación tributaria, y el grado de automatización de esta, permite la detección de irregularidades o de infradeclaraciones con mayor rapidez y eficiencia, utilizando sistemas avanzados de análisis de datos para la selección de las muestras de contribuyentes y actividades, la creación de perfiles de riesgo fiscal, y establecer actuaciones de comprobaciones con mayor celeridad y precisión”[8].
- LAS SIETE “V” EN EL BIG DATA[9]
A continuación, desarrollaremos las siete V que pueden ser aplicables dentro de un proceso de construcción de Big Data. Nos referimos a (i) volumen, (ii) velocidad, (iii) variedad, (iv) variabilidad, (v) veracidad, (vi) visualización y (vii) valor.
4.1 VOLUMEN
La cantidad de información que cada día se almacena en los servidores es impresionante. Cada interacción realizada por los usuarios de las redes sociales, los titulares de las tarjetas de crédito y/o débito al realizar transacciones económicas, las consultas a los servidores de cualquier organización en el país o en el mundo, ya sea para solicitar información o para realizar alguna adquisición, entre otros, determina que la información crezca cada vez más, además de conservarse para próximos análisis más detallados.
De allí la necesidad de contar con soportes cada vez mayores en cuanto a capacidad de almacenamiento, con la finalidad que no colapse la misma.
Es interesante el comentario de LADRERO cuando menciona que “En un inicio los datos eran creados por los propios empleados pero ahora que los datos son generados automáticamente por máquinas, redes e interacciones personales en sistemas como redes sociales los volúmenes a analizar son masivos”[10].
4.2 VELOCIDAD
La velocidad constituye una variable tomada en cuenta en cada proceso de revisión de la información de la base de datos. Las respuestas hoy en día requieren de una rapidez nunca antes vista.
Recordemos que, en un mundo tan competitivo, quien llega primero y encuentra la información necesaria, tiene mayores probabilidades de poder dominar mejores perspectivas de desarrollo.
“El concepto de velocidad hace referencia a la creciente rapidez con la que se crean, procesan, almacenan y analizan estos datos (generalmente a través de bases de datos relacionales)”[11].
En el caso de la conexión en internet, “la velocidad de la conexión nos permite saber cómo de rápido vamos a obtener la respuesta de otros equipos conectados a Internet”[12].
Según el portal Prometeus “El Big Data requiere velocidad para acceder a los datos, pero también en relación a la visualización de los mismos, con el objeto de facilitar el análisis y extraer conclusiones. Así nos encontramos que Internet es sin duda una de las fuentes de datos de mayor velocidad”[13].
4.3 VARIEDAD
En este punto, debemos tomar en consideración que la gran base de datos que se ha ido acumulando permanentemente de información proviene de distintas fuentes y formatos, las cuales pueden estar representadas, por ejemplo, por una fotografía, un correo electrónico, una conversación telefónica, una transacción económica, una solicitud por escrito, un video, un intercambio verbal, entre otros. De este modo, apreciamos que los datos mayormente son no estructurados.
Por ello, frente a la variedad, lo que corresponde es buscar elementos que permitan capitalizar, frente a la diversidad de información, una oportunidad para encontrar conocimiento.
4.4 VARIABILIDAD
El mundo está en permanente cambio, del mismo que los datos. Las bases de datos siempre son dinámicas y no estáticas, sobre todo si día a día se incrementa su contenido.
En este punto, MAROTO indica que “la variabilidad se refiere a los datos cuyo significado está en constante cambio. Este es, particularmente, el caso cuando la recolección de la información se basa en el procesamiento del lenguaje, ya que las palabras no tienen definiciones estáticas, y su significado puede variar mucho dependiendo del contexto”[14].
4.5 VERACIDAD
Si la información ingresada es falsa y no verdadera, no existirá posibilidad alguna de contar con un valor potencial aplicable al Big data.
No será posible aplicar algún tipo de algoritmo que busque encontrar información, si es que no se cuenta con una supervisión especializada.
Estamos de acuerdo con MAROTO cuando menciona que “Lo que resulta crucial para la comprensión del Big Data es conocer la naturaleza desordenada y con defectos, errores y exceso de ruido de la información[15], así como la cantidad de trabajo que hay que dedicar a la producción de un conjunto de datos exactos antes que puedan ser analizados”[16].
En este mismo razonamiento, observamos que CASTRO señala que “la tecnología que existe actualmente es más que suficiente. Es muy adecuada y su precio es asequible. Adoptar Big data no es un problema de tecnología sino de gobernanza del dato; para poner en marcha estas iniciativas es preciso que haya una calidad del dato, que la información esté a tiempo, etc.[17]”
4.6 VISUALIZACIÓN
Actualmente, ya se está dejando de lado la entrega de un informe que refleje la gestión de los datos. Lo que se busca ahora es poder mostrar la información, luego que la base de datos ha sido procesada en su totalidad.
Se pretende mostrar la información de un modo más accesible y que permita una lectura más práctica. Precisamente, ello es un permanente desafío al cual se ve tentado a superar el proceso de Big data.
4.7 VALOR
La estimación del valor obtenido con la información a través del uso del Big data es enorme. Ello siempre que la información sea útil y se destine al cumplimiento de un fin específico.
Si existiera información almacenada pero la misma fuera mala, no se podría cumplir con la finalidad del Big data.
“El valor reside en realzar un análisis riguroso de datos precisos y en utilizar correctamente la información y los conocimientos que de aquí se pueden sacar”[18].
- EL USO DE ALGORITMOS
Antes de desarrollar el tema de los algoritmos, partamos primero en procurar entender su significado.
Según el Diccionario de la Real Academia Española, el significado de la palabra algoritmo es la siguiente:
“Quizá del lat. tardío *algobarismus, y este abrev. del ár. clás. ḥisābu lḡubār ‘cálculo mediante cifras arábigas’.
- m. Conjunto ordenado y finito de operaciones que permite hallar la solución de un problema.
- m. Método y notación en las distintas formas del cálculo”[19].
En el Diccionario de Matemáticas se define al Algoritmo como un “Procedimiento definido para la solución de un problema, paso a paso, en un número finito de pasos”[20].
Desde el punto de vista informático se indica que un algoritmo es “como una secuencia de instrucciones que representan un modelo de solución para determinado tipo de problemas. O bien como un conjunto de instrucciones que realizadas en orden conducen a obtener la solución de un problema”[21].
De acuerdo con la información aparecida en el portal IBERTECH se indica que “Un algoritmo es básicamente una regla abstracta que permite encontrar y expresar aquello que buscamos (en el mundo del Big data, generalmente la búsqueda de patrones y relaciones entre variables). Estos algoritmos son desarrollados con el único objetivo de automatizar un camino óptimo que ayude al ser humano a tratar la ingente cantidad de datos que se genera diariamente”[22].
Tengamos en consideración que “El algoritmo busca patrones y modelos que nos interesen, siguiendo sus reglas preestablecidas, que pueden incluir árboles de clasificación, modelos de regresión, clusters, modelos mixtos, entre otros”[23].
Por todo lo antes señalado, podemos indicar que, en la medida que los algoritmos sean desarrollados de distinto modo y aplicados sobre la base de datos, se puede obtener multiplicidad de información, la cual determinará un mejor conocimiento sobre la actividad que se está desarrollando, al igual que conocer conductas ocultas bajo tendencias descubiertas.
¿Y ahora quién desarrolla el algoritmo?
Al responder esta consulta, apreciamos que los profesionales que laboran en el área informática al interior de la organización, serán los encargados de elaborar los distintos algoritmos aplicables a la base de datos.
Sin embargo, en el caso específico de una administración tributaria, las instrucciones o detalles de cómo debe mostrarse la información a obtener, debe quedar a cargo de profesionales ligados al área de fiscalización, verificación o control de la deuda. Debe existir una especie de ayuda mutua y colaboración permanente entre ellos y los profesionales informáticos, lo cual permitirá otorgar instrucciones, sugerencias, comentarios y aportes para el mejor trabajo de estos últimos al elaborar los algoritmos.
Lo señalado en el párrafo anterior coincide con lo propuesto por DIAZ DE SARRALDE MIGUEZ al precisar que “El analista de sistemas tiene que trabajar codo con codo con el auditor fiscal para organizar la información, establecer los criterios de búsqueda y seleccionar los indicadores más adecuados. Esta supervisión puede complementarse con otras técnicas de análisis de datos, agrupadas en diversos campos y denominaciones que se solapan entre sí: machine learning; inteligencia artificial; data mining; Knowledge Discovery in Databases (KDD); etc.”[24]
Según GONZÁLEZ GARCÍA “Para los ingenieros de datos es muy fácil aplicar técnicas de clasificación o de selección con resultados espectaculares, pero sin un claro beneficio para los inspectores. Es necesario crear un marco común de pensamiento, que haga comprensible para los inspectores las posibilidades de estas tecnologías y que haga comprensible para los ingenieros de datos las reales necesidades de los inspectores, evitando la construcción de soluciones cuyo único beneficio sea la espectacularidad. El perfil de inspector fiscal con conocimientos de Big data será cada vez más necesario”[25].
Se debe verificar que en el uso de los algoritmos existen mecanismos de meta-aprendizaje, lo que determinará que, si se observa que un algoritmo no funciona correctamente, se puede reemplazar o complementar con otro, hasta poder obtener el resultado deseado.
Aquí es interesante revisar lo indicado por LANDA cuando menciona que “Es posible que la ejecución de los algoritmos sean varias intentando ajustar los parámetros que optimicen los resultados. Estos parámetros varían de acuerdo al método seleccionado”[26].
- EL ANÁLISIS PREDICTIVO Y LA ANALÍTICA AVANZADA
Por medio del análisis predictivo, se busca confeccionar un modelo analítico de los datos históricos que existen en las bases de datos, lo cual permitirá realizar predicciones relacionados con comportamientos futuros o patrones estimados que inicialmente eran desconocidos.
Es pertinente indicar, que el análisis predictivo forma parte de otra estructura denominada analítica avanzada, la cual precisamente revisa toda la base de datos, sobre todo de hechos, sucesos e información que es almacenada por actuaciones que ya ocurrieron, con el objetivo de poder, a través de fórmulas o algoritmos, tratar de predecir hechos en el futuro, la igual que la construcción de modelos que puedan pronosticar situaciones que ocurrirán más adelante, tomando en cuenta los antecedentes que obran en la base de datos.
En este sentido, podemos apreciar que ZAMBRANO precisa que “El análisis predictivo es el método estadístico que a través de la cobertura de datos de hechos que ya sucedieron o están sucediendo puede obtener conclusiones de cómo se va a desarrollar determinada actividad o qué tanto cambiará un comportamiento en el futuro. Para obtener estas conclusiones, es necesario utilizar algoritmos que involucren de una u otra forma procesos de inteligencia artificial”[27].
Como complemento a lo antes señalado, MORELLO indica que “La “Analítica Avanzada” consiste justamente en sacar el mayor provecho a este gran volumen de datos, centrando sus esfuerzos ya no en describir lo sucedido en el pasado, sino en pronosticar eventos y comportamientos futuros, permitiendo a las empresas realizar diversos análisis hipotéticos para predecir los efectos de los posibles cambios en las estrategias”[28].
Automatizar mediante la utilización de diversos logaritmos la identificación de patrones, correlaciones o ciertas tendencias que aparecen ocultas en las bases de datos. La información obtenida proporciona grandes ventajas
En este orden de ideas, apreciamos que ARRABALES MORENO considera que “Los modelos de análisis predictivos, que se construyen usando técnicas matemáticas y de inteligencia artificial, permiten inferir cómo se comportará en el futuro una variable (predecida) en función de una serie de variables predictoras”[29].
Finalmente, consideramos pertinente revisar la precisión realizada por ROUSE, al comentar que “El análisis de Big data puede hacerse con herramientas de software de uso común en el marco de disciplinas analíticas avanzadas, como el análisis predictivo y la minería de datos”[30].
- LA MINERÍA DE DATOS Y EL KNOWLEDGE DISCOVERY IN DATABASES – KDD
La minería de datos constituye un proceso complejo de exploración de datos y pretende revisar, explorar y analizar, por distintos medios, una base de datos. Para lograr ese cometido, utiliza distintos y variados mecanismos automáticos o semiautomáticos, a efectos de poder encontrar patrones y reglas que estuvieron ocultos en la base de datos, pero que aparecen una vez que se investiga más en profundidad.
Cabe indicar que la minería de datos forma parte de un proceso denominado KDD, que son las siglas en inglés de Knowledge Discovery in Databases y constituye un proceso más complejo donde se analizan modelos y patrones con mayor técnica y destreza, además que participan profesionales con mayores conocimientos y experiencia en el rubor que se desea investigar.
El Knowledge Discovery in Databases – KDD tiene las siguientes fases:
(i) Establecer el domino del estudio a trabajar y señalar sus objetivos.
(ii) Creación del Dataset[31] – Set de datos objetivo.
(iii) Necesaria limpieza y procesamiento de datos.
(iv) Minería de datos.
(v) Se debe buscar interpretar los patrones obtenidos por la minería de datos.
(vi) Obtención y posterior utilización de los conocimientos que fueron descubiertos.
Según el PORTAL MINERVA se precisa que el “Knowledge Discovery implica la evaluación e interpretación de patrones y modelos para tomar decisiones con respecto a lo que constituye conocimiento y lo que no lo es. Por lo tanto, el KDD requiere de un amplio y profundo conocimiento sobre tu área de estudio.
Por otra parte, la Minería de Datos, exploración de datos o Data Mining, no requiere tanto conocimiento sobre el área de estudio, sino más conocimiento técnico”[32].
En este punto STEINBERG indica que “Las administraciones tributarias se hallan entre los más grandes productores, recolectores, consumidores y difusores de información de cada país. El poseer grandes cantidades de datos almacenados en forma persistente, las coloca en condiciones de apelar a procedimientos automáticos o semiautomáticos para encontrar en esos datos conocimiento oculto hasta el momento e interesante: patrones ocultos, asociaciones, cambios, anomalías y estructuras significativas en los datos. La gran capacidad computacional que poseen, sumada al citado volumen de datos, las habilita para encarar procesos de Minería da Datos”[33].
Tengamos en cuenta que la información ya existe en las bases de datos, solo que hay que organizarla, procesarla, sistematizarla, aplicar los filtros correspondientes para así poder lograr un producto acorde con los requerimientos de los fiscalizadores tributarios.
Sobre el tema, apreciamos que STEINBERG menciona que “La Minería de Datos, por lo ya dicho, es entonces un proceso posterior a la obtención de los datos, que busca generar información similar a la que podría producir un experto humano, que resulte útil y comprensible; es un eslabón en un proceso más amplio de producción de conocimiento y consiste en la aplicación de algoritmos para la extracción de patrones, utilizando para ello los datos previamente disponibles, que adquieren así más valor”[34].
En el portal BIG DATA MARKETER se precisa que “La minería de datos y los textos analíticos, en conjunción con las estadísticas, permiten construir modelos de inteligencia predictiva, descubriendo tendencias y relaciones, tanto en el conjunto de datos estructurados como no estructurados”[35].
Es interesante revisar lo que ROUSE indica sobre el tema expuesto, al precisar que “El análisis de Big data puede hacerse con herramientas de software de uso común en el marco de disciplinas analíticas avanzadas, como el análisis predictivo y la minería de datos. Sin embargo, las fuentes de datos no estructurados utilizados para el análisis de grandes datos tal vez no encajen en los almacenes de datos tradicionales. Además, los almacenes de datos tradicionales pueden no ser capaces de manejar las demandas de procesamiento de grandes datos.
Como resultado, una nueva clase de tecnología de datos grandes ha surgido y está siendo utilizado en muchos análisis de datos grandes”[36].
- ¿ES POSIBLE LA UTILIZACIÓN DEL BIG DATA POR PARTE DE UNA ADMINISTRACIÓN TRIBUTARIA?
Una de las bases de datos más completas del país se encuentra administrada por el fisco y su contenido se incrementa día a día, lo cual determina que el análisis de la misma sea cada vez más complejo.
Por el tamaño de la base de datos, se aprecia que la administración tributaria requiere un mayor uso de tecnología, programación y análisis, siendo necesaria la utilización del Big Data, por todos los detalles indicados en los puntos anteriores.
Además, el obtener información por la aplicación del Big Data, determinará también aumentar la posibilidad de mayores acciones de fiscalización, lo que incrementará la sensación del riesgo en el contribuyente[37].
En una edición del Diario GESTIÓN se indica que “Poco a poco, la Administración Tributaria empezó a recibir más información a partir de lo cual ha iniciado un uso inteligente de los datos que le facilitará la fiscalización ya no a los mismos contribuyentes sino a un mayor número”[38].
Estamos de acuerdo que “El uso de datos para el análisis de conducta del contribuyente facilita las investigaciones tributarias, así como detecta los riesgos fiscales y alerta a las entidades regulatorias. Por ello, es de suma importancia desarrollar un ecosistema en conjunto con otras instituciones, de manera que este se enriquezca y pueda retroalimentarse a través de la adquisición de nuevos datos. Además, es fundamental garantizar la seguridad y el respeto a la sensibilidad de la información, contando con los agentes correctos para manejarla.
El uso de sistemas electrónicos que recopilan datos facilita la recaudación de impuestos al contar con información automatizada de redes autorizadas. Además, al establecer pautas se puede desmentir a aquellas personas que ocultan activos y ganancias, que pretenden cometer, bien sea a futuro, fraude fiscal.
La utilización del Big data favorece la toma de decisiones de las entidades regulatorias. Su efectividad es un buen estímulo para evitar que las personas o empresas oculten información de manera consciente. El tratamiento masivo de la información conlleva a decisiones estratégicas y soluciones personalizadas que aprovechan el uso de los datos”[39].
En una tesis interesante para obtener el grado de Magister, la autora VILLANUEVA BARRÓN, hace mención a los beneficios que la SUNAT obtiene por la aplicación del Big Data. Ella indica lo siguiente:
“Gracias a la adquisición del Big Data, la Sunat obtendrá los siguientes beneficios:
(i) Transformar digital y tecnológicamente a la Administración Tributaria.
(ii) Estudiar e identificar a los contribuyentes por su comportamiento tributario, segmentándolos según su perfil de riesgo.
(iii) Oportunidad en la toma de decisiones.
(iv) Mejorar y fortalecer la Cultura Tributaria de los contribuyentes.
(v) Reducir los riesgos en base a la toma de decisiones sin sustento basados en hechos o datos erróneos.
(vi) Generar un cambio positivo en el comportamiento del contribuyente.
(vii) Determinar medidas correctivas en favor de los contribuyentes.
(viii) Reducir la evasión tributaria.
(ix) Aumentar la recaudación tributaria”[40].
- INFORMACIÓN SOBRE LA APLICACIÓN DEL BIG DATA EN ARGENTINA
En Argentina la entidad que administra los tributos es la Administración Federal de Ingresos Públicos – AFIP, que es un organismo de recaudación de impuestos autárquico del Estado argentino y dependiente del Ministerio de Hacienda.
La AFIP tiene armado el perfil del contribuyente, tomando como referencia la propia conducta del contribuyente, con lo cual el fisco argentino otorga o no beneficios fiscales o facilidades.
Al ya existente Sistema de Perfil de Riesgo – SIPER, se busca complementar con el Sistema de Capacidad Económico Financiera – CEF, para lo cual utilizará el Big Data, lo que permitirá dar inicio a procesos de verificación y fiscalización mucho más complejas.
Sobre el tema, GARCÍA CÓDOBA nos indica con respecto al uso de la BIG DATA por parte de la AFIP, que “Los parámetros que serán tenidos en consideración para el armado de ese perfil serán los siguientes:
– Declaraciones juradas de los impuestos a las ganancias, a la ganancia mínima presunta,
al valor agregado y sobre los bienes personales.
– Hipotecas.
– Compra o venta de inmuebles.
– Compra o venta de Rodados[41].
– Compra de bienes de uso.
– Remuneraciones abonadas al personal en relación de dependencia o recibidas, según corresponda.
– Consumos con tarjetas de crédito o de débito.
– Pago de expensas.
– Deudas bancarias y financieras”[42].
- INFORMACIÓN SOBRE LA APLICACIÓN DEL BIG DATA EN ESPAÑA
En España, el fisco es la Agencia Estatal de Administración Tributaria – AEAT, conocida como Agencia Tributaria y desde un tiempo atrás creó el SII, que son las iniciales del Suministro Inmediato de Información.
El SII es un sistema para que los obligados tributarios cumplan con presentar los libros donde registran el Impuesto al Valor Agregado – IVA, ante la Agencia Tributaria. Dicho sistema entró en vigencia a partir del 1 de junio de 2017.
Cabe indicar que “Desde 2003 la Ley General Tributaria[43] sustituyó el término contribuyente por el de obligado tributario. El primero, contribuyente, tiene una acepción claramente positiva, el que paga o aporta, el que concurre voluntariamente a un logro. La segunda, la actual, indica obligación, sujeción, realización forzosa. Hacienda ha dado un paso de gigante con el SII y se sitúa como una de las Haciendas más avanzadas y con mayor información del mundo…y el ciudadano pasa a ser también uno de los más obligados y controlados, del mundo”[44].
Es interesante revisar la opinión de ENRIQUEZ, cuando explica la técnica de aplicación del Big data por la Agencia Tributaria. El menciona que “A modo de ejemplo, una factura de cien euros de un hotel por una habitación a nombre de un consumidor, no empresario, será informado por dicho hotel y la AEAT[45] dispondrá de esa información, información que podrá utilizar, en su caso, en una comprobación a esa persona física.
De esta forma nos encontramos que el SII[46] realmente es un BIG DATA FISCAL. La AEAT va a disponer de una ingente cantidad de información de grandes y pequeñas empresas, de autónomos e, incluso, de meros consumidores.
El esfuerzo que se pide a las empresas se justifica, como siempre, en la necesidad de un mayor control fiscal. Sin embargo, dicho esfuerzo debe ser proporcionado al resultado obtenido. Nos preguntamos si efectivamente se da esa proporcionalidad, y si el tratamiento de tales datos no puede afectar seriamente al derecho a la intimidad de las personas. Sinceramente creemos que la Hacienda Pública ha dado un paso demasiado largo con la excusa de esa siempre loable lucha contra el fraude fiscal”[47].
Otra forma en la cual se explica los beneficios del Big Data, sobre todo en la lucha contra el fraude fiscal, la encontramos en el portal del BBVA, cuando indica lo siguiente “Más información, más poder, ahora también sobre las empresas tentadas de mirar hacia otro lado cuando hay que pagar impuestos. Por ejemplo, con el SII es mucho más fácil detectar prácticas fraudulentas, como el ‘software’ de doble uso, es decir, programas informáticos cuya razón de ser es la ocultación de ventas.
Pero hay más. “Una vez que hemos empezado a contar con esta infraestructura nos hemos dado cuenta de que podemos hacer más cosas con ella”, explicó Borja Tomé, “como determinar las participaciones accionariales en las compañías”. En circunstancias normales, esto no es un gran avance, pero sí resulta muy útil para desenmascarar a presuntos insolventes que tienen un entramado de sociedades pantalla donde ocultan sus activos. “Ahora es mucho más fácil explicarse el florecimiento súbito de determinadas fortunas y quiénes son sus auténticos dueños. Es una analítica de comprobación cruzada (‘cross-checking’) sencilla, que da buenos resultados”[48].
- INFORMACIÓN SOBRE LA APLICACIÓN DEL BIG DATA EN COSTA RICA
En Costa Rica, la administración tributaria es la Dirección General de Tributación y últimamente ha venido realizando la aplicación del Big Data, para poder predecir cuáles son los contribuyentes con mayor posibilidad de evasión de tributos.
Para ello se analiza su comportamiento registrado, sobre todo en las transacciones realizadas al igual que sus declaraciones juradas presentadas, permitiendo elaborar su perfil.
Según el portal Americadata.com se indica que “Cruzando información de las 132 bases de datos a disposición del ministerio de Hacienda, la Dirección de Inteligencia Tributaria intenta predecir cuáles empresas son más propensas a evadir el pago de impuestos, dependiendo de su comportamiento histórico medido a través de transacciones, declaraciones tributarias y otros datos. Vinculando toda la información, identifican patrones de comportamiento similares a los de otras empresas que evadieron impuestos en el pasado”[49].
- INFORMACIÓN SOBRE LA APLICACIÓN DEL BIG DATA EN CHILE
En Chile, la administración tributaria se denomina Servicio de Impuestos Internos – SII y desde hace algún tiempo ha venido utilizando el Big Data, sobre todo en la aplicación de la minería de datos en las bases que poseen, para poder transformarlos en información de calidad y a la vez completa.
En una publicación especializada MARINKOVIC FEBRÉ indicó con respecto al trabajo del Servicio de Impuestos Internos, en este punto, lo siguiente “queremos continuar desarrollando proyectos que permitan el procesamiento de altos volúmenes de datos, junto con integrar estos resultados a la operación diaria en tiempo real, como lo son, entre otros, los modelos analíticos, estadísticos y clasificadores de riesgo”[50].
Según lo precisa VILLARRUBIA al responder una pregunta relacionada con la estrategia tecnológica utilizada por el Servicio de Impuestos Internos de Chile, ella indica que sus estrategias se orientan a un “Big data, que apunta a aumentar nuestra capacidad para procesar grandes volúmenes de datos en forma ágil y oportuna, de modo de entregar a nuestros usuarios, internos y externos, la mejor calidad de información para la toma de decisiones”[51].
[1] ALVA MATTEUCCI, Mario. ¿Puede una administración tributaria crear un Datawarehouse?: Las ventajas del uso de tecnologías de la información. Informe publicado en la Revista Análisis Tributario N° 158. Volumen XIV. Marzo 2001.
[2] ALVA MATTEUCCI, Mario. Knowledge Management y Administración Tributaria: Apuntes para la gestión del conocimiento. Informe publicado en la Revista Análisis Tributario. Volumen XIV. N° 160. Mayo 2001. Página 22.
[3] Responde a la lógica binaria, la cual solo permite el uso del verdadero y falso. También pueden representar al uno (1) o al cero (0), al igual que el SI o el NO.
[4] PÉREZ VALDES, Damián. ¿Qué son las bases de datos? Artículo publicado en el portal Maestros del Web, con fecha 26.10.2007. Esta información puede consultarse ingresando a la siguiente dirección web: http://www.maestrosdelweb.com/que-son-las-bases-de-datos/ (consultado el 16.08.2019).
[5] Un ejemplo típico de un registro alfanumérico, es el caso de las placas de rodaje utilizadas por los vehículos que circulan en todo el territorio nacional, donde se aprecia que tienen letras y números intercalados.
[6] BRÚ FORÉS, Raúl. Big data y Administración Tributaria. Publicado el 21.06.2018 en el portal Economía 3. Esta información puede consultarse ingresando a la siguiente dirección web: https://economia3.com/2018/06/21/148134-big-data-y-administracion-tributaria/ (consultado el 19.08.2019).
[7] KOTOROV, Rado. “El inmenso volumen de información que producen las empresas se ha de afrontar desde una cultura analítica”. Publicado el 29.12.2014. Esta información puede consultarse ingresando a la siguiente dirección web: https://www.computerworld.es/tendencias/el-inmenso-volumen-de-informacion-que-producen-las-empresas-se-ha-de-afrontar-desde-una-cultura-analitica-rado-kotorov-information-builders (consultado el 20.08.2019).
[8] BRÚ FORÉS, Raúl. Ob. Cit.
[9] Para poder describir este tema hemos tomado en consideración el artículo titulado “Big Data y su impacto en el sector público”, cuyo autor es Chema Maroto. Dicho trabajo fue publicado en Harvard Deusto business review. Número 256. Año 2016. Página 18.
[10] LADRERO, Iñaki. Las 4V’s del Big Data. Artículo publicado con fecha 02.06.2018. Esta información puede consultarse ingresando a la siguiente dirección web: https://www.baoss.es/las-4-vs-del-big-data/ (consultado el 20.08.2019).
[11] MAROTO, Chema. “Big Data y su impacto en el sector público”. Ob. Cit.
[12] FERNANDEZ PAMPILLÓN, Ana María; GOICOECHEA DE JORGE, María; HERNÁNDEZ YAÑEZ, Luis; LÓPEZ GARCÍA, Dámaso. Filología y Tecnología. Introducción a la escritura, la informática, la información. 2da edición revisada y ampliada. UCM Editorial Complutense. Segunda edición, setiembre 2012. Página 77.
[13] Portal Prometeus. Global solutions. Volumen, variedad, velocidad, veracidad y valor, las 5 dimensiones del Big Data. Publicado con fecha 19.02.2019. Esta información puede consultarse ingresando a la siguiente dirección web: https://prometeusgs.com/volumen-variedad-velocidad-veracidad-y-valor-las-5-dimensiones-del-big-data-la/ (consultado el 20.08.2019).
[14] MAROTO, Chema. “Big Data y su impacto en el sector público”. Ob. Cit.
[15] Se presentan casos donde existe “ruido de la información” cuando las fuentes, desde donde se toman los datos, no son confiables o valederas. En este punto, estamos de acuerdo con lo indicado por CUADRADO y CALDERÓN cuando indican que “Los problemas de ruido surgen cuando se acepta como válida y confiable una fuente que no lo es. Luego datos falsos inducen a decisiones erróneas que pue-den tener consecuencias negativas para alguien”. Ver CUADRADO, Guillermo Alberto y CALDERÓN, Juan Ernesto. Ruido y Silencio en las nuevas tecnologías de la información. Publicado en la revista Philosophia, número 68. Facultad de Filosofía y Letras. Universidad Nacional de Cuyo. Mendoza – Argentina. Año 2008. Página 14.
[16] MAROTO, Chema. “Big Data y su impacto en el sector público”. Ob. Cit.
[17] MACÍAS, Esther. Adoptar ‘Big data’ no es un problema de tecnología sino de gobernanza del dato. Entrevista a Alfonso Castro responsable en materia tecnológica de Agencia Tributaria de España. Publicada en el portal www.computerworld.es el 29.05.2018. Esta información puede consultarse ingresando a la siguiente dirección web: https://www.computerworld.es/archive/adoptar-big-data-no-es-un-problema-de-tecnologia-sino-de-gobernanza-del-dato (consultado el 13.08.2019).
[18] MAROTO, Chema. “Big Data y su impacto en el sector público”. Ob. Cit.
[19] Diccionario de la Real Academia Española – RAE. Esta información puede consultarse ingresando a la siguiente dirección web: https://dle.rae.es/?id=1nmLTsh (consultado el 20.08.2019).
[20] SOTO APOLINAR, Efraín. Diccionario Ilustrado de Conceptos matemáticos. Tercera edición. México 2011. Esta información puede consultarse ingresando a la siguiente dirección web: http://wordpress.colegio-arcangel.com/matematicas/files/2012/10/DICM.pdf (consultado el 20.08.2019).
[21] Esta información puede consultarse ingresando a la siguiente dirección web: http://ing.unne.edu.ar/pub/informatica/Alg_diag.pdf (consultado el 20.08.2019).
[22] Portal IBERTECH. El algoritmo como elemento diferenciador en el análisis del Big Data. Publicado el 18.05.2016. Esta información puede consultarse ingresando a la siguiente dirección web: https://www.ibertech.org/el-algoritmo-como-elemento-diferenciador-en-el-analisis-de-big-data/ (consultado el 20.08.2019).
[23] PORTAL MINERVA. ¿Qué es Knowledge Discovery in Databases o KDD? Esta información puede consultarse ingresando a la siguiente dirección web: https://mnrva.io/kdd-platform.html (consultado el 21.08.2019).
[24] DIAZ DE SARRALDE MIGUEZ, Santiago. Fiscalidad, Big Data y Análisis de Redes. Un estudio introductorio de la red mundial de convenios de doble imposición. Documentos de trabajo del CIAT. N° 3. Setiembre de 2018. Página 22. Esta información puede consultarse ingresando a la siguiente dirección web: https://www.ciat.org/Biblioteca/DocumentosdeTrabajo/2018/DT_03_2018_sarralde_ciat.pdf (consultado el 16.08.2019).
[25] GONZÁLEZ GARCÍA, Ignacio. ANALYTICS y BIG DATA: La nueva frontera. Caso de uso en la AEAT. Informe publicado en la revista de Administración Tributaria N° 44. octubre 2018. CIAT/AEAT/IEF. Página 47.
[26] LANDA, Javier. f(x) Tratamiento de los datos. ¿Qué es KDD y Minería de Datos? publicado el 19.02.2016. Esta información puede consultarse ingresando a la siguiente dirección web: http://fcojlanda.me/es/ciencia-de-los-datos/kdd-y-mineria-de-datos-espanol/ (consultado el 20.08.2019).
[27] ZAMBRANO, Juan. El análisis predictivo y su aplicación a través de la inteligencia artificial. Publicado en el portal Médium.com con fecha 26.04.2018. Esta información puede ser consultada ingresando a la siguiente dirección web: https://medium.com/@juanzambrano/el-an%C3%A1lisis-predictivo-y-su-aplicaci%C3%B3n-a-trav%C3%A9s-de-la-inteligencia-artificial-8009afceef68 (consultado el 15.08.2019).
[28] MORELLO, Federico. Analítica avanzada para la transformación digital. Publicado en el portal PWC de Chile con fecha 25.01.2018. Esta información se puede consultar ingresando a la siguiente dirección web: https://www.pwc.com/cl/es/prensa/columnas-de-opinion/Analitica-Avanzada-para-la-transformacion-digital.html (consultado el 20.08.2018).
[29] ARRABALES MORENO, Raúl. Análisis predictivo: con Big data el futuro no se predice, se cambia. Publicado en el portal ICEMD con fecha 20.09.2016. Esta información puede consultarse ingresando a la siguiente dirección web: https://www.icemd.com/digital-knowledge/articulos/analisis-predictivo-big-data-futuro-no-se-predice-se-cambia/ (consultado el 20.08.2019).
[30] ROUSE, Margaret. Análisis de Big data. Publicado en noviembre de 2012. Esta información puede consultarse ingresando a la siguiente dirección web: https://searchdatacenter.techtarget.com/es/definicion/Analisis-de-big-data (consultado el 15.08.2019).
[31] Sobre el tema, BALAGUERÓ indica lo siguiente: “Si nos movemos en el contexto de Big Data, entendemos por dataset aquellos conjuntos de datos tan grandes que las aplicaciones de procesamiento de datos tradicionales no los pueden procesar debido a la gran cantidad de datos contenidos en la tabla o matriz”. BALAGUERÓ, Thaís. ¿Qué son los datasets y los dataframes en el Big Data? Publicado el 13.11.2018 en el portal Deusto Formación. Esta información puede consultarse ingresando a la siguiente dirección web: https://www.deustoformacion.com/blog/programacion-diseno-web/que-son-datasets-dataframes-big-data (consultado el 21.08.2019).
[32] PORTAL MINERVA. ¿Qué es Knowledge Discovery in Databases o KDD? Ob. Cit.
[33] STEINBERG, Beatriz. Propuesta de uso de un modelo predictivo para la determinación del perfil de riesgo de los contribuyentes en la República Argentina. Revista de Administración Tributaria. N° 33. CIAT/AEAT/IEF. Junio 2012. Página 129. Esta información puede consultarse ingresando a la siguiente dirección web: https://www.ciat.org/Biblioteca/Revista/Revista_33/Espanol/rev33-8-beatriz_steinberg-ok.pdf (consultado el 21.08.2019).
[34] STEINBERG, Beatriz. Propuesta de uso de un modelo predictivo para la determinación del perfil de riesgo de los contribuyentes en la República Argentina. Ob. Cit.
[35] BIG DATA MARKETER. ¿Qué es el análisis predictivo? Publicado el 01.10.2018. Esta información puede consultarse ingresando a la siguiente dirección web: http://www.bigdata-social.com/que-es-el-analisis-predictivo/ (consultado el 15.08.2019).
[36] ROUSE, Margaret. Análisis de Big Data. Este contenido forma parte de la Guía esencial: Big data entra en una nueva era, gracias a la analítica. Publicado en noviembre de 2012. Esta información puede consultarse ingresando a la siguiente dirección web: https://searchdatacenter.techtarget.com/es/definicion/Analisis-de-big-data (consultado el 21.08.2019).
[37] Las acciones que realice la administración tributaria deben procurar que el contribuyente perciba, que cualquier conducta que éste realice en contra del cumplimiento de sus obligaciones tributarias sean más riesgosas y onerosas, que el propio pago de sus tributos, al igual que el cumplimiento de sus obligaciones formales. En este punto es necesario que existan operativos de fiscalización, utilizando para ello la coacción al igual que la coerción.
[38] Diario Gestión. Editorial: Recuperando la sensación del riesgo. Publicado el 25.06.2018. Esta información puede consultarse ingresando a la siguiente dirección web https://gestion.pe/opinion/editorial/editorial-recuperando-sensacion-riesgo-236787-noticia/ (consultado el 13.08.2019).
[39] ¿Cómo empleó Costa Rica el Big data para optimizar su cobro de impuestos? Publicado el 05.07.2018. En el portal conexión ESAN. Esta información puede consultarse ingresando a la siguiente dirección web: https://www.esan.edu.pe/apuntes-empresariales/2018/07/como-empleo-costa-rica-el-big-data-para-optimizar-su-cobro-de-impuestos/ (consultado el 22.07.2019)
[40] VILLANUEVA BARRÓN, Clara. Las redes sociales como fuente de información en el procedimiento de fiscalización de las personas naturales. Tesis para optar el grado académico de Magistra en Derecho Tributario. Escuela de Posgrado. Pontificia Universidad Católica del Perú. Enero 2019. Página 61.
[41] Se refiere a la compra o venta de automóviles.
[42] GARCÍA CÓRDOBA, Federico. AFIP utilizará Big Data para formar el perfil económico de los contribuyentes. Información publicada el 1309.2018. Para acceder a su contenido se puede ingresar a la siguiente dirección web: https://negociosynoticias.com/afip-utilizara-big-data-para-formar-el-perfil-economico-de-los-contribuyentes/ (consultado el 09.08.2019).
[43] La Ley General Tributaria, oficialmente es la Ley 58/2003, de 17 de diciembre. La cual ha tenido varias modificaciones hasta la actualidad.
[44] SII, El Big Data Fiscal, publicado en el periódico Expansión en julio 2017. Esta información puede consultarse ingresando a la siguiente dirección web: https://www.enriquezyasociados.com/sii-big-data-fiscal/ (consultado el 09.08.2019).
[45] Son las siglas de la Agencia Española de Administración Tributaria.
[46] Son las siglas del Suministro Inmediato de Información del IVA, aplicable en España.
[47] ENRÍQUEZ, Juan José. SII – Suministro Inmediato de Información del IVA ¿En qué consiste? Esta información puede consultarse ingresando a la siguiente dirección web:
https://www.enriquezyasociados.com/sii-suministro-inmediato-informacion-del-iva/ (consultado el 09.08.2019).
[48] Cómo el “Big data” ayuda a luchar contra el fraude fiscal. Publicado el 24.11.2017. Esta información puede consultarse ingresando a la siguiente dirección web: https://www.bbva.com/es/big-data-ayuda-luchar-fraude-fiscal/ (consultado el 22.07.2019).
[49] Portal Central americadatacom. Información de negocios. Big data mejora cobro de impuestos. Publicado el 02.05.2018. Esta información puede consultarse ingresando a la siguiente dirección web: https://www.centralamericadata.com/es/article/home/Big_Data_para_cobrar_ms_impuestos (consultado el 20.08.2019).
[50] MARINKOVIC FEBRÉ, Erick. La transformación digital del SII forma parte de su ADN. Artículo publicado con fecha setiembre 2016. Revista Gerencia. Esta información puede consultarse ingresando a la siguiente dirección web: http://www.emb.cl/gerencia/articulo.mvc?xid=4086&sec=7 (consultado el 22.08.2019).
[51] VILLARRUBIA, Celia. Portal DCD. Chile calcula su IVA mediante Big data. Informe publicado con fecha 06.02.2018. Esta información puede consultarse ingresando a la siguiente dirección web: https://www.dcd.media/features/chile-calcula-su-iva-mediante-big-data/ (consultado el 22.07.2019).