Big Data: manipulación, gestión y análisis de grandes volúmenes de datos: abril 2016

martes, 19 de abril de 2016

BIG DATA al servicio de la educación de la UNAD

El desarrollo del presente proyecto abarca el tema de Big Data y su aplicación al problema de deserción estudiantil detectado en la Universidad Nacional Abierta y a Distancia. El objetivo principal de este documento es poder identificar el problema, dejando plasmados sus antecedentes y el propósito principal de la investigación. Realizando un análisis acerca del uso de tecnologías de punta como el Big Data y su gran utilidad en el campo educativo.

Objetivo General
Formular el tema de investigación seleccionado en el primer trabajo colaborativo, definiendo claramente cuáles son sus antecedentes, lo que se espera del proyecto y cuál es la solución a la que se desea llegar

Objetivos Específicos

Realizar un planteamiento a la problemática seleccionada, definiendo claramente los síntomas, causas, y pronóstico sobre el mismo.
Definir cuál es el propósito de la actual investigación, planteando un marco de trabajo en el que se explique hacia dónde debe ir encaminado el desarrollo del proyecto.
Realizar un planeamiento de la solución a la que se desea llegar, utilizando para ello herramientas como el decálogo de Bernal.

Planteamiento del Problema

La UNAD es la universidad con mayor índice deserción del país. Con aproximadamente el 21,45% (Cifra tomada de SPADIES 2015) y del informe de gestión de la UNAD del 2015 además de una taza de 73,76% en un plazo de 10 semestres en Bogotá (Caldas, 2015) un indicador que ha disminuido los últimos años pero no significativamente.

EL fenómeno de deserción no es un tema únicamente de nuestra universidad puesto que en general en el país el índice es alto y permaneció creciente durante muchos años y por eso se creó el SPADIES, el ente encargado de analizar y llevar la trazabilidad de que se está haciendo mal en materia de educación superior en Colombia con el fin que cada institución elabore un plan de mejora en base a los resultados publicados.

Además de los estudios anteriormente mencionados que se han hecho por parte de la UNAD y el MEN, estudiantes de la universidad de diferentes regiones del país y principalmente del área psicología han realizado estudios independientes acerca del tema de deserción. Emplearon diferentes técnicas como entrevistas, en cuentas entre otras diseñadas por si mismos que les permitieron concluir e identificar diferentes causas dentro de sus centros de formación por lo que sus resultados no son generales sino localizados aun así muy valiosos.

Tanto los estudios de la UNAD como los de los estudiantes coinciden en muchas de las causas y tiene pleno conocimiento de cuáles son los factores que afectan el alto indicador de deserción tanto de los estudiantes a corto plazo como largo plazo. El mayor número de desertados en Colombia se presenta en los primeros cuatro semestres (un 75 por ciento de los casos). Incluso desde primer semestre ya el 18,5 por ciento de los estudiantes abandona sus estudios.

El informe del SPADIES muestra que aquellos que trabajan y estudian al tiempo tienen mayor probabilidad de abandonar la universidad. De igual forma pasa con quienes no son tan jóvenes e inician una carrera profesional.

La situación familiar y el darse cuenta que no era su vocación son otras de las razones para abandonar el camino. Pero sin lugar a dudas, el factor económico es una de las causas más comunes, ya que muchos estudiantes se endeudan, trabajan o junto a sus padres hacen hasta lo imposible por pagar costosas matrículas y cumplir esa proeza. (Caldas, 2015)

La UNAD ha abortado las principales causas de deserción como por ejemplo alianzas con entidades que generan planes y facilidad crediticia a los estudiantes, planes de inducción, planes estratégicos de retención de estudiantes, unidades de asesoría académica, rediseño de metodologías de los cursos como duración, periodos inter semestrales, grupos de investigación, planes de apadrinamiento.

Después del factor económico y digno de destacar es que la principal falencia que identifican los desertores se da en el campo de la inter-relación académica y la dificultad de identificación de su vocación.

La orientación y apoyo brindado por los consejeros y la atención de los tutores, si bien la calidad de éstos y de los directores, así como la calidad de los contenidos de las materias reciben las más altas valoraciones (medias de 3.3). Es decir, de acuerdo con la percepción de los desertores se dispone de contenidos y docentes de buena calidad, pero se brinda escasa atención al aprendizaje de los estudiantes. (Ángel Humberto Facundo Díaz, 2009)..

La universidad posee una gran oportunidad y es que tiene registro y control en “tiempo real” del procesos educativo y evaluativo en su aplicativo llamado E-dunat. Un sistema estructurado y gestor de contenidos que administra la estructura y acceso a todos los cursos ofrecidos, y coordina la interacción tutor-estudiante que difícilmente se da en tiempo real dado que la metodología de estudio as auto dirigida y el tutor no estará disponible las 24 horas dado el volumen de personas es inmanejable de forma individual.

Basados en todo lo anterior, la metodología usada por la UNAD podría evolucionar y mejorar. El aplicativo solo se basa en coordinar, administrar y dar acceso. Brinda algunas herramientas a los tutores como sistema de alertas tempranas basado en fechas de acceso y completad de actividades calificables automáticas, pero nada mas no interactúa con el estudiante, no evalúa las dificultades de aprendizaje ni la calidad de aprendizaje y no posee la capacidad de analizar diferentes fuentes de contenido generados por el estudiante y agentes externos que ayuden a alimentar el modelo de aprendizaje y una vez terminado el curso son desechados.

El aplicativo de la UNAD necesita convertirse en una auténtica herramienta capaz de tomar y ayudar a tomar decisiones en tiempo real, monitorear la mayor de eventos posibles, recibir información de diferentes tipos, orígenes y fuentes. Todo lo anterior se conoce de forma técnica como Big Data.

Es necesario pensar en implementar un modelo basado en Big Data que podría permitir a la a universidad establecer esa relación de interacción en tiempo real, que le permita medir la calidad del aprendizaje de los estudiantes de manera temprana y oportuna, permita que se tengan datos disponibles para ser analizados y expuestos a los tutores y personal externo que puedan contribuir a mejorar y establecer una mejor relación con los estudiantes.

Si el sistema E-dunat lograse mediante la interacción y adaptación en tiempo real proporcionable por Big Data y todo lo que conlleva, lo que muy directamente implicaría establecer un proceso de educación más controlado y personalizado, medible que permitiría cambiar la percepción de los estudiantes con alto riesgo de deserción y motivarlos a permanecer vinculados, regresar, encontrar eficiente mente sus vocaciones.

Disminuir la tasa de deserción, implicaría una mejora sustancial en la calidad de educación ya que directamente se estaría garantizando mayor cantidad de recursos para la educación al ser de carácter público, mayor cobertura y crecimiento de la comunidad de estudiantes a distancia.

Propósito de la investigación

Al realizar este proyecto buscamos brindar una amplia interacción, por medio del desarrollo y uso de las herramientas que puede ofrecer el campus virtual de la UNAD, aplicando para ello las herramientas que brinda la web, permitiendo crear una herramienta de CANVAS.

“Un modelo de negocio fundamentado en la innovación se basa en encontrar y fomentar nuevas formas de crear, entregar y captar valor para el cliente” Alex Osterwalder

De esta manera, se pretende formar y cultivar en cada estudiante el pensamiento y cultura de que puede iniciar dar forma a sus ideas de negocios con una herramienta que sea la guía para proyectar su pensamiento acerca del modelo de negocio que desea, logrando asi que la curva de éxito sea más corta, moderna, sencilla y práctica. Que desarrolle la capacidad de interacción del estudiante, cambiando la cultura pasiva a una cultura proactiva.

Analizando los datos anteriormente mencionados acerca de los índices de deserción de los estudiantes nuevos y a largo plazo, además de conocer una de las principales causas de deserción relacionada con la interacción de la universidad con los estudiantes en cuanto a la falta de atención sobre el proceso de aprendizaje esta investigación tiene como finalidad dotar al sistema de la E-dunat de la capacidad de interacción en tiempo real con el estudiante mediante la implementación de la tecnología Big Data capaz de procesar grandes cantidades de información en tiempo real y de diferentes orígenes.

Capturar cantidades de datos masivos y tener alta capacidad de procesamiento en tiempo Real por sí solo no es ningún logro por lo que el principal propósito es que al tener la capacidad de captar el mayor detalle de eventos relacionados con la información académica del estudiante al interactuar con la plataforma se pueda construir un sistema capaz de interactuar con el estudiante , adaptarse a sus necesidades de apoyo a sus aprendizaje , brindar a los tutores indicadores cualitativos además de los cuantitativos ya existentes de la calidad de aprendizaje obtenido e indicar que posibles estrategias de mejora.

El proceso de apoyo vocacional es fundamental para garantizar la continuidad de las personas por lo que el análisis de fuentes como redes sociales mediante podría contribuir a reconstruir un mejor perfil del estudiante y ayudarle en su elección de programa.

Al final del programa es importante verificar si después de implementadas las características sobre el sistema el índice de deserción y retención de los estudiantes se ve afectado de forma positiva para todos y si es posible seguir dotando a E-dunat de inteligencia que permita hacer el proceso de aprendizaje cada vez más personalizado y preciso.

Preguntas de la Investigación

¿Cómo informar a la UNAD de los cambios que debe realizar para mejorar?
¿Cómo concientizar y adaptar la comunidad educativa a los cambios que conlleva el uso de nuevas tecnología?
¿Qué cambios intelectuales generan en los estudiantes la implantación de este modelo?
¿Cuál es el principal motivo que genera el problema?
¿Qué se debe tener en cuenta para solucionar y desarrollar la problemática planteada?
¿Qué elementos se deben utilizar para la ejecución de este proyecto?
¿Qué beneficios traerá el desarrollo de este proyecto?
¿Qué dificultades se podrían presentar en la solución del proyecto?
¿Qué tipo de información requieren los estudiantes y docentes para poder mejorar sus procesos?
¿Qué procesos se deben establecer para poder obtener la información justa y completa, con el fin de implementar una solución óptima?
¿Qué actores deben interactuar durante todo el proceso de desarrollo e implementación de la solución?
En la actualidad ¿De qué forma obtienen los docentes información acerca del proceso académico de sus estudiantes para poder ayudarlos a mejorar?
¿Al implementar Big Data se podría convertir el sistema E-dunat en un sistema dinámico capaz de asistir y personalizar el proceso de aprendizaje en la UNAD?
¿Analizar diferentes fuentes como redes sociales podría ayudar a perfilar vocacionalmente a los estudiantes y así disminuir la tasa de deserción de estudiantes nuevos?
¿Si E-dunat interactuara de forma más activa con los estudiantes podría cambiar solucionar el problema solucionar la percepción acerca de la escasa atención al aprendizaje de los estudiantes y por ende reducir la tasa deserción?
¿Un sistema de alertas más temprana y personalizado a cada estudiante puede mejorar los índices de retención de estudiantes a largo plazo?

Terminología a Utilizar

Durante el desarrollo de esta investigación, se emplearán términos como los siguientes:

ACCESIBILIDAD: Se refiere a qué tan accesible es el sitio para personas con discapacidades que también utilizan la Web, como personas ciegas, con problemas de artritis, o que no ven bien los colores.

AJAX: Es una técnica de desarrollo web para crear aplicaciones interactivas. Siendo posible
realizar cambios sobre las páginas sin necesidad de recargarlas, mejorando la interactividad, velocidad y usabilidad en las aplicaciones.

AMBARI: Es una interfaz web que permite implementar y administrar clústers de Apache Hadoop. Su desarrollo está siendo dirigido por ingenieros de Hortonworoks, que incluyen en su plataforma de datos “Ambari Hortonworks”.

APACHE KAFKA: (Desarrollado por LinkedIn). Es un sistema distribuido de publicación-suscripción de mensajería que ofrece una solución capaz de manejar toda la actividad del flujo de datos y procesar estos datos en un sitio web de gran consumo. Este tipo de datos (páginas vistas, búsquedas y otras acciones del usuario) son un ingrediente clave en la web social actual.

AVRO: Es un sistema de serialización de datos optimizado para Hadoop/MapReduce. Tiene la ventaja de ser compacto, flexible y admitir varios lenguajes de programación, lo cual lo posiciona como una alternativa muy buena a los SequenceFiles (de Hadoop) o ProtoBuf (de Google).

BASE DE DATOS: es un conjunto de datos pertenecientes a un mismo contexto y almacenados sistemáticamente para su posterior uso.

BIGTOP: Es un esfuerzo para crear un proceso más formal o marco de referencia para las pruebas de paquetización e interoperabilidad de sub-proyectos Hadoop y sus componentes relacionados, con el objetivo de mejorar la plataforma Hadoop en su conjunto.

CASSANDRA: Es una base de datos distribuida desarrollada inicialmente por Facebook. Diseñada para manejar grandes cantidades de datos distribuidos a través de servidores commodity, tiene como características un arquitectura de tipo "key/value", el no tener ningún punto único de fallo (SPOF), un método de replicación de información basado en "gossip protocol" y la problemática "eventual consistency".

CHUKWA: Es un subproyecto dedicado a la carga masiva de varios ficheros texto dentro de un clúster Hadoop (ETL). Chukwa se construye bajo el sistema de archivos distribuido (HDFS) y el marco MapReduce y hereda la escalabilidad y robustez de Hadoop. También incluye un conjunto de herramientas flexible y potente para la visualización y análisis de los resultados.

DREMEL: Es un sistema de consultas interactivo para el análisis de datos anidados de sólo-lectura. Es una solución ad-hoc escalable, que mediante la combinación de niveles de múltiples árboles de ejecución y el diseño de columnas de datos, es capaz de ejecutar consultas sobre tablas de agregación de un billón de filas en segundos. El sistema escala a miles de CPUs y petabytes de datos, y cuenta con miles de usuarios en Google.

CLUSTER: Conjunto de servidores (o nodos) que permiten garantizar la continuidad del servicio y distribuir la carga de procesamiento/red.

ESTÁNDARES: Se refiere a qué tan cercano se acerca su sitio a las reglas impuestas por la W3C y qué tanto se aproxima a los estándares correctos.

FLUME: Es un marco para aportar datos a Hadoop. Los agentes están poblados de toda la infraestructura de TI - dentro de los servidores web, servidores de aplicaciones y dispositivos móviles, para recoger esos datos e integrarlos en Hadoop.

HAMA: Es una plataforma de computación distribuida basada en técnicas de computación paralelas masivas para, por ejemplo, cálculos científicos, matriz, gráfico y algoritmos de redes.

HBASE: Es una BBDD NoSQL de baja latencia. Se trata de la versión java opensource de Hadoop de la famosa BBDD NoSQL de Google: BigTable. Como principales características podemos destacar: datos almacenados en columnas, sistema de versioning de los datos, consistencia de las escrituras y lecturas y recuperación automática en caso de fallos. Ha sido elegido por Facebook, entre otras cosas, para almacenar todos los correos de los usuarios de la misma plataforma.

HCATALOG: Ofrece una capa de abstracción de acceso a los datos. Permite a los usuarios de Hive, Pig o MapReduce acceder facilmente a cualquier fichero en HDFS sin preocuparse del formato que puede tener este fichero (sea CSV, SequenceFile, JSON etc). Se trata de un proyecto inicialmente desarrollado por Hortonworks.

HDFS: (Hadoop Distributed File System), la capa de almacenamiento de Hadoop, es un sistema de fichero distribuido escrito en java, escalable, tolerante a fallos. Aunque Hadoop pueda funcionar con varios sistemas de ficheros (sistema de ficheros locales de Linux, GlusterFS, S3 de Amazon...) HDFS se desmarca de ellos por ser totalmente compatible con MapReduce y ofrecer la optimización de "localidad de los datos", lo cual lo convierte en la solución "natural" de Hadoop.

HTML5: es la última evolución de la norma que define HTML. El término representa dos conceptos diferentes: Se trata de una nueva versión del lenguaje HTML, con nuevos elementos, atributos y comportamientos, y un conjunto más amplio de tecnologías que permite a los sitios Web y las aplicaciones más diversas y de gran alcance. Este conjunto se
le llama HTML5 y amigos y, a menudo reducido a sólo HTML5.

JAVASCRIPT: es un lenguaje de programación, se utiliza principalmente del lado del cliente (es decir, se ejecuta en nuestro ordenador, no en el servidor) permitiendo crear efectos
atractivos y dinámicos en las páginas web. Los navegadores modernos interpretan
el código JavaScript integrado en las páginas web.

JQUERY: Es una librería de JavaScript que simplifica el scripting en HTML y permite manipular el CSS directamente; actualmente el 30% de los 10,000 sitios más populares del mundo lo utilizan y dicho número va en aumento. Es sumamente dinámico, interactivo y fácil de implementar y existe un arsenal de tutorías u ejemplos por toda la Web.

MAPREDUCE: Patrón de arquitectura que permite realizar cálculos en paralelo y, por tanto, perfectamente adecuado para el tratamiento de bases de datos de gran tamaño.

MONGODB: Es un sistema de BBDD NoSQL orientado a documentos de código abierto. Por ser de tipo documentos, las estructuras de datos se guardan en documentos con un esquema dinámico, pero siguiendo la notación de JSON. Estas estructuras, que son denominadas por MongoDB como BSON, son dinámicas, lo que implica que no exista un esquema predefinido, pudiendo un documento no tener todos los campos definidos para este documento. Esto supone que la integración de los datos en ciertas aplicaciones sea más fácil y rápida.

NEO4J: Es una base de datos de gráficos, de código abierto soportada por Neo Technology. Neo4j almacena los datos en nodos conectados por relaciones dirigidas y tipificadas, con las propiedades de ambos, también conocidas como Gráfico de Propiedad (Property Graph).

OOZIE: Es un sistema de gestión de WorkFlows (flujos de trabajo) que permite a los usuarios definir una serie de trabajos escritos en varios lenguajes, como MapReduce, Pig y Hive, creando entre ellos un flujo de procesos (jobs) con lógica. Oozie permite a los usuarios especificar, por ejemplo, que una determinada consulta sólo debe iniciarse después de determinados trabajos previos en los que se basa para recoger datos que se han completado.

PIG: Es un lenguaje de programación de alto nivel desarrollado por Yahoo para facilitar la programación de MapReduce sobre hadoop. Es relativamente fácil de aprender (ya que es muy expresivo y legible) y es eficiente frente a grandes flujos de datos.

PHP: es un lenguaje de código abierto muy popular, adecuado para desarrollo web y que puede ser incrustado en HTML. Es popular porque un gran número de páginas y portales web
están creadas con PHP. Código abierto significa que es de uso libre y gratuito para todos los programadores que quieran usarlo. Incrustado en HTML significa que en un mismo archivo vamos a poder combinar código PHP con código HTML, siguiendo unas reglas.

R: Es un lenguaje y un entorno para computación y gráficos estadísticos. Es un proyecto GNU, que es similar al lenguaje S. R ofrece una gran variedad de estadísticas (modelos lineales y no lineales, tests estadísticos clásicos, análisis de series de tiempo, clasificación, clustering, ...) y las técnicas gráficas. Además es altamente extensible.

RIAK: IEs una BBDD NoSQL inspirada en Dynamo, de código abierto, distribuida y que cuenta con una versión comercial. BBDD clave-valor con algunos metadatos, sin esquema de almacenamiento, tipo de datos agnósticos, lenguaje agnóstico que soporta a través de una api REST y PBC31 varios tipos de lenguaje (Eralng, Javascript, Java, PHP, Python, Ruby...), masterless ya que todos los nodos son iguales, escalable, eventualmente consistente y utiliza map/reduce y “link”. Riak está diseñado para resolver una nueva clase de problemas de gestión de datos, específicamente los relacionados con la captura, almacenamiento y procesamiento de datos dentro de entornos TI distribuidos y modernos como la nube.

SQL/noSQL: El Structured Query Language es el lenguaje informático más utilizado para estructurar bases de datos y realizar consultas para extraer la información. Estos últimos años ha aparecido un nuevo sistema de bases de datos «noSQL», que se distingue por tener una mayor flexibilidad de las bases de datos y una arquitectura de cluster

SQOOP: Es una herramienta de conectividad para mover datos de Hadoop, tales como bases de datos relacionales y almacenes de datos. Permite a los usuarios especificar la ubicación de destino dentro de Hadoop e instruir Sqoop para mover datos de Oracle, Teradata u otras bases de datos relacionales para cumplir el objetivo marcado.

STORM: Es un sistema de computación distribuida en tiempo real, libre y de código abierto, nacido en el seno de Twitter. Storm hace fácil procesar de manera fiable flujos no estructurados de datos, haciendo en el ámbito del procesamiento en tiempo real, lo que hizo Hadoop para el procesamiento por lotes.

VOLDEMORT: Es un sistema de almacenamiento distribuido basado en key-value. Se utiliza en LinkedIn para ciertos problemas de almacenamiento de alta escalabilidad donde la partición funcional simple no es suficiente.

ZOOKEEPER: Es un proyecto de software de la Apache Software Foundation, que provee un servicio de configuración centralizada y registro de nombres de código abierto para grandes sistemas distribuidos. ZooKeeper es un subproyecto de Hadoop.

Mapa conceptual

Planeación de la investigación - Decálogo de Bernal

Concepto	Descripción
Cronología (¿Cuando?)	Estudios realizados desde el 2.015 han permitido evidenciar el alto índice de deserción que tienen las universidades, dentro de las cuáles destaca la UNAD. La UNAD ha decidido emplear diversas opciones con el fin de disminuir estos índices de deserción entre sus estudiantes. Dentro de sus útiles herramientas, se encuentran aquellas que permiten conocer en tiempo real los procesos educativos de sus estudiantes. En vista de lo anterior, como el proyecto de investigación pretende potencializar esta información por medio del big data y convertir dicha herramienta en una capaz de ayudar a tomar decisiones en tiempo real, monitorear la mayor de eventos posibles, recibir información de diferentes tipos, orígenes y fuentes. Es por ello que el proyecto se debe ir desarrollándose en base a los avances y necesidades que tengan los estudiantes durante cada semestre en la plataforma, con el fin de ir conociendo las necesidades que vayan surgiendo a lo largo del camino. Dicho desarrollo empieza a partir del aval que se le dé al proyecto en la Universidad. Así mismo es necesario tener en cuenta los siguientes datos que sirven como base para el presente proyecto: Resultados del 2015 SPADIES indican que la UNAD tiene la mayor tasa de deserción de estudiantes de educación superior del País con el 21.45 %. Tesis de estudiantes de diferentes regiones de psicología desde los años 2012 – 2014 coinciden los altos índices y tratan de explicar las causas de deserción. Los informes de gestión de la UNAD del 2015 junto con las tesis de estudiantes coinciden en que la principal causa después del factor económico es forma de la relación del acercamiento entre el estudiante con la universidad(Tutor). Consolidación de los cursos en línea, llamados MOOCs cerca de 2008 y aplicación de análisis masivos para generar contenidos educativos personalizados.
Axiomas (¿Quién?)	De acuerdo con la percepción de los estudiantes desertores se dispone de contenidos y docentes de buena calidad, pero se brinda escasa atención al aprendizaje de los estudiantes. (Ángel Humberto Facundo Díaz, 2009)
Método (¿Cómo?)	Desplegando la arquitectura necesaria de Hardware y software que se tiene que llevar a cabo para poder soportar en almacenamiento y procesamiento distribuido de datos. Estableciendo la información que se requiere capturar partiendo del que es valiosa, priorizarla y organizarla y disponerla en la inmediatez. Aplicar las herramientas y algoritmos en búsqueda de tendencias y patrones mediante análisis de datos que descubran dificultes, oportunidades y falencias del aprendizaje. Mediante el análisis de los datos valiosos recolectados producto de la experiencia de cada estudiante de la plataforma y fuera de ella, aplicado herramientas Analíticas que revelen las tendencias. Transmitiendo en tiempo real de estudio virtual al estudiante los resultados detectados, sugerencias realizadas por tutores y generando el contenido personalizado y especifico requerido para realizar mejoras o afianzar temáticas mediante y desde la plataforma E-dunat. Realizar estadísticas al final de semestres contrastando resultados con grupos de semestres obtenidos evidenciando mejoras o cambios positivos en el comportamiento académico y midiendo los índices de deserción al inicio de siguientes semestres.
Ontología (¿Qué?)	El objetivo principal es mejorar la experiencia de trabajo para los estudiantes de la UNAD se encuentran o familiarizan en cada momento dedicado a la plataforma virtual de la Universidad por medio de la actualización o mejoramiento del campus utilizando tecnologías de aprendizaje mediado por aplicaciones web. Dotar al sistema de la E-dunat de la capacidad de interacción en tiempo real con el estudiante mediante la implementación de la tecnología capaz de procesar grandes cantidades de información en tiempo real y de diferentes orígenes que le permita evaluar individualmente la calidad del aprendizaje.
Tecnología (¿Con Que?)	Aplicando nuevas tecnologías de programación y estándares del desarrollo web como también aplicativos importantes, reconocidos y seguros como lo son: HTML5, JavaScript y PHP. Implementando Big Data sobre el sistema de información E-dunat con sus herramientas de captura de diferentes fuentes de datos y disposición de análisis de grandes cantidades de datos en tiempo real y poner la informa a disposición de análisis de tendencias y estadísticos entro otras técnicas que le dan realmente valor a la información.
Teología (¿Para Qué?)	Demostrar que de los datos que se tiene y el apoyo de la tecnología se tiene el potencial para estructuras un modelo pedagógico más personalizado , amigable que incentive a los estudiantes cada día a continuar con su proceso formativo y encuentren en la combinación del autoaprendizaje y la modalidad formativa a distancia un modelo sostenible a largo plazo de educación.
Topografía (¿Dónde?)	(UNAD) Campus virtual de la Universidad Abierta y a Distancia, sobre el sistema de control académico web E-dunat.
Ecología (¿Contra Qué?)	El sistema será desarrollado para que los estudiantes tengan una experiencia enriquecedora al momento de interactuar en el campus virtual y querer plasmar un plan de negocio de manera que sus modelos de negocio o ideas de negocios se puedan mostrar con una herramienta que sea la guía para proyectar fácil y adecuadamente. La percepción de despreocupación de la UNAD por hacer un seguimiento continuo y oportuno del aprendizaje obtenido más allá de la apreciación cuantitativa de la nota , seguimiento más individualizado y detallado.
Etiología (¿Por qué?)	Es necesario atacar la necesidad del estudiante de sentirse más acompañado en su proceso de formación , retenerlo de forma efectiva y sólida, analizar su experiencia de aprendizaje ayudara a que próximos estudiantes puedan tener el mismo o mucho más éxito y así contribuir a la universidad a crecer , ganarse más recursos y aumentar su cobertura a nivel nacional.
Experiencia (¿Cuánto?)	Plan de identificación de estudiantes en riesgo de deserción en 2012 de 5 escuelas con alertas tempranas así: Nunca ingresaron. Más de 10 días sin ingreso. Ingresa, pero no desarrolla actividades. Se evidencia que de los 4370 estudiantes de las 5 escuelas reportados en riesgo en la primera fase se logró contactar y motivar para que permanecieran en su proceso a 2377 de ellos, dato que corresponde al 54% de esa población. (UNAD S. N., 2012)

Conclusiones

El desarrollo de esta actividad da fe de la importancia de realizar un estudio concienzudo del marco de cualquier problemática que se desee investigar, es decir conocer su origen, los estudios previos sobre el mismo tema, etc.
Realizar el decálogo de Bernal permite realizar un análisis muy detallado acerca de la planeación de la investigación, permitiendo que todas las ideas sean aterrizadas y tomen un rumbo bien claro y definido,
Definir las preguntas de investigación permiten que las personas partícipes del proyecto puedan orientar sus esfuerzos hacia metas bien definidas, definiendo qué es lo que se desea obtener y resolver mediante la tarea de investigación.

Bibliografía

Angel , F. H. (Diciembre de 2009). Universidad Nacional Abierta y a Distancia. Recuperado el 16 de Abril de 2016, de Analisis sobre la deserción en la educacion superior a distancia: El caso de la UNAD Colombia: https://academia.unad.edu.co/images/investigacion/hemeroteca/revistainvestigaciones/vol.%208_num._2_2009/An%C3%A1lisis%20sobre%20la%20deserci%C3%B3n%20en%20la%20educaci%C3%B3n%20superior%20a%20distancia%20y%20virtual%20el%20caso%20de%20la%20unad%20-%20col

Claudia, B. M. (16 de Noviembre de 2012). Colombia Aprende. Recuperado el 16 de Abril de 2016, de Informe de resultados e impacto: http://www.colombiaaprende.edu.co/html/micrositios/1752/articles-336778_recurso_1.pdf

Jonathan, R. (8 de Diciembre de 2013). Blogspot. Recuperado el 16 de Abril de 2016, de Proyecto de grado - Ingenieria UNAD: http://proyectodegrado-ii2013-grupo32.blogspot.com.co/2013/12/unidad-2-decalogo-bernal.html

Katerin, B. (9 de Mayo de 2014). Prezi. Recuperado el 16 de Abril de 2016, de Experiencia, seguimiento y acompañamiento a los estudiantes: https://prezi.com/pa93b84g9xuq/experiencia-seguimiento-y-acompanamiento-a-los-estudiantes/

Pulzo. (2 de Octubre de 2015). Recuperado el 16 de Abril de 2016, de Las 10 universidades de Bogotá de las que más desertan los estudiantes: http://www.pulzo.com/bogota/las-10-universidades-de-bogota-de-las-que-mas-desertan-los-estudiantes-y-dos-napas/403451

Universidad Distrital Francisco Jose de Caldas. (5 de Octubre de 2015). Recuperado el 16 de Abril de 2016, de Las universidades de Bogotá con mas alto indice de deserción: http://forocsu.udistrital.edu.co/index.php/noticias-publisher/306-las-universidades-de-bogota-con-mas-altas-tasas-de-desercion

Universidad Nacional Abierta y a Distancia. (17 de Febrero de 2015). Recuperado el 16 de Abril de 2016, de Informe de gestión 2014: https://informacion.unad.edu.co/images/planeacion/documentos/INFORME_2014.pdf

Gonzalez, E. (s.f.). Aprender a Programar. Recuperado el Abril de 2016, de ¿Que es PHP?: http://www.aprenderaprogramar.com/index.php?option=com_content&id=492:ique-es-php-y-ipara-que-sirve-un-potente-lenguaje-de-programacion-para-crear-paginas-web-cu00803b&Itemid=193

Gonzalez, E. (s.f.). Aprender a Programar. Recuperado el Abril de 2016, de ¿Que es y para que sirve Javascript?: http://aprenderaprogramar.com/index.php?option=com_content&view=article&id=590:ique-es-y-para-que-sirve-javascript-embeber-javascript-en-html-ejercicio-ejemplo-basico-cu00731b&catid=69:tutorial-basico-programador-web-html-desde-cero&Itemid=192