
Para considerar qué son los datos semiestructurados, comencemos con una analogía: entrevistas.
Digamos que está realizando una entrevista semiestructurada. Esto, como su nombre lo indica, se encuentra en algún lugar entre una entrevista estructurada y no estructurada.
Por contexto, una entrevista estructurada es aquella en la que las preguntas que se hacen, así como el orden en que se hacen, están predeterminadas por su equipo de recursos humanos y son consistentes para cada candidato. Una entrevista no estructurada, por otro lado, es aquella en la que las preguntas y el orden en que se hacen quedan a discreción del entrevistador, y podrían ser completamente diferentes para cada candidato.
Cuando considera estos dos extremos, puede comenzar a ver los beneficios de las entrevistas semiestructuradas, que son bastante consistentes y cuantitativas (como una entrevista estructurada), pero aún brindan al entrevistador una ventana para establecer una relación y solicitar seguimiento. preguntas.
Los datos semiestructurados son de naturaleza similar a una entrevista semiestructurada: no son tan desordenados ni descontrolados como los datos no estructurados, pero no son tan rígidos y fácilmente cuantificables como los datos estructurados.
¿Qué son los datos semiestructurados?
Los datos semiestructurados son información que no reside en una base de datos relacional ni en ninguna otra tabla de datos, pero que, sin embargo, tiene algunas propiedades organizativas para que sea más fácil de analizar, como las etiquetas semánticas. Un buen ejemplo de datos semiestructurados es el código HTML, que no restringe la cantidad de información que desea recopilar en un documento, pero aún impone la jerarquía a través de elementos semánticos.
Aquí, vamos a explorar la diferencia entre datos estructurados, semiestructurados y no estructurados para asegurarnos de que comprende bien los términos.
Datos estructurados, semiestructurados y no estructurados
Los datos estructurados se conocen como datos cuantitativos y son hechos y números objetivos que el software de análisis puede recopilar; este tipo de datos es fácil de exportar, almacenar y organizar en una base de datos como Excel o SQL. Los datos estructurados son valiosos porque puede obtener información sobre las tendencias generales ejecutando los datos a través de métodos de análisis de datos, como el análisis de regresión y las tablas dinámicas.
Aquí hay un ejemplo de datos estructurados en una hoja de Excel:

Alternativamente, los datos semiestructurados no se ajustan a las bases de datos relacionales como Excel o SQL, pero contienen cierto nivel de organización a través de elementos semánticos como etiquetas. Por ejemplo, considere HTML, que no restringe la cantidad de información que puede recopilar en un documento, pero impone una cierta jerarquía:

Este es un buen ejemplo de datos semiestructurados. Como puede ver, HTML está organizado a través de código, pero no se puede extraer fácilmente a una base de datos y no puede usar métodos tradicionales de análisis de datos para obtener información.
Finalmente, datos no estructurados, también conocidos como datos cualitativos. Cuando se trata de marketing, los datos no estructurados son cualquier opinión o comentario que pueda recopilar sobre su marca. Si bien lo que dicen sus consumidores es indudablemente importante, no puede extraer fácilmente datos analíticos significativos de esos mensajes.
Un ejemplo de datos no estructurados incluye respuestas de correo electrónico, como esta:

Eche un vistazo a Datos no estructurados vs. Datos estructurados: un resumen de 3 minutos para obtener más aclaraciones sobre los datos estructurados frente a los no estructurados.
Ejemplos de datos semiestructurados
- Correo electrónico
- Documentos CSV, XML y JSON
- Bases de datos NoSQL
- HTML
- Intercambio electrónico de datos (EDI)
- CDR