Según un artículo publicado recientemente por Forbes, un científico de datos desea explicar por qué la ciencia de los datos ha demostrado ser lenta en la identificación de biomarcadores particulares en pacientes médicos.
Imran Haque
Además de una impresionante lista de logros profesionales, Imran Haque tiene un doctorado en ciencias de la computación de la Universidad de Stanford. Esto es relevante principalmente porque la aplicación de inteligencia artificial y big data puede parecer un trabajo para un científico en computación, pero como explica Haque, en medicina, los problemas surgen antes de que una computadora incluso arranque.
En una conferencia de Rhode Island sobre grandes datos organizada por la Asociación Americana para la Investigación del Cáncer, Haque dio un discurso en el que identificó dos problemas centrales al aplicar la teoría tradicional de los grandes datos a la medicina.
Limitaciones Fisiológicas
Los seres humanos son bolsas de carne suaves y blandas, como han señalado rápidamente muchos villanos de ciencia ficción importantes. Nuestros cuerpos, en muchos casos, simplemente no son tan buenos para «alimentar» datos a los científicos.
Hasta ahora, los grandes datos se han recopilado principalmente en línea. Eso es lógico: como su nombre lo indica, se requieren enormes tamaños de muestra antes de que los algoritmos complejos puedan proporcionar cualquier tipo de información completa sobre un tema. La Internet proporciona a los investigadores millones de sujetos potenciales que producen un flujo de datos casi constante tan pronto como inician sesión. Por otro lado, las personas con ciertas enfermedades o afecciones pueden ser pocas y distantes entre sí.
Por ejemplo, la fibrosis quística, una enfermedad rara pero no desconocida, afecta a unas 30,000 personas en los Estados Unidos. Comparativamente, Facebook tiene un promedio de 1.49 billones de visitas por día. Cada publicación, cada inicio de sesión, cada día es un nuevo punto de trazado en un gráfico de datos grandes. Pero al recopilar un punto de datos para un paciente con fibrosis quística, puede llevar varias semanas realizar una sola prueba. Además de eso, a menudo hay limitaciones físicas al intentar recopilar información médica en esta escala.
Por ejemplo, cuando se trata de detectar tumores en una etapa temprana, podría tomar una muestra de sangre de hasta 80ml para producir una molécula única de ADN mutado que sugiera la presencia de un tumor. Indudablemente, se necesitarían muchas moléculas de ADN mutado de cada paciente para crear datos suficientes para aplicar los principios de big data, que requieren una gran cantidad de sangre durante un largo período de tiempo.
Limitaciones de la naturaleza del big data
Haque also pointed out that big data does not always yield satisfying, clear-cut answers as some seem to expect. Grandes datos se basa en el reconocimiento de patrones para ayudar a los investigadores a sacar conclusiones significativas sobre un tema dado, pero con demasiada frecuencia es más fácil decirlo que hacerlo encontrar patrones en la medicina.
Las variaciones entre los marcadores biológicos de los individuos pueden ser considerables. Esto puede crear la sugerencia de patrones que pueden no estar presentes o llevar a los científicos a sacar conclusiones inexactas sobre un tema dado, especialmente cuando el conjunto de datos de entrada es pequeño, como en la comunidad de enfermedades raras.
La simple determinación de los marcadores biológicos en los que se debe enfocar, así como la explicación de todas las diversas diferencias que pueden existir entre cualquiera de los dos sujetos que se están estudiando, sería una tarea monumental para los científicos de datos, y probablemente no arrojaría mucha evidencia concluyente de nada!
Ejercicio Escepticismo
Haque entiende que datos grandes es una tecnología tentadora. Parece que fue prometedor en tantas aplicaciones que, por supuesto, tratamos o aplicamos en nuestra medicina, pero hablo solo para escuchar algunas de las exageraciones. Los datos, que él señala, no son deshonestos. Pero qué datos se recopilan, cómo y por quién pueden ser engañosos.
Datos grandes y el aprendizaje automático casi siempre producen algún tipo de resultado, explicó Haque, pero a menudo producirá el resultado que «desea» en primer lugar. Si observa un conjunto de datos que espera encontrar algo, es probable que encuentre la forma de encontrarlo.
Independientemente de las reservas de Haque sobre la eficacia actual de los datos grandes en la medicina, muchos mantienen la esperanza de que la tecnología juegue un papel importante para ayudar a los médicos del futuro. ¿De qué manera podrían los datos pesados ser médicamente útiles en formas fuera de la observación de biomarcadores? ¡Comparta sus anécdotas, ideas y deseos con la comunidad Patient Worthy! Este artículo ha sido traducido al español lo mejor posible dentro de nuestras habilidades. Reconocemos que tal vez no hayamos captado todas las matices y especificidades de su región, por lo que si tiene alguna sugerencia o desea ayudarnos a refinar nuestras traducciones, envíe un correo electrónico a [email protected].