Bot educativo especializado en bioinformática que utiliza embeddings y la API de Fireworks para búsquedas inteligentes y análisis de documentos científicos. Creado por el estudiante de tercer año en Ingeniería en Bioinformátca Antonio Elias Sánches Soto de la Universidad de Ciencias Informáticas y el estudiante de segundo año en Ciencias de Datos Alberto Enrique Marichal Fonseca de la Universidad de La Habana.
- Comando
/ask: Respuestas generales usando modelos de lenguaje - Comando
/search: Búsqueda semántica usando embeddings de documentos - Descarga de documentos procesados para referencia
- Pipeline de procesamiento de PDFs con OCR (pytesseract + Pillow)
- Integración con Fireworks AI para generación de embeddings
- python-telegram-bot
- pymupdf
- requests
- python-dotenv
- numpy
- pyesseract
- pillow
- langchain
- scikit-learn
- pyPDF2
- Obtener API key de Fireworks AI
- Crear archivo
.env: TOKEN=tu_token_telegram FIRE=tu_api_key_fireworks - Instalar dependencias: pip install -r requirements.txt
| Comando | Descripción | Ejemplo |
|---|---|---|
/ask |
Consulta general sobre bioinformática | /ask Qué es un alineamiento múltiple? |
/search |
Búsqueda semántica en documentos | /search SNPs en genoma humano |
MASTERCR0W/
├── Bot/
│ ├── data/
│ ├── Libros/
│ ├── logs/
│ ├── .env
│ ├── ai.py
│ ├── bot_handler.py
│ ├── constants.py
│ ├── extract.py
│ ├── logger.py
│ └── main.py
├── logs/
├── .gitignore
├── README.md
└── requirements.txt
- Integración con SciHub para descarga de papers
- Módulo de análisis de secuencias con Biopython
- Búsqueda federada en bases de datos biológicas
- Visualización de estructuras proteicas
- Informaciones de interés para la comunidad (guía a GitHub Students, cursos de Coursera, etc)
¡Contribuciones son bienvenidas! Por favor:
- Haz fork del repositorio
- Crea una rama con tu feature (
git checkout -b feature/awesome-feature) - Haz commit de tus cambios
- Push a la rama
- Abre un Pull Request