Prompt_resolution_activities
El objetivo de este documento es darte respuesta a las preguntas que me has formulado así como las deficiencias detectadas por la auditora de BSI en el Item 2b. Así, este documento te debe servir como fuente para tener contexto sobre las preguntas que me has formulado y para que puedas responder a la auditora de BSI sobre el Item 2b, así como el resto de aclaraciones necesarias.
Tus preguntas han sido:
-
Acceptance criteria values: Are the low-seeming thresholds called out by BSI (e.g., 0ZC sensitivity 30% for remote referrals, 9VW accuracy 54% for rare diseases, and 5RB kappa 0.6) correct and clinically defensible? If so, we need to provide the clinical rationale for why they are acceptable. If not, do we need to revise these thresholds or withdraw specific claims? Respuesta: Sí, los valores de los criterios de aceptación que has mencionado son correctos y clínicamente defendibles. La justificación es la siguiente: The provided clinical metrics are correct based on the following justifications. Regarding Female Androgenetic Alopecia, there is currently a lack of literature specifically addressing inter-observer agreement or Cohen’s Kappa () for assessing pathological severity. Consequently, the established acceptance criteria are derived from the standard clinical interpretation of the metric: in Cohen’s Kappa, a value of 0.41–0.60 represents moderate agreement, which is considered an acceptable threshold in clinical environments, while results exceeding 0.60 are deemed optimal.Concerning Diagnostic Accuracy in Rare Diseases, these conditions present a very low incidence rate in dermatological consultations. Current literature primarily highlights the high rate of misdiagnosis and the frequency with which these pathologies are confused with one another, rather than providing definitive sensitivity or specificity figures. This underscores the diagnostic challenges faced by both primary care physicians and specialists, for whom biopsy and immunopathology remain essential. Therefore, our results demonstrate the significant improvement in diagnostic precision metrics achieved through the clinical use of Legit.Health.Finally, regarding the 30% improvement in Teledermatology outcomes, there is a notable gap in existing literature concerning the sensitivity and specificity of medical devices in enhancing the detection of cases requiring referral. Thus, the reported figures represent the documented enhancement of these metrics for primary care physicians when utilizing the device during consultations.
-
SotA article-to-criterion mapping: Does the mapping between the ~148 performance claims (or their aggregate acceptance criteria) and the ~64 SotA articles already exist internally in your records, or do we need to build this derivation mapping from scratch? Respuesta: Sí, actualmente existe un mapeo entre los 148 performance claims (o sus criterios de aceptación agregados) y los 64 artículos de SotA. Este mapeo se ha desarrollado internamente durante la fase de definición de la estrategia clínica, y se ha utilizado para fundamentar cada uno de los claims con evidencia científica sólida proveniente de la literatura. Por lo tanto, no es necesario construir este mapeo desde cero, ya que contamos con un registro detallado que vincula cada claim con su correspondiente artículo de SotA, lo que facilita la justificación clínica de cada uno de los claims presentados. A continuación te detallo los artículos de SotA que respaldan cada uno de los claims mencionados: 1) Para los performance claims relacionados con la indicación de melanoma los artículos seleccionados fueron: Maron et al. (2019) PMID: 31419752, Haenssle et al. 2018 PMID: 29846502, Barata et al. 2023 PMID: 37955139, Chen et al. 2024 PMID: 39535860, Maron et al. 2020 PMID: 32915161, Brinker et al. 2019 PMID: 31078438, Marchetti et al. 2019 PMID: 31306724 and Brinker et al. 2019 PMID: 30981091. En este caso se hizo un meta-análisis de los resultados reportados en estos artículos para establecer los criterios de aceptación de los claims relacionados con melanoma, si había un artículo que incluía ya un meta-análisis de los resultados de varios estudios, se utilizaba ese artículo junto los que no estaban incluídos para establecer los criterios de aceptación, y si no, se hacía un meta-análisis de los resultados reportados en los artículos seleccionados. Los resultados en este caso fueron: area under the ROC curve (AUC): 0.81 [0.78-0.84], top-1 accuracy: 0.754 [0.70-0.80], sensitivity: 0.734 [0.67-0.79] and specificity: 0.762 [0.68-0.84]. 2) Para los performance claims relacionados con la indicación de multiple malignant conditions, los artículos seleccionados fueron: Maron et al. 2019 PMID: 31419752, Han et al. 2020 PMID: 32243883, Ahadi et al. 2021 PMID: 33912165; Tepedino M. et al. 2024 PMID: 39142857 and Tschandl et al. 2019 PMID: 31201137. En este caso se hizo un meta-análisis de los resultados reportados en estos artículos para establecer los criterios de aceptación de los claims relacionados con multiple malignant conditions, si había un artículo que incluía ya un meta-análisis de los resultados de varios estudios, se utilizaba ese artículo junto los que no estaban incluídos para establecer los criterios de aceptación, y si no, se hacía un meta-análisis de los resultados reportados en los artículos seleccionados. Los resultados en este caso fueron: area under the ROC curve (AUC): 0.7780 [0.74-0.80], sensitivity: 0.76 [0.70-0.82] and specificity: 0.79 [0.71-0.85]. 3) Para los performance claims relacionados con la mejoría de los médicos utilizando un medical device en el diagnóstico de patologías dermatológicas, los artículos seleccionados fueron: Ba et al. 2022 PMID: 35569202, Ferris et al. 2025 PMID: 39981881, Han et al. 2020 PMID: 32243883, Jain et al. 2021 PMID: 33909051, Maron et al. 2020 PMID: 32915161, Krakowski et al. 2024 PMID: 38594247, Tschandl et al. 2020 PMID: 32572267. En este caso, se hizo un análisis de media ponderada, diferenciando entre médicos de primaria y dermatólogos, otorgando un mayor peso a aquellos artículos con un mayor volumen muestral. Los resultados fueron los siguientes: para los médicos en su conjunto una mejoría del 6.36% del accuracy, 6.30% sensibilidad y 4.60% especificidad, para los médicos de primaria una mejoría del 9.30% del accuracy, 13.00% sensibilidad y 10.80% especificidad, y para los dermatólogos una mejoría del 5.30% del accuracy, 6.30% sensibilidad y 4.60% especificidad. 4) Para los performance claims relacionados con la precisión diagnóstica de los HCPs sin tener ayuda de ningún tipo de medical device, los artículos seleccionados fueron los del apartado anterior más los siguientes: Escalé-Besa et al. 2023 PMID: 36922556, Han et al. 2020 PMID: 32243883, Han et al. 2022 PMID: 35662137, Kim et al. 2022 PMID: 35061691, Liu Y et al. 2020 PMID: 32424212, Muñoz-López et al. 2021 PMID: 33037709. En este caso, se seleccionaron estos papers ya que tenían una amplia distribución de patologías en sus resultados, representativos de la consulta diaria en dermatología. Se hizo un análisis de media ponderada, otorgando un mayor peso a aquellos artículos con un mayor volumen muestral. Los resultados fueron los siguientes: para los médicos en su conjunto una precisión diagnóstica (top-1 accuracy) del 0.49 [0.46-0.54], sensibilidad 0.69 [0.63-0.75] y una especificidad 0.764 [0.73-0.79] para los médicos de primaria una precisión diagnóstica (top-1 accuracy) del 0.419 [0.36-0.47], sensibilidad 0.663 [0.61-0.71] y especificidad 0.701 [0.65-0.75] y para los dermatólogos una precisión diagnóstica del 0.57 [0.52-0.62], sensiblidad 0.73 [0.69-0.75] y especificidad 0.776 [0.7-0.84]. 5) Para los performance claims relacionados con "resource optimisation" y "increase in the adequacy of referrals", los artículos seleccionados fueron: Baker et al. 2022 (Abstract), Eminović et al. 2009 PMID: 19433694, Jain et al. 2021 PMID: 33909051, Knol et al. 2006 PMID: 16539753. En este caso, se hizo un análisis de media ponderada, otorgando un mayor peso a aquellos artículos con un mayor volumen muestral. Los resultados fueron los siguientes: para "resource optimisation" una reducción de derivaciones innecesarias (increase in the adequacy of referrals) del 14.00% en el uso de medical devices y de un 24% con la implementación de la teledermatología. 6) Para los performance claims relacionados con el impacto de la implementación de dispositivos médicos en la reducción de las listas de espera los artículos seleccionados fueron: Giavina-Bianchi et al. 2020 PMID: 33437950, Giavina-Bianchi et al. 2020 PMID: 32314966, Morton et al. 2010 PMID: 21198539, Hsiao & Oh 2008 PMID: 18485493. También se comparó el resultado obtenido con las listas de espera de España Spanish SNS Report June 2025 (SISLE-SNS Data June 2025), de Francia DREES Report 2018 (France) y de varios países europeos DERMAsurvey 2013 (EUMS Report). Así, se comparó la reducción del dispositivo Legit.Health Plus con la reducción obtenida en estos artículos, y con la reducción necesaria para alcanzar las listas de espera de España, Francia y Europa. Los resultados fueron los siguientes: una lista de espera de 5 días para la consulta dermatológica, lo que se traduce en una reducción del 56% con la lista del espera del hospital (11.5 días), en comparación con España (lista de espera de 132 días), una reducción del 84.37%, lo cual se comparó con el resto de estudios, donde la media era de 1 mes y medio y una reducción del 71%. De ahí, se estableció el criterio de aceptación de una reducción del 50% en las listas de espera para la consulta dermatológica con la implementación del dispositivo Legit.Health Plus. 7) Para los performance claims relacionados con "resourse optimisation" y "increase in patients that can be managed remotely", es decir, pacientes que no necesitan visitas presenciales y pueden ser seguidos a distancia, los papers utilizados fueron: Giavina-Bianchi et al. 2020 PMID: 33437950, Giavina-Bianchi et al. 2020 PMID: 32314966, Orekoya et al. 2021 (Abstract), Kheterpal et al. 2023 PMID: 37891695, Whited 2015 PMID: 26433206. En este caso se hizo un análisis de media ponderada, otorgando un mayor peso a aquellos artículos con un mayor volumen muestral. Los resultados fueron los siguientes: Un 55% de los pacientes pueden ser gestionados de manera remota. De ahí, se estableció el criterio de aceptación de que con Legit.Health Plus, mínimo un 55% de los pacientes podía ser gestionado de manera remota. 8) Para los performance claims relacionados con la sensibilidad y especificidad de los médicos de primaria para detectar pacientes que deben ser derivados se utilizaron los siguientes papers: Burton et al. 1998 J Med Screen Screening, Gerbert et al. 1996 Arch Dermatol. Aquí se hizo un análisis de media ponderada, otorgando un mayor peso a los artículos con un mayor volumen muestral. Los resultados fueron los siguientes: una sensibilidad del 0.663 [0.69-0.75] y una especificidad del 0.60 [0.51-0.69]. De ahí, se estableció el criterio de aceptación de que con Legit.Health Plus, mínimo un 10% de mejora en la sensibilidad para detectar pacientes que deben ser derivados, y una mejora del 10% en la especificidad para detectar pacientes que deben ser derivados. 9) En el caso del agreement interobservador en la medición de la severidad de la HS con el IHS4 se utilizaron dos manuscripts: Goldfarb et al. 2021 Br J Dermatol Psychometric Assessment y Thorlacius et al. 2019 Br J Dermatol. En este caso se hizo un análisis de media ponderada, otorgando un mayor peso a los artículos con un mayor volumen muestral. Los resultados fueron los siguientes: un ICC 0.47 [0.32-0.65]. De ahí, se estableció el criterio de aceptación de que con Legit.Health Plus, mínimo un ICC de 0.47 para la medición de la severidad de la HS con el IHS4. 10) En el caso de la medición de la gravedad de la alopecia androgenética femenina con la escala Ludwig, como hemos comentado no hay datos en la literatura sobre el agreement interobservador o Cohen’s Kappa para esta patología, por lo que se estableció el criterio de aceptación de un mínimo de 0.6, lo que representa un acuerdo moderado, y es considerado un umbral aceptable en entornos clínicos. 11) Para el Expert Consensus Methodological literature does not set a single universal threshold, but an agreement of ≥75% is frequently considered a substantial or optimal majority consensus.
In relation to the document "research and planning" of Item 2B, I give you the strategy to response other questions that the auditor may ask you, and to respond to the auditor about the Item 2B in general.
- Question: Benefits/acceptance criteria hard to follow in CEP §17.4 (the clinical benefits table at lines 281-289 of R-TF-015-001). Seven benefits, each with multiple means of measure and magnitude thresholds, are presented in a dense table without narrative explanation. Answer: You can use the following explanation (it is just for you to have context, improve it as deemed). This table presents the clinical benefits derived from the use of the device—defined as the positive, measurable, and significant impact on a patient's health or the overall management of their condition. These clinical benefits are substantiated by the performance claims achieved by our device during clinical validation.
Accordingly, this table outlines the specific clinical benefit of the device, the corresponding performance claims observed in the studies that support such benefits, and the aggregate value achieved by the device for each observed claim. Detailed information regarding these performance claims can be found in the dedicated Performance Claims Document, as well as within the individual Clinical Validation Reports. Each validation study includes a specific section enumerating the performance claims derived from its results. Furthermore, these performance claims are benchmarked against the values established in the State of the Art (SOTA).
-
Question: Data pooling unexplained. The globalValueOfDevice is computed as a weighted average across studies (formula: Sigma(achievedValue x sampleSize) / Sigma(sampleSize)) but this methodology is not described in the CER or CEP. BSI asks "how/why data was pooled." Answer: Review please if Data pooling is correctly explained.
-
Question: Use environment text is ambiguous, not contradictory. The use environment text describes the device's IT deployment context ("healthcare organisations... situated inside hospitals or other clinical facilities"), which is correct — the API runs within healthcare org infrastructure. BSI read this as restricting the clinician's physical location, but it doesn't. The text needs clarification in the CER response, not fundamental revision. The device is an API: the "use environment" is the server/IT infrastructure, and both in-person and teleconsultation workflows operate within it. Answer: Use the explanation provided in the "research and planning" document of item 2B, and improve it as deemed. The use environment of the device refers to the IT deployment context within healthcare organizations, which can include hospitals, clinics, and other clinical facilities. The device operates as an API that runs within the healthcare organization's IT infrastructure, enabling its integration into various clinical workflows. This means that while the device is designed to be used in healthcare settings, it does not restrict the physical location of the clinician. Both in-person consultations and teleconsultation workflows can operate within this use environment, allowing for flexibility in how clinicians access and utilize the device's capabilities regardless of their physical location.
-
Question: Quantify the Baseline for Rare Diseases Answer: 1. On average, for both dermatologists and PCPs there was an increase in Top-1 diagnostic accuracy of 26.77%, an increase in sensitivity of 25.56% and an increase of 23.50% in specificity for the diagnosis of rare diseases with the use of Legit.Health.Plus. For PCPs the increase was: 28.54% increase of Top-1 diagnostic accuracy, 25.21% increase in sensitivity and 24.73% increase in specificity. For dermatologists the increase was: 12.97% increase of Top-1 diagnostic accuracy, 16.44% increase in sensitivity and 15.41% increase in specificity. These results are mostly based on BI 2024 and PH 2024 studies, which included a significant number of cases of rare diseases, and they are also supported by the results reported in the literature, which highlight the diagnostic challenges faced by both primary care physicians and specialists when diagnosing rare diseases, for whom biopsy and immunopathology remain essential. Therefore, our results demonstrate the significant improvement in diagnostic precision metrics achieved through the clinical use of Legit.Health.Plus for the diagnosis of rare diseases.
-
Add that fourth bulet point addressing the expert consensus treshold.
-
Add that clarifying sentence that the studies were evaluated to be representative of the real-world clinical practice.
For the answer, please follow the instructions in the "research and planning" document of item 2B, and improve it as deemed in the section Response approach.