Clasificación de rutas en fábricas de obleas de semiconductores

Scientific Reports volumen 13, número de artículo: 13267 (2023) Citar este artículo

150 Accesos

Detalles de métricas

Desarrollamos un método para estimar la calidad de las rutas de procesamiento en un proceso de fabricación de obleas. Clasificar dichas rutas puede resultar útil para identificar las "mejores" y las "peores" rutas al realizar ajustes en las recetas. La categorización de rutas también es útil para desarrollar algoritmos de programación eficientes. En particular, proponemos un método para clasificar rutas basándose en métricas basadas en recuentos, como el número de defectos en una oblea. Comenzamos con un modelo estadístico para producir una clasificación "local" de una herramienta y luego construimos una clasificación "global" mediante un procedimiento heurístico. Crear un procedimiento totalmente estadístico para clasificar rutas en plantas de fabricación de semiconductores es prácticamente imposible, dado el número de rutas posibles y los datos limitados disponibles. No obstante, nuestras conversaciones con ingenieros en activo indican que incluso las clasificaciones aproximadas son útiles para tomar mejores decisiones operativas.

En este artículo, desarrollamos un método para estimar la calidad de las rutas de procesamiento en un proceso de fabricación. Este trabajo se inspiró en la situación de una típica fábrica de obleas de semiconductores, pero el método podría utilizarse en cualquier sector. Sin embargo, parte de nuestra terminología y enfoque dependen del área de aplicación que tenemos en mente.

Una instalación de fabricación de semiconductores se conoce como fábrica. Normalmente, un proceso de fabricación de semiconductores consiste en obleas semiconductoras (las entidades que se fabrican) que se mueven a través de una secuencia de herramientas (o equipos o máquinas) en un orden preespecificado, de modo que cada herramienta pueda procesarlas adecuadamente. Este orden preestablecido de herramientas se denomina ruta en la industria de fabricación de semiconductores. Cada herramienta en la ruta también tiene una configuración predeterminada para obtener obleas de una determinada calidad. En conjunto, la ruta y la configuración preespecificada para cada herramienta en esa ruta se denominan receta.

En una fábrica de semiconductores, normalmente hay varias herramientas que se pueden elegir para completar un paso determinado del proceso de producción. Una receta, como se describió anteriormente, consta de un orden específico de los pasos de fabricación más la configuración de las herramientas en cada paso. Clasificar dichas rutas puede resultar útil por varios motivos. En primer lugar, la identificación de las “mejores” y “peores” rutas es útil a la hora de investigar recetas. Específicamente, cuando se realizan ajustes en la configuración de las herramientas, es útil identificar las mejores y peores rutas en el proceso existente, ya que es probable que proporcionen buenos límites de rendimiento para la receta ajustada. En segundo lugar, la categorización de rutas puede usarse para ayudar a una programación eficiente. Por ejemplo, la clasificación de la ruta se puede utilizar como un factor para despachar trabajos a medida que avanzan en el proceso de fabricación.

Desarrollamos un método para clasificar rutas para métricas basadas en recuentos, en el que la métrica toma valores que son enteros no negativos y para los cuales los valores más bajos son mejores. En particular, 0 es el mejor valor posible de la métrica. El ejemplo computacional considerado en este artículo se relaciona con el recuento de defectos en una oblea.

En general, nuestro método comienza desarrollando una clasificación "local" de una herramienta y luego construye una clasificación "global" mediante un procedimiento heurístico. Tenga en cuenta que no siempre es posible clasificar las herramientas directamente a partir de, por ejemplo, datos de defectos, porque estos datos a menudo no se recopilan hasta que un producto ha pasado por varios pasos de procesamiento. Por tanto, debemos estimar la correlación entre los defectos y las elecciones de herramientas. De manera similar, crear un procedimiento estadístico detallado para clasificar rutas en semiconductores es prácticamente imposible, dado el número de rutas posibles y los datos limitados disponibles. No obstante, nuestras conversaciones con los ingenieros en activo indican que incluso una clasificación aproximada es útil para tomar mejores decisiones operativas en la fábrica.

El resto del documento está organizado de la siguiente manera. En “Revisión de la literatura”, repasamos brevemente los trabajos anteriores relacionados. En "Clasificación de rutas basada en recuento", proponemos dos algoritmos de clasificación para datos de recuento: clasificación basada en regresión de recuento y clasificación basada en probabilidad binaria. En "Ejemplos computacionales", ilustramos los algoritmos utilizando algunos ejemplos computacionales y comparamos los resultados de los dos algoritmos de clasificación. Finalmente, concluimos el artículo en "Conclusión" con sugerencias sobre cuándo utilizar un algoritmo de clasificación frente al otro.

Parece haber relativamente poco trabajo previo sobre la clasificación de rutas en la industria manufacturera. Chang et al.1 utilizan el proceso de jerarquía analítica (AHP) para clasificar tres herramientas de corte según su precisión. Además, analizan qué tan sensible es esta clasificación a los pesos de los criterios seleccionados por quien toma las decisiones. De manera similar, Chang et al.2 construyen un AHP difuso modificado (FAHP) para clasificar herramientas según las ponderaciones de criterios seleccionados y analizar la sensibilidad de estas prioridades a los criterios. Chang et al.3 examinan tres herramientas de corte de diamantes utilizando el proceso de red analítica (ANP), una generalización de AHP. Clasifican estas herramientas en orden creciente según el tiempo necesario para su examen y seguimiento. El objetivo de los tres artículos antes mencionados es encontrar la máquina con mayor precisión que aumente el rendimiento y reduzca el coste de fabricación. Lo hacen intentando identificar las características y criterios que afectan la calidad de fabricación. Una fortaleza de su análisis es que utilizan AHP, que puede combinar factores cualitativos y cuantitativos en la clasificación.

Rao y Patel4 abordan un problema similar, que aborda la clasificación de opciones de herramientas de fabricación alternativas utilizando el método de organización de clasificación de preferencias para evaluaciones de enriquecimiento (PROMETHEE) integrado con AHP y lógica difusa. El artículo propone el uso de un método PROMTHEE mejorado que utiliza AHP para calcular la importancia relativa de diferentes criterios. Por tanto, estas ponderaciones se basan en las preferencias de quienes toman las decisiones. Además, PROMTHEE también implica el uso de una función de preferencia para quien toma las decisiones. Un beneficio de utilizar PROMTHEE es que permite tantos criterios cualitativos y cuantitativos como se desee y sea computacionalmente factible. Además, tiene en cuenta la importancia relativa de estos criterios. Chakraborty5 clasifica los sistemas de fabricación avanzados utilizando análisis envolvente de datos para identificar un grupo homogéneo de sistemas "buenos" y luego utiliza sus diferencias técnicas para distinguirlos aún más. También sopesa estos atributos técnicos en función de su importancia y luego propone una clasificación final. Esta metodología proporciona un ranking completo de las alternativas de mejor a peor y también tiene en cuenta las preferencias del usuario.

Chien et al.6 utilizan las pruebas de Kruskal-Wallis y de comparación múltiple para diferenciar y reconocer herramientas problemáticas y normales basándose en la pérdida de rendimiento. Luego realizan ANOVA y análisis de regresión sobre los datos extraídos de pérdida de rendimiento para identificar la relación causal entre el rendimiento y las herramientas (niveles) problemáticas en diferentes etapas del proceso (factores). El proceso recomendado no implica directamente la preferencia de quien toma las decisiones en ningún lugar, lo que tiene ventajas y desventajas. Recomiendan que quien toma las decisiones evalúe en todo momento los resultados revisando los datos de pérdida de rendimiento identificados y los procesos clave para asegurarse de que no falte nada.

Hessinger et al.7 sugieren métodos para seleccionar qué herramientas utilizar para analizar el origen de los defectos en función de la sensibilidad de la herramienta de inspección. Los métodos sugeridos giran en torno a la pérdida de rendimiento. También sugiere métodos para mejorar la eficacia de la inspección mediante el filtrado y la clasificación del tipo de defecto. Sin embargo, el objetivo de este artículo no es clasificar o comparar herramientas explícitamente.

Madic et al.8 proponen el uso de la técnica de toma de decisiones multicriterio (MCDM) de rango de valor (ROV) para clasificar los fluidos de corte. Aunque el ROV está en gran parte inexplorado, los autores defienden su simplicidad computacional en comparación con otros métodos MCDM. Wang y cols. proponer un índice de evaluación para clasificar los esquemas de reconfiguración alternativos de manera que refleje tanto las ventajas como las desventajas de las configuraciones. El sistema de índice se desarrolla utilizando PROMTHEE I y PROMTHEE II y se utiliza para clasificar las distintas configuraciones.

Nestic et al.9 proponen un modelo de toma de decisiones difuso para clasificar los procesos de fabricación desde una perspectiva de gestión de calidad en la industria automotriz, similar a la clasificación basada en el número de defectos en este artículo. Sin embargo, el objetivo de su modelo es diferente y es mejorar la gestión de la calidad a través de una extensión difusa de Eliminación y Elección Traduciendo la Realidad III (ELECTRE III, una familia de MCDM). Este modelo evalúa y clasifica los subprocesos de fabricación con respecto a indicadores clave de rendimiento.

Khaira y Dwivedi10, al igual que en este artículo, destacan la importancia de identificar las herramientas con mejor y peor rendimiento. Sin embargo, su atención se centra principalmente en el peor rendimiento, a lo que se refieren como “críticos”, ya que están motivados para ayudar en el mantenimiento de sus modelos. Proponen una toma de decisiones en dos pasos para identificar la sección crítica y luego el equipo crítico en esa sección en una planta de fabricación de electrodos de grafito, una metodología de normalización para el proceso de jerarquía analítica (AHP) y un método de validación basado en PROMETHEE.

Lyu et al.11 proponen utilizar la prueba de independencia chi-cuadrado, el algoritmo Apriori y el método del árbol de decisión para identificar el subproceso que causa productos defectuosos y extraer reglas para identificar la identificación del lote de defectos del producto y sus parámetros de proceso de fabricación asociados. Para el análisis utilizan la tecnología de Internet de las cosas (IoT) para recopilar datos de fabricación.

Elvis et al.12 utilizan MCDM aplicando el método Delphi para decidir dónde colocar una nueva herramienta o tecnología en el proceso de fabricación del automóvil.

Los artículos antes mencionados se centran en analizar el origen de los defectos, ayudar en la gestión y eliminar herramientas de bajo rendimiento. Nuestros objetivos difieren de estos en que el objetivo principal de este documento es clasificar rutas en un sistema con muchas herramientas y, por lo tanto, muchas rutas potenciales, pero cuando hay una cantidad de datos comparativamente mucho menor disponible.

Nuestro objetivo es permitir que un ingeniero elija una de las mejores rutas potenciales para probar nuevas recetas. Los algoritmos que proponemos no integran la preferencia de quien toma las decisiones hasta el final, e incluso entonces esto es opcional. Por lo tanto, nuestro método es más flexible que muchos métodos desarrollados anteriormente porque quien toma las decisiones tiene la opción de no alterar el modelo en absoluto y utilizar una clasificación totalmente algorítmica producida por nuestro modelo. Además, las preferencias de quien toma las decisiones no se toman por las herramientas que se clasifican o los pasos involucrados en el proceso, sino por la importancia relativa de los defectos entre sí. De hecho, incorporamos la preferencia de quien toma las decisiones como un peso para un defecto particular. Esto se hace por separado para cada defecto y luego se suman todas las puntuaciones ponderadas.

Como se mencionó anteriormente, una receta es un conjunto específico de pasos y configuraciones de herramientas necesarios para producir un dispositivo. En la mayoría de los casos, cada paso se puede realizar con diferentes herramientas dentro de un grupo de herramientas. Estas herramientas suelen tener capacidades y características de rendimiento ligeramente diferentes. Aquí, y en las secciones siguientes, asumimos que se han analizado varias obleas con rutas conocidas. Tenga en cuenta que, a efectos prácticos, una ruta suele ser sólo una pequeña porción de la receta completa de una oblea.

En esta sección, desarrollamos algoritmos de clasificación cuando la métrica de interés es un recuento (es decir, un número entero no negativo). A lo largo del análisis asumimos que un recuento más bajo es mejor. Por lo tanto, estas técnicas tienen sentido al examinar el número de defectos en una oblea, donde lo ideal es un recuento cero. Para ser más concretos, asumimos que los datos proporcionados consisten en la ruta seguida por una oblea, junto con el número de diferentes tipos de defectos incurridos por oblea después de que la oblea haya completado los pasos de producción incluidos en la ruta. Desarrollamos dos algoritmos de clasificación basados en conteo: (1) el algoritmo de regresión de conteo y (2) el algoritmo de clasificación binaria.

También cabe señalar que en muchos procesos existe una gran cantidad de productos con “ceros excesivos” desde el punto de vista de los modelos básicos basados en Poisson. Esta dispersión puede ser difícil de capturar utilizando técnicas como agregar variables de interacción, variables adicionales e incluso eliminar valores atípicos. Los métodos de regresión de conteo, como veremos en la siguiente sección, nos permiten capturar efectivamente esta sobredispersión y producir mejores modelos.

Realizamos una regresión para cada tipo de defecto por separado con cada herramienta de acuerdo con el modelo de regresión que se describe a continuación. Supongamos que el conjunto de datos tiene m pasos. Sea \({n_{j}}\) el número de herramientas en el paso \(j \in \{1,2,\ldots ,m\}\), \(l \in \{1,2,\ ldots ,{n_{j}}\}\) sea la l-ésima herramienta del paso j, y supongamos que hay d diferentes tipos de defectos. Para la l-ésima herramienta del j-ésimo paso, sea \({n_{jl}}\) el número de puntos de muestra correspondientes de nuestro conjunto de datos y sea \(I_{jl}\) el conjunto de índices de estos puntos de muestra ( donde un "punto de muestra" se refiere a una ruta tomada por una de las obleas y los datos de defectos asociados en el conjunto de datos). Para el enésimo punto de muestra en nuestros datos, sea \(y_{is}\) el número de defectos de tipo i en los puntos de muestra (o ruta) del conjunto de datos, es decir, \(y_{is} \in \ mathbb {Z^{+}}\), donde \(\mathbb {Z^{+}}\) denota el conjunto de números enteros no negativos. Sea \(\mu _{ijl}\in \mathbb {R^{+}}\) el número promedio de defectos de tipo i detectados en las obleas que se procesaron en la herramienta l del paso j, donde \(\mathbb { R^{+}}\) denota el conjunto de reales no negativos. Entonces,

También definimos \(\mu _{ij}\in \mathbb {R^{+}}\) de la siguiente manera:

Definamos las variables ficticias \(X_{{jl}}\) de la siguiente manera:

Entonces, el modelo de regresión de conteo para predecir el número promedio de defectos de tipo i asociados con el paso j viene dado por:

donde \(g(\cdot )\) es la función de enlace para la regresión de conteo y los \(\beta _{ijl}\) son los coeficientes de regresión de las variables ficticias \(X_{{jl}}\) . La función de enlace puede variar según el modelo particular que se utilice. Cada \(\beta _{ijl}\) se estima utilizando su correspondiente estimación de máxima verosimilitud \(\widehat{\beta }_{ijl}\). La intersección \(\beta _{ij1}\) indica el efecto de la primera herramienta del jésimo paso (\(j \in \{1,2,\ldots ,m\}\)).

El objetivo de este modelo es ayudarnos a determinar el efecto relativo de las diferentes herramientas y los pasos correspondientes sobre los defectos. Para determinar la contribución relativa de una herramienta individual dentro de un paso particular sobre el número de defectos, establecemos la variable ficticia correspondiente a esa herramienta en 1 y las variables ficticias correspondientes a todas las demás herramientas en ese paso en 0. Por lo tanto, si \(X_ {j\tilde{l}}=1\) para alguna herramienta \(\tilde{l}\) del paso j y \(X_{j{l}}=0 \ \forall \ l \ne \tilde{l }\) luego la ecuación. (4) se reduce a:

Procedimiento para clasificar rutas basándose en datos de recuento de defectos mediante regresión de recuento.

Habiendo descrito cómo interpretar nuestro modelo, procedemos ahora al desarrollo del algoritmo. El primer paso es encontrar un modelo de regresión que describa mejor los datos del recuento de defectos. El algoritmo desarrollado para lograr esto (representado en la Fig. 1) comienza con una regresión de Poisson, que modela el logaritmo del valor esperado de los conteos. Un modelo de regresión general de Poisson con un vínculo logarítmico es:

Nuevamente usando (5), para una herramienta particular l tenemos:

Por lo tanto, la probabilidad marginal de incurrir en y defectos de tipo i como efecto de la herramienta l del paso j (nota: esto no significa que sea un resultado directo de la herramienta l) se puede determinar usando la tasa \(\mu _{ij{ l}}\) obtenido anteriormente mediante una función de masa de probabilidad de Poisson (pmf):

En este modelo necesitamos verificar si hay sobredispersión en los datos de defectos porque la media y la varianza de un modelo de conteo con un enlace de Poisson deben ser las mismas. Estimamos la sobredispersión utilizando la media y la varianza de la muestra, \(\widehat{\mu }\) y \(\widehat{\sigma }^2\), respectivamente, de todo el conjunto de datos de defectos. Los datos de defectos se clasifican como sobredispersos si \({\widehat{\sigma }^2} > {\widehat{\mu }}\) o \(\frac{\widehat{\sigma }^2}{\widehat{ \mu }} > 1\). Esta última expresión se llama estadístico de dispersión. El análisis de sobredispersión depende de tres cosas: (1) el valor de la estadística de dispersión, (2) el número de observaciones en el modelo y (3) la estructura de los datos.

Para el tamaño del conjunto de datos con el que trabajamos (\(\aproximadamente 1000\) puntos de muestra) y según las recomendaciones de la literatura, se permite una ligera sobredispersión siempre que no supere 1,2513.

Si la dispersión es mayor que 1,25, comenzamos modificando primero el modelo de regresión de Poisson utilizando un ajuste de cuasi verosimilitud.

Si el modelo no está sobredispersado, entonces el estadístico \(\chi ^{2}\) de Pearson para una muestra de tamaño n es:

Si los datos no son demasiado escasos y el modelo es correcto, entonces \(P^{\chi ^{2}}_{ij} \sim \chi ^{2}_{n-n_{p}}\), donde \(n_{p}\) es el número de parámetros que se estiman. Si \(P^{\chi ^{2}}_{ij}\) indica falta de ajuste pero el número estimado de defectos, \(\mu _{ijl}\), está suficientemente cerca del valor real del defecto, \(y_{is,s \in I_{jl}}\), es decir, el modelo tiene un error cuadrático medio bajo o un valor R cuadrado ajustado alto, entonces la varianza muestral podría no estar capturando correctamente la varianza poblacional verdadera de la datos (asumiendo que los datos siguen una distribución de Poisson)14. También es típico en tal caso que el modelo esté sobredispersado, es decir:

En este caso, una solución razonable es suponer que la varianza es un factor multiplicativo de la varianza poblacional supuesta para una distribución de Poisson, es decir, \(var(y_{s}) = \phi \cdot \mu\) para alguna constante \(\phi \in \mathbb {R}\). El modelo con este ajuste se llama modelo cuasi-Poisson e implica el siguiente pequeño ajuste al estadístico chi-cuadrado de Pearson:

donde \(\tilde{P}^{\chi ^{2}}_{ij}\) es el estadístico chi-cuadrado de Pearson modificado.

Dado que una variable aleatoria \(\chi ^{2}_{n-n_{p}}\) tiene un valor esperado \(n-n_{p}\), una forma sencilla de estimar la dispersión es encontrar un \(\ widehat{\phi }_{ij}\) que hace que el estadístico chi-cuadrado de Pearson sea igual a la media de la distribución que sigue. Así fijamos:

Ahora, para ver cómo afecta este ajuste al modelo y las estimaciones asociadas, observamos que la distribución de Poisson pertenece a la familia exponencial de distribuciones dada por:

donde \(\theta = \log (\mu )\), \(\psi =\mu\), \(b(\theta ) = \mu\), \(\phi = 1\), \(\ alfa (\phi )=1\) y \(C(y; \phi ) = - \log (y!)\). El ajuste de varianza \(\phi\) dado por (12) es el parámetro de dispersión \(\phi\) en (13). En consecuencia, este ajuste de varianza modifica (13) a la familia exponencial \(f(y; \theta , \widehat{\phi })\), que puede que ya no se integre a la unidad y debe considerarse simplemente una modificación útil de la función de verosimilitud. \(l(\cdot ) = log(f(\cdot ))\)(ver 14). Sin embargo, la pregunta principal es: ¿cómo afecta esta transformación a nuestras estimaciones de parámetros en el modelo de regresión de conteo dado por (4)? Las estimaciones para el modelo de regresión de Poisson original dado por (4) se obtienen mediante el método de estimación de máxima verosimilitud (MLE). Por lo tanto, se denominan estimaciones MLE y se puede demostrar que se obtienen poniendo a cero las siguientes derivadas parciales para cada herramienta l en cada paso j para cada defecto:

donde \({\varvec{\beta _{ijl}}}\) y \({\varvec{y_{ijl}}}\) son vectores del conjunto de parámetros y de todos los puntos de datos, respectivamente. Por lo tanto, cuando solo la varianza cambia con un factor de ajuste de \(\widehat{\phi }\) dado por (12), las estimaciones de MLE anteriores simplemente se escalan por un factor de \(\widehat{\phi }\) como sigue:

Por lo tanto, las estimaciones de MLE para \(\widehat{\beta }_{ijl}\) permanecen sin cambios.

Esto implica que las estimaciones de los parámetros del modelo de regresión de conteo (4) permanecen sin cambios, pero las estadísticas de la prueba de verosimilitud y las diferencias en la desviación (como la estadística de la prueba chi-cuadrado de Pearson) deben dividirse por \(\widehat{\phi }\) antes de evaluar la bondad del ajuste utilizando “una distribución \(\chi ^{2}\) apropiada” (ver 14). Después del ajuste de cuasipoisson, construimos un modelo de regresión binomial negativa que puede explicar una sobredispersión aún mayor en los datos de conteo. Entre los modelos de regresión binomial negativo y ajustado de cuasipoisson, elegimos el mejor modelo utilizando los criterios estadísticos de información que se describen a continuación.

Para la regresión binomial negativa utilizamos la parametrización más popular, que es un modelo de mezcla de Poisson-gamma que conduce a una función de varianza que es cuadrática en la media. Esto se conoce como modelo NB-2, cuya derivación y motivación se describen en15. La pmf NB-2 con media \(\mu\) y varianza \(\mu + \alpha \mu ^{2}\) es:

El modelo de regresión de recuento correspondiente con un vínculo \(\log\) es el mismo que en (6). Sin embargo, es posible que este modelo tampoco se ajuste bien (es decir, puede tener un valor de p \(\ge 0,05\)). Una de las razones de un mal ajuste puede ser que la sobredispersión binomial negativa (NB-2) (que también implica sobredispersión de Poisson) de la varianza estimada de las tasas de defectos predichas (mientras se modela cada defecto individual de tipo i y cada paso individual j ) es mayor que \(\mu + \alpha \mu ^{2}\)13,15. Si las variaciones del modelo que hemos considerado hasta ahora no logran proporcionar un buen ajuste a los datos, es posible que debamos considerar otra cuestión: la sobredispersión puede deberse a un exceso de ceros. Como tal, procedemos a trabajar con modelos de obstáculos como paso final. El modelo de obstáculos es un modelo de dos partes. La primera parte es un proceso de Bernoulli que modela la probabilidad de obtener cero defectos frente a obtener un número positivo de defectos (independientemente de la magnitud de este número). Esto se puede lograr utilizando un modelo probit, logit o log-log complementario. La segunda parte implica modelar datos de recuento como un modelo binomial negativo, geométrico o de Poisson truncado en cero. En nuestro marco utilizamos un enlace probit para el modelo de Bernoulli y una distribución binomial negativa o de Poisson para los recuentos positivos. Así, tenemos dos tipos de modelos de obstáculos, uno con un obstáculo de Bernoulli y un proceso de conteo de Poisson, y el otro con un obstáculo de Bernoulli y un proceso de conteo binomial negativo. Para la distribución de Poisson, dada por (8), la probabilidad de un conteo cero (\(e^{-\mu _{ijl}}\)) se resta de uno y las probabilidades restantes se reescalan usando esta diferencia. Entonces, una distribución de Poisson (ZTP) truncada en cero tiene la pmf:

Se sigue un proceso similar para un proceso de recuento binomial negativo truncado en cero. Elegimos modelos de obstáculos en lugar de otros modelos, como el ZTP puro, un Poisson inflado a cero o un proceso binomial negativo (ZIP o ZINB). El modelo ZTP puro no es útil porque ignora por completo el conteo de ceros. Sin embargo, los recuentos de cero son importantes para nosotros porque un recuento alto de cero indica un mejor proceso. Al igual que los modelos de obstáculos, ZIP y ZINB son modelos de dos partes que constan de un proceso de Bernoulli y un proceso de conteo. Sin embargo, a diferencia de los modelos de obstáculos, estos modelos suponen que los recuentos de ceros resultan tanto del proceso binario como del de recuento. Los modelos de obstáculos, por otro lado, separan el modelado de ceros del de conteos porque suponen que solo un proceso genera ceros. Por lo tanto, preferimos los modelos de obstáculos y no utilizamos los modelos ZTP, ZIP y ZINB. Al determinar el ajuste del modelo, los modelos de obstáculos se pueden comparar entre sí y con los otros modelos de esta sección utilizando la estadística del Criterio de información de Alkaike (AIC), si el tamaño de la muestra, n, es menor que 8. De lo contrario, se utiliza el Criterio de información bayesiano (BIC). ) es recomendado. Esto se debe a que el BIC impone una penalización más fuerte a la complejidad del modelo que el AIC para \(n\ge 8\), es decir, cuando el tamaño de la muestra es grande16. El AIC y BIC se definen de la siguiente manera:

donde \(n_{p}\) es el número de parámetros del modelo, \(\widehat{{\varvec{\theta }}}\) es un vector de estimaciones de parámetros MLE obtenidos maximizando \(l(\widehat{{ \varvec{\theta }}})\), que es la probabilidad logarítmica. Por lo tanto, el AIC es una estadística conservadora para medir el ajuste del modelo, cuantificado por \(l(\widehat{{\varvec{\theta }}})\), y la complejidad del modelo, cuantificada por s. Cabe señalar que el modelo cuasipoisson no genera el estadístico AIC porque no se deriva mediante el método MLE. Más bien, la corrección de cuasi-verosimilitud (ver (11)-(15)) al criterio de selección del modelo AIC viene dada por el cuasi-AIC (QAIC):

donde \(\widehat{\phi }\) es el parámetro de dispersión estimado para la cuasi-verosimilitud. Sin embargo, usar QAIC es útil solo cuando todos los modelos que se comparan con el modelo cuasipoisson usan un valor común de \(\widehat{\phi }\). Para simplificar, continuamos usando el valor p como métrica para determinar la importancia del modelo cuasipoisson. El procedimiento para realizar un análisis de regresión de recuento de datos de recuento de defectos se muestra en la Fig. 1. Se pueden encontrar explicaciones más detalladas de cada uno de estos modelos en Hilbe13.

Hicimos algunas suposiciones en el algoritmo para evitar la complejidad en la selección del modelo:

Si el valor de p era mayor o igual a 0,05 se utilizaba un modelo alternativo incluso cuando la dispersión era de aproximadamente 1,25.

Si la dispersión no era aproximadamente 1,25, se usaba un modelo alternativo incluso cuando el valor de p era \(< 0,05.\)

Para comparar modelos que no generan valor p, si \(n<8\) se utiliza el AIC, en caso contrario se utiliza el BIC. Por ejemplo, en nuestro procedimiento utilizamos estos criterios para comparar modelos de obstáculos con modelos de recuento de Poisson y NB-2.

Una vez que identificamos el modelo de regresión de recuento más apropiado, obtenemos los coeficientes que describen el efecto de las distintas herramientas en cada paso a partir de la siguiente ecuación de regresión logística:

Después de determinar los coeficientes, transformamos la ecuación de la siguiente manera para obtener las tasas promedio de defectos para las distintas herramientas:

Así, el número medio de defectos de tipo i para la herramienta l del paso j viene dado por:

Para los modelos de obstáculos tenemos dos conjuntos de coeficientes para cada herramienta: (1) los coeficientes del modelo binario (Bernoulli con un vínculo logístico representado por (24)), y (2) el modelo de recuento truncado en cero (Poisson o binomial negativo con un enlace logístico representado por (21)). En (24) a continuación, \(\frac{p_{{ij}}}{1 - p_{{ij}}}\) es la razón de probabilidades de incurrir en un defecto i cuando una herramienta del j-ésimo paso está presente en la ruta :

Después de determinar los coeficientes \(\alpha\) transformamos (24) de la siguiente manera para obtener las tasas promedio de defectos para varias herramientas:

Así, la razón de probabilidades de defectos de tipo i para la herramienta l del paso j es:

Finalmente, la probabilidad de incurrir en un defecto i si se utiliza la herramienta l en el paso j es:

Luego podemos usar la ley de expectativa iterada para obtener el número esperado de defectos de tipo i generados por la l-ésima herramienta que representa el j-ésimo paso a partir de los coeficientes de regresión de conteo truncado en cero generados usando (23) y los coeficientes de regresión logística de Bernoulli de ( 27). El número esperado de defectos de tipo i generados por la l-ésima herramienta en el j-ésimo paso es la suma de la probabilidad de incurrir en un número positivo de defectos multiplicada por el número promedio de defectos positivos generados por la herramienta correspondiente, y la probabilidad de incurrir en ningún defecto. defectos multiplicados por 0. En resumen, tenemos

Una vez que obtenemos el número esperado de defectos producidos por cada herramienta para cada combinación de paso-defecto, procedemos a clasificar las rutas utilizando el algoritmo descrito en “Ranking global de rutas”.

En esta subsección, consideramos una forma alternativa de realizar la puntuación local de herramientas para producir una clasificación para cada herramienta única en cada paso. En este marco, la métrica es si una herramienta produce defectos o no. Por lo tanto, el número exacto de defectos es irrelevante, pero la probabilidad de que una ruta provoque que una oblea que procesa tenga un defecto de un tipo particular es importante.

En lugar del complejo algoritmo de regresión para obtener el número esperado de defectos producidos por cada herramienta en cada combinación de paso-defecto descrita en las secciones anteriores, desarrollamos un algoritmo más simple. Calculamos la probabilidad \(q_{ijl}\), que aquí tiene una definición diferente de \(p_{ijl}\) descrita en la sección anterior sobre el algoritmo de conteo-regresión. Es la probabilidad de incurrir en cero defectos de tipo i si se utiliza la herramienta l en el paso j. Calculamos esta cantidad a continuación:

El resto de los términos \(s,I_{jl},\mathbb {Z^{+}},y_{is},n_{jl},d,m\) y \(n_{j}\) tienen la mismos significados en el apartado anterior.

Finalmente, al igual que en la sección anterior, utilizamos estas probabilidades (llamémoslas puntuaciones de herramientas para uniformidad entre los dos algoritmos) obtenidas para cada paso y calculamos las clasificaciones de ruta utilizando el procedimiento descrito en “Clasificación de ruta global”. El diagrama de flujo de la Fig. 2 muestra el algoritmo.

El algoritmo de clasificación binaria para clasificar rutas utilizando datos de recuento de defectos.

Para cada defecto y cada ruta, primero producimos una puntuación local promediando aún más los defectos promedio (en el caso de la clasificación de regresión de conteo), o la probabilidad promedio de defectos (en el caso de la clasificación binaria), para cada herramienta en la ruta dada y el defecto dado. A esto lo llamamos puntuación local porque es específico de un tipo de defecto. Así, para cada defecto i, obtenemos una puntuación \(s_{it}\) de las R rutas, donde \(i \in \{1,2,\ldots ,d\}\) y \(t \in \{1,2,\ldots ,R\}\).

Finalmente, calculamos la clasificación global \(r_{t}, t \in \{1,2,\ldots ,R\}\), de las rutas tomando un promedio ponderado de las puntuaciones locales de las rutas (llamemos esto promedia la puntuación global) y clasificarlos del 1 al N (\(N\le R\) porque existe la posibilidad de que haya empates en algunas rutas). Aquí el rango 1 corresponde a la(s) ruta(s) asociada(s) con el menor número (o probabilidad) de defectos promedio y el rango N corresponde a la(s) ruta(s) asociada(s) con el máximo número (o probabilidad) de defectos promedio. El uso de puntuaciones locales en lugar de clasificaciones locales ayuda a generar una mayor singularidad en las clasificaciones de rutas globales, ya que simplemente clasificar la suma de las clasificaciones locales puede hacer que muchas más rutas tengan la misma clasificación, mientras que sumar puntuaciones locales permite una mayor singularidad en las puntuaciones globales, y por lo tanto, en las clasificaciones globales. Seleccionar los pesos \(w_{i}\), \(i \in \{1,2,\ldots ,d\}\) para cada defecto para calcular el promedio ponderado depende de las partes interesadas y de los tomadores de decisiones. . Nuestra formulación se resume en las siguientes ecuaciones:

donde \(s_{ijlt}\) es la puntuación local de la l-ésima herramienta en el j-ésimo paso de la t-ésima ruta obtenida para el i-ésimo defecto. En las Tablas 4 y 5, respectivamente, se muestra un ejemplo de clasificaciones de rutas globales ponderadas utilizando el método de regresión de conteo y clasificación binaria.

El conjunto de datos de semiconductores con el que trabajamos tenía cuatro tipos de defectos. También se registraron las obleas en las que no se observaron defectos. Todas las rutas en el conjunto de datos tenían once pasos, y cada paso tenía su propio conjunto de herramientas. Los pasos 1 al 11 tenían 5, 14, 5, 14, 11, 5, 11, 9, 4, 10 y 13 herramientas distintas, respectivamente. Todas las combinaciones posibles de estas distintas herramientas en cada uno de los once pasos generaron aproximadamente \(1,4\veces 10^{10}\) rutas posibles, mientras que solo 652 de ellas estaban realmente representadas en nuestro conjunto de datos que contiene 2 meses de datos fabulosos.

Siguiendo los pasos de la regresión de conteo como se describe en el diagrama de flujo de la Fig. 1, calculamos métricas para los diversos modelos utilizados, incluida la dispersión, el valor p y las estadísticas AIC. Se puede ver un ejemplo en la Tabla 1. Una vez que se obtiene el mejor modelo, las herramientas en cada paso se califican por separado utilizando el algoritmo de regresión de mejor recuento para cada combinación de defecto-paso (consulte la Tabla 2 para obtener resultados de muestra). También volvemos a derivar todas las puntuaciones de las herramientas utilizando el algoritmo de clasificación binaria. Una muestra de estos resultados se encuentra en la Tabla 2. Luego obtenemos las puntuaciones y clasificaciones de las rutas locales y globales como se muestra en las Tablas 3, 4 y 5. Los resultados computacionales más detallados sobre este conjunto de datos están disponibles en 17. Además, las clasificaciones obtenidas por los dos algoritmos diferentes se comparan utilizando correlaciones de clasificación que se describen y analizan en la siguiente sección.

En esta sección, revisamos métodos comunes para comparar dos clasificaciones para un conjunto de objetos. Luego utilizamos estas métricas para comparar diferentes enfoques de clasificación de rutas. Supongamos que hay t elementos, a los que se les asignan clasificaciones en el conjunto \(\{1, \ldots , t\}\). Para un elemento fijo i, sean \(\mu (i)\) y \(\nu (i)\) los rangos obtenidos mediante dos métodos diferentes.

Primero consideramos la distancia de Spearman. En forma, es similar a una distancia euclidiana y viene dada por:

Tenga en cuenta que no es una métrica de distancia adecuada porque no satisface la desigualdad del triángulo. Esto nos lleva a la correlación de Spearman dada por:

dónde

\(c_{S}\) se conoce como distancia promedio de Spearman y \(M_{S}\) como distancia máxima de Spearman.

La distancia de Kendall cuenta el número de pares discordantes, es decir, el número de veces que se invierten los rangos de dos elementos. Está dado por:

La correlación de Kendall viene dada por:

dónde

\(c_{K}\) es la distancia promedio de Kendall y \(M_{K}\) es la distancia máxima de Kendall.

Las correlaciones de clasificación de Spearman y Kendall entre los dos métodos de clasificación analizados en este artículo se enumeran en la Tabla 6. Podemos ver que ambas correlaciones son estadísticamente significativas y muy bajas, la clasificación de Spearman es del 27,2% y la de Kendall del 18,49%. Esto implica que la clasificación por mera probabilidad (clasificación binaria) es muy diferente de la clasificación tomando tanto la probabilidad como la magnitud de un defecto (clasificación basada en regresión de conteo). Dado que no se conoce la clasificación real, es difícil decir qué clasificación es mejor, pero recomendamos que las partes interesadas decidan qué les interesa. Cubrimos los diferentes casos de uso de interés para las partes interesadas en la conclusión.

Nuestro enfoque y modelo tiene varias limitaciones que también crean amplias oportunidades para trabajos futuros. En primer lugar, no comparamos nuestros algoritmos con algoritmos anteriores en la revisión de la literatura por las siguientes razones. Métodos como AHP y PROMTHEE utilizan muchas características cualitativas a las que no teníamos acceso en nuestro conjunto de datos. Por lo tanto, no pudimos reproducir estos resultados. Muchos autores tampoco han hecho que sus algoritmos sean de código abierto, lo que dificulta las comparaciones debido a la falta de reproducibilidad. También en la literatura se ve a los autores comparando sus algoritmos con sus propios trabajos anteriores, pero no con otros modelos. Además, casi todo el trabajo anterior se centra explícitamente en clasificar únicamente las herramientas y su objetivo es identificar las herramientas con peor rendimiento. Hemos hecho público nuestro código en github (eliminamos el enlace para el proceso de revisión para preservar el anonimato de los autores, lo agregaremos nuevamente después del proceso de revisión) en caso de que los autores en el futuro quieran comparar sus algoritmos con los nuestros.

En segundo lugar, los modelos que probamos no tuvieron en cuenta la interacción estadística entre diferentes herramientas. La razón de esto fue una explosión en la cantidad de parámetros y limitaciones de cálculo desde que desarrollamos y probamos en R. Sin embargo, esto debería ser posible probar en softwares estadísticos más avanzados y con amplia potencia de cálculo. Definitivamente existe interacción entre herramientas, por lo tanto, podrían haber pares de herramientas que sean superiores. Una forma de reducir la cantidad de parámetros sería considerar solo pares de herramientas consecutivos.

En tercer lugar, no comparamos directamente los algoritmos binarios y basados en recuento porque tienen diferentes propósitos. Si bien el algoritmo de regresión de conteo es más complejo que el algoritmo de clasificación binaria, para el conjunto de datos que probamos, el algoritmo puede producir clasificaciones en cuestión de minutos y, por lo tanto, aún debería ser adecuado para su uso en entornos fabulosos reales. De hecho, el tiempo de cálculo de nuestro conjunto de datos fue aproximadamente el mismo para ambos métodos de clasificación. Por tanto, la elección del método depende del caso de uso particular. Si el objetivo de quien toma las decisiones es producir el menor número total de defectos, entonces el algoritmo de regresión de conteo es más apropiado. Sin embargo, si el objetivo es producir el mayor número de obleas sin defectos, entonces es preferible el algoritmo binario.

En cuanto a investigaciones futuras, un paso importante es probar los algoritmos en conjuntos de datos más grandes. Con los avances en el aprendizaje automático, a medida que haya más datos disponibles, también se podrían emplear algoritmos de clasificación más complejos como RankNet, LambdaRank o LambdaMART18,19,20. Cuando se utilizan modelos de regresión o de aprendizaje automático, se pueden utilizar modelos de explicabilidad como las explicaciones independientes del modelo interpretable local (LIME)21 y las explicaciones aditivas de SHapley (SHAP)22 para comprender qué herramientas están impulsando el rango de una ruta hacia arriba o hacia abajo. El análisis contrafactual utilizando estos métodos de explicación también podría ser útil para ampliar el propósito de este trabajo para reconocer en qué herramientas se podría trabajar para que su rendimiento sea de mayor calidad. Además, sería útil crear una metodología para realizar actualizaciones continuas o en línea de las clasificaciones, tal vez utilizando algún tipo de enfoque bayesiano o de suavizado.

Los conjuntos de datos generados y/o analizados durante el estudio actual están disponibles del autor correspondiente a solicitud razonable.

Chang, C.-W., Wu, C.-R., Lin, C.-T. y Chen, H.-C. Una aplicación de AHP y análisis de sensibilidad para seleccionar la mejor máquina cortadora. Computadora. Ing. de Indiana. 52, 296–307. https://doi.org/10.1016/j.cie.2006.11.006 (2007).

Artículo de Google Scholar

Chang, CW, Wu, CR, Lin, CT y Chen, HC Evaluación y control de la calidad del corte de obleas de silicio mediante jerarquía analítica difusa y análisis de sensibilidad. En t. J. Adv. Fabricante. Tecnología. 36, 322–333. https://doi.org/10.1007/s00170-006-0831-9 (2008).

Artículo de Google Scholar

Chang, C.-W., Wu, C.-R. y Chen, H.-C. Toma de decisiones en el proceso de red analítica para evaluar la precisión de la máquina cortadora y controlar la calidad de la oblea. Robot. Computadora. Integración. Fabricante. 25, 641–650. https://doi.org/10.1016/j.rcim.2008.05.005 (2009).

Artículo de Google Scholar

Rao, RV y Patel, B. Toma de decisiones en el entorno de fabricación utilizando un método promethee mejorado. En t. J. Prod. Res. 48, 4665–4682. https://doi.org/10.1080/00207540903049415 (2010).

Artículo MATEMÁTICAS Google Scholar

Chakraborty, S. Aplicaciones del método Moora para la toma de decisiones en el entorno de fabricación. En t. J. Adv. Fabricante. Tecnología. 54, 1155-1166. https://doi.org/10.1007/s00170-010-2972-0 (2011).

Artículo de Google Scholar

Chien, C.-F., Chang, K.-H. y Wang, W.-C. Un estudio empírico de extracción de datos de diseño de experimentos para el diagnóstico de pérdida de rendimiento en la fabricación de semiconductores. J. Intel. Fabricante. 25, 961–972. https://doi.org/10.1007/s10845-013-0791-5 (2014).

Artículo de Google Scholar

Hessinger, U., Chan, WK y Schafman, BT Minería de datos para determinar su importancia en el análisis de correlación de defectos de rendimiento. Traducción IEEE. Semisegundo. Fabricante. 27, 347–356. https://doi.org/10.1109/TSM.2014.2337251 (2014).

Artículo de Google Scholar

Madić, M., Radovanović, M. & Manić, M. Aplicación del método rov para la selección de fluidos de corte. Decide. Ciencia. Letón. 20, 20 (2016).

Google Académico

Nestic, S., Lampón, JF, Aleksic, A., Cabanelas, P. & Tadic, D. Ranking de procesos de fabricación desde la perspectiva de la gestión de la calidad en la industria del automóvil. Sistema experto. 36, 20. https://doi.org/10.1111/exsy.12451 (2019).

Artículo de Google Scholar

Khaira, A. Un enfoque de toma de decisiones en dos pasos para la identificación de equipos críticos utilizando un proceso de jerarquía analítica y un método de organización de clasificación de preferencias para evaluaciones de enriquecimiento con normalización mejorada. Ing. Apocalipsis 39, 174–185. https://doi.org/10.30765/er.39.2.7 (2019).

Artículo de Google Scholar

Lyu, J., Liang, CW y Chen, P.-S. Un enfoque basado en datos para identificar posibles procesos de fabricación y parámetros de producción que causan defectos en el producto: un estudio de caso de una empresa de filtros de película delgada. Acceso IEEE 8, 49395–49411. https://doi.org/10.1109/ACCESS.2020.2974535 (2020).

Artículo de Google Scholar

Krulčcić, E., Pavletić, D., Dobovičcek, S. & Žic, S. Modelo multicriterio para la selección de nuevos equipos de proceso en la fabricación de piezas de fundición: un estudio de caso. Tecnología. J. 16, 170-177. https://doi.org/10.31803/tg-20220407112829 (2022).

Artículo de Google Scholar

Hilbe, JM Regresión binomial negativa 2ª ed. (Prensa de la Universidad de Cambridge, 2011).

Libro MATEMÁTICAS Google Scholar

Miller, RB Estimación e inferencia de máxima verosimilitud (Wiley, 2011).

Reservar Google Académico

Cameron, AC y Trivedi, PK Análisis de regresión de datos de recuento (Cambridge University Press, 1998).

Libro MATEMÁTICAS Google Scholar

Zheng, X. y Loh, W.-Y. Selección consistente de variables en modelos lineales. Mermelada. Estadística. Asociación. 90, 151-156. https://doi.org/10.1080/01621459.1995.10476497 (1995).

Artículo MathSciNet MATEMÁTICAS Google Scholar

Gupta, S. Toma de decisiones dinámica en condiciones de incertidumbre para la fabricación de semiconductores y la atención sanitaria. Doctor. tesis, Programa de Posgrado en Investigación de Operaciones e Ingeniería Industrial, Universidad de Texas en Austin (2019).

Burges, C. y col. Aprender a clasificar mediante el descenso de gradientes. En actas de la vigésima segunda conferencia internacional sobre aprendizaje automático (2005).

Burges, C., Ragno, R. y Le, Q. Aprender a clasificar con funciones de costos no uniformes. En Avances en sistemas de procesamiento de información neuronal vol. 19 (eds Schölkopf, B. et al.) (MIT Press, 2006).

Google Académico

Burges, C. De Ranknet a lambdarank y lambdamart: una descripción general. vol. 82 (2010).

Ribeiro, MT, Singh, S. & Guestrin, C. “¿Por qué debería confiar en ti?”: Explicando las predicciones de cualquier clasificador. https://doi.org/10.48550/ARXIV.1602.04938 (2016).

Lundberg, S. y Lee, S.-I. Un enfoque unificado para interpretar las predicciones de los modelos. https://doi.org/10.48550/ARXIV.1705.07874 (2017).

Descargar referencias

Estos autores contribuyeron igualmente: Shreya Gupta, John J. Hasenbein y Byeongdong Kim.

Programa de Posgrado en Investigación de Operaciones e Ingeniería Industrial, Departamento de Ingeniería Mecánica, Universidad de Texas en Austin, Austin, TX, 78712, EE. UU.

Shreya Gupta, John J. Hasenbein y Byeongdong Kim

También puedes buscar este autor en PubMed Google Scholar.

Todos los autores contribuyeron por igual.

Correspondencia a Shreya Gupta, John J. Hasenbein o Byeongdong Kim.

Los autores declaran no tener conflictos de intereses.

Springer Nature se mantiene neutral con respecto a reclamos jurisdiccionales en mapas publicados y afiliaciones institucionales.

Acceso Abierto Este artículo está bajo una Licencia Internacional Creative Commons Attribution 4.0, que permite el uso, compartir, adaptación, distribución y reproducción en cualquier medio o formato, siempre y cuando se dé el crédito apropiado a los autores originales y a la fuente. proporcione un enlace a la licencia Creative Commons e indique si se realizaron cambios. Las imágenes u otro material de terceros en este artículo están incluidos en la licencia Creative Commons del artículo, a menos que se indique lo contrario en una línea de crédito al material. Si el material no está incluido en la licencia Creative Commons del artículo y su uso previsto no está permitido por la normativa legal o excede el uso permitido, deberá obtener permiso directamente del titular de los derechos de autor. Para ver una copia de esta licencia, visite http://creativecommons.org/licenses/by/4.0/.

Reimpresiones y permisos

Gupta, S., Hasenbein, JJ y Kim, B. Clasificación de rutas en fábricas de obleas de semiconductores. Informe científico 13, 13267 (2023). https://doi.org/10.1038/s41598-023-39187-2

Descargar cita

Recibido: 26 de mayo de 2023

Aceptado: 20 de julio de 2023

Publicado: 15 de agosto de 2023

DOI: https://doi.org/10.1038/s41598-023-39187-2

Cualquier persona con la que comparta el siguiente enlace podrá leer este contenido:

Lo sentimos, actualmente no hay un enlace para compartir disponible para este artículo.

Proporcionado por la iniciativa de intercambio de contenidos Springer Nature SharedIt

Al enviar un comentario, acepta cumplir con nuestros Términos y pautas de la comunidad. Si encuentra algo abusivo o que no cumple con nuestros términos o pautas, márquelo como inapropiado.