Name: Práctica de Reconocimiento de Voz con PyTorch Wang Xiaohua Inteligencia Artificial Prensa de la Universidad Tsinghua al mayoreo
Price: 564.868883 RUB
Availability: InStock

El texto en las imágenes se puede traducir

1 de 5

Práctica de Reconocimiento de Voz con PyTorch Wang Xiaohua Inteligencia Artificial Prensa de la Universidad Tsinghua

Precio por pieza incluyendo entrega a México

Variaciones

PyTorch Speech Recognition Practice Wang Xiaohua Artificial Intelligence Tsinghua University Press

Especificaciones del producto

Marca

42960263

Editorial

Tsinghua University Press

Autor

Wang Xiaohua

Fecha de publicación

2024.03

Título

PyTorch Speech Recognition Practice Wang Xiaohua Artificial Intelligence Tsinghua University Press

Pie

16 open

Número de libro

9787302655657

Precios de los libros

69.00

Color

PyTorch Speech Recognition Practice Wang Xiaohua Artificial Intelligence Tsinghua University Press

Marca

42960263

Editorial

Tsinghua University Press

Autor

Wang Xiaohua

Fecha de publicación

2024.03

Título

PyTorch Speech Recognition Practice Wang Xiaohua Artificial Intelligence Tsinghua University Press

Pie

16 open

Número de libro

9787302655657

Precios de los libros

69.00

Color

PyTorch Speech Recognition Practice Wang Xiaohua Artificial Intelligence Tsinghua University Press

Marca

42960263

Editorial

Tsinghua University Press

Autor

Wang Xiaohua

Fecha de publicación

2024.03

Título

PyTorch Speech Recognition Practice Wang Xiaohua Artificial Intelligence Tsinghua University Press

Pie

16 open

Número de libro

9787302655657

Precios de los libros

69.00

Color

PyTorch Speech Recognition Practice Wang Xiaohua Artificial Intelligence Tsinghua University Press

Detalles del producto

El texto en las imágenes se puede traducir

autor:Wang Xiaohua autor

Precios:69

Editor:Prensa de la Universidad de Tsinghua

Fecha de publicación:1 de marzo de 2024

Páginas:276

Vinculante:libro de bolsillo

ISBN:9787302655657

●Capítulo 1 El Camino al Reconocimiento de Voz 1
1.1 ¿Qué es el reconocimiento de voz 1
1.2 ¿Por qué el reconocimiento de voz es tan difícil 2
1.3 El Camino al Reconocimiento de Voz——La Historia del Desarrollo del Reconocimiento de Voz 3
1.3.1 Mezcla Gaussiana - Era de Markov Oculto 4
1.3.2 Redes Neuronales Profundas - Era Oculta 5
1.3.3 La Era del Reconocimiento de Voz de Extremo a Extremo Basado en Aprendizaje Profundo 6
1.3.4 Reconocimiento de Voz y Conversión de Arquitectura Multimodal 7
1.4 El futuro del reconocimiento de voz basado en aprendizaje profundo 8
1.5 Resumen del Capítulo 8
Capítulo 2 Configuración del Entorno de Aprendizaje Profundo PyTorch 2.0 9
2.1 Configuración del entorno 1: Instalar Python 9
2.1.1 Descargando e Instalando Miniconda 9
2.1.2 Descargando e Instalando PyCharm 12
2.1.3 Ejercicio pequeño de código Python: Calcular la función softmax 15
2.2 Configuración del entorno 2: Instalar PyTorch 2.0 16
2.2.1 Versión de GPU seleccionada para tarjetas gráficas Nvidia serie 10/20/30/40 16
2.2.2 Instalación de PyTorch 2.0 GPU Nvidia Runtime 16
2.2.3 Mini Ejercicio de PyTorch 2.0: Hola PyTorch 19
2.3 Aplicación Práctica: Activación por Voz Basada en Palabras Clave 20
2.3.1 Preparación de Datos 20
2.3.2 Procesamiento de Datos 21
2.3.3 Diseño del Modelo 24
2.3.4 Método de entrada de datos del modelo 24
2.3.5 Entrenamiento del Modelo 25
2.3.6 Resultados del Modelo y Presentación 26
2.4 Resumen del Capítulo 27
Capítulo 3 Teoría y Práctica en Python del Procesamiento de Señales de Audio 28
3.1 Teoría Básica de Señales de Audio en Detalle 28
3.1.1 Teoría Básica de Señales de Audio 28
3.1.2 Dominio del Tiempo y Dominio de la Frecuencia de Señales de Audio 29
3.2 Explicación Detallada de la Transformada de Fourier 30
3.2.1 Series de Fourier 31
3.2.2 Cálculo Continuo a Discreto 33
3.2.3 Transformada de Fourier Práctica en Python 34
3.3 Transformada Rápida de Fourier y Transformada de Fourier de Tiempo Corto 38
3.3.1 Transformada Rápida de Fourier Práctica Python 39
3.3.2 Transformada de Fourier de Tiempo Corto Práctica Python 42
3.4 Coeficientes cepstrales de frecuencia Mel práctica de Python 44
3.4.1 Proceso de Cálculo de los Coeficientes Cepstrales de Frecuencia Mel 44
3.4.2 Implementación en Python de Coeficientes Cepstrales de Frecuencia Mel 45
3.5 Resumen del Capítulo 52
Capítulo 4 Explicación Detallada y Aplicación Práctica del Kit de Herramientas de Procesamiento de Audio Librosa 53
4.1 Extracción de Características de Audio Uso Básico del Paquete Librosa 53
4.1.1 Lectura de señales de audio basada en Librosa 53
4.1.2 Extracción de Múltiples Características de Audio Basada en Librosa 56
4.1.3 Otras herramientas de extracción de características de audio basadas en Librosa 58
4.2 Práctica de Agrupamiento de Sonido Basado en Características de Audio 59
4.2.1 Preparación del conjunto de datos 59
4.2.2 Integrar conjuntos de datos por categoría de etiqueta 62
4.2.3 Función de Extracción de Características de Audio 63
4.2.4 Extracción de Características de Audio - Reducción de la Dimensionalidad de los Datos 64
4.2.5 Extracción Práctica de Características de Audio 65
4.3 Resumen del Capítulo 69
Capítulo 5 Clasificación y Reconocimiento de Emociones del Habla Basado en Redes Neuronales Profundas 70
5.1 Redes Neuronales Profundas y Perceptrones Multicapa Explicados en Detalle 70
5.1.1 Redes Neuronales Profundas y Perceptrones Multicapa 70
5.1.2 Ejemplo de Modelado de Red Neuronal Profunda Basado en PyTorch 2.0 71
5.1.3 Explicación Detallada de la Función de Pérdida de Entropía Cruzada 73
5.2 Aplicación Práctica: Reconocimiento de Emociones en el Habla Basado en Redes Neuronales Profundas 74
5.2.1 Adquisición de Datos de Emoción y Explicación de Etiquetas 75
5.2.2 Lectura del Conjunto de Datos de Emociones 76
5.2.3 Diseño y Entrenamiento de Modelos Basados en Ejemplos Usando Redes Neuronales Profundas 78
5.3 Resumen del Capítulo 79
Capítulo 6 Algoritmos Básicos de Aprendizaje Profundo que Puedes Aprender de una Vez 80
6.1 Red Neuronal de Retropropagación Historia Predecesora 80
6.2 Red Neuronal de Retropropagación Algoritmo Básico Explicación Detallada 84
6.2.1 Explicación Detallada del Método de Mínimos Cuadrados 84
6.2.2 Algoritmo de Descenso de Gradiente (La Historia del Sacerdote Taoísta Bajando la Montaña) 86
6.2.3 Algoritmo de Descenso de Gradiente para el Método de Mínimos Cuadrados y su Implementación en Python 89
6.3 Introducción al Algoritmo de Retropropagación para Redes Neuronales de Retroalimentación 95
6.3.1 Fundamentos del Aprendizaje Profundo 95
6.3.2 Regla de la Cadena 96
6.3.3 Principios de Redes Neuronales de Retroalimentación y Derivación de Fórmulas 97
6.3.4 Funciones de Activación de Redes Neuronales con Retroalimentación Principios 103
6.4 Resumen del Capítulo 104
Capítulo 7 Clasificación y Reconocimiento de Emociones en el Habla Basado en Capas Convolucionales de PyTorch 105
7.1 Conceptos básicos de la operación convolucional 105
7.1.1 Ejemplo de Operación Básica de Convolución 106
7.1.2 Explicación Detallada de la Implementación de la Función de Convolución en PyTorch 107
7.1.3 Operación de Agrupación 109
7.1.4 función de activación softmax 111
7.1.5 Principios de Redes Neuronales Convolucionales 112
7.2 Clasificación y Reconocimiento de Emociones del Habla Basado en Redes Neuronales Convolucionales 114
7.2.1 Cambiar de Serial a Paralelo——Preparación de Datos 114
7.2.2 Diseño de Modelo basado en Convolución 116
7.2.3 Entrenamiento del modelo 117
7.3 Convolución Dilatada Separable Profundamente de PyTorch Explicada en Detalle 118
7.3.1 Definición de Convolución Separable Profunda 119
7.3.2 Definición de Profundidad y Comparación de Parámetros Entrenables en Diferentes Capas Computacionales 121
7.3.3 Explicación Detallada de la Convolución Dilatada 121
7.4 Resumen del Capítulo 122
Capítulo 8 Mapeo de palabras y Redes Neuronales Recurrentes 123
8.1 Mapeo de palabras interesante 123
8.1.1 ¿Qué es el mapeo de palabras 124
8.1.2 Explicación Detallada de las Funciones de Procesamiento de Mapeo de Palabras en PyTorch 125
8.2 Práctica: Redes Neuronales Recurrentes y Clasificación de Sentimiento de Contenido Textual 126
8.2.1 Preparación para la Clasificación de Sentimiento Chino Basada en Redes Neuronales Recurrentes 126
8.2.2 Clasificación de Sentimiento Chino Basada en Redes Neuronales Recurrentes 128
8.3 Explicación de la Teoría de Redes Neuronales Recurrentes 131
8.3.1 ¿Qué es GRU 131
8.3.2 Si unidireccional no funciona, entonces hagámoslo bidireccional 133
8.4 Resumen del Capítulo 134
Capítulo 9 Conversión de Voz Práctica Basada en Whisper 135
9.1 Práctica: Conversión de Voz Susurrada 135
9.1.1 Whisper usa variables de entorno para la configuración y la introducción de modelos 135
9.1.2 Usando el Modelo Whisper 137
9.1.3 Un Frontend Web de Conversión de Voz que Puedes Aprender de una Vez 138
9.2 Detalles del Modelo Whisper 141
9.2.1 Introducción General al Modelo Whisper 141
9.2.2 Más Aplicaciones Basadas en Whisper 143
9.3 Resumen del Capítulo 144
Capítulo 10 Mecanismo de Atención 146
10.1 Mecanismo de Atención y Detalles del Modelo 146
10.1.1 Detalles del Mecanismo de Atención 147
10.1.2 Mecanismo de Autoatención 148
10.1.3 ticks y Normalización de Capa 153
10.1.4 Autoatención de Múltiples Cabezas 154
10.2 Práctica de Aplicación del Mecanismo de Atención: Codificador 157
10.2.1 Arquitectura General del Codificador 157
10.2.2 De vuelta a la capa de entrada: Capa de incrustación de palabras inicial y capa de codificador posicional 158
10.2.3 Implementación de la capa feedforward 161
10.2.4 Fusión de módulos multicapa Capa TransformerBlock 162
10.2.5 Implementación del Codificador 164
10.3 Codificador Práctico: Modelo de Conversión Pinyin a Carácter Chino 169
10.3.1 Procesamiento del conjunto de datos Pinyin chino 169
10.3.2 Determinación del Modelo de Conversión Pinyin Chino 171
10.3.3 Escribiendo el Código de Entrenamiento del Modelo 172
10.4 Resumen del Capítulo 174
Capítulo 11 Práctica de Clasificación Multietiqueta de Cantos de Aves 175
11.1 Explicación Detallada de Conocimientos Básicos para Clasificación Multietiqueta Basada en Reconocimiento de Voz 175
11.1.1 La clasificación multietiqueta no es igual a la clasificación multiclase 176
11.1.2 Función de pérdida multietiqueta Sigmoide + BCELoss 176
11.2 Práctica: Clasificación multietiqueta de sonidos de aves 178
11.2.1 Adquisición del Conjunto de Datos de Cantos de Aves 178
11.2.2 Procesamiento y Visualización de Datos de Canto de Aves 179
11.2.3 Creación de Conjuntos de Datos por Lotes de Datos de Canto de Aves 182
11.2.4 Construyendo un Modelo de Aprendizaje Profundo para el Reconocimiento de Cantos de Aves 185
11.2.5 Entrenamiento y Predicción del Modelo de Clasificación de Sonidos de Aves Multietiqueta 188
11.3 Para mayor precisión: Contenido suplementario para modelos de clasificación multietiqueta 190
11.3.1 Mejorando la Precisión Usando Diferentes Funciones de Pérdida 190
11.3.2 Usando un enfoque de integración multimodelo para completar el reconocimiento del habla de cantos de aves 192
11.4 Resumen del Capítulo 194
Capítulo 12 Fundamentos de los Modelos de Conversión de Voz Multimodal 195
12.1 La Historia de la Investigación de la Conversión de Voz a Texto y el Aprendizaje Profundo 195
12.1.1 Métodos Tradicionales de Conversión de Voz a Texto 195
12.1.2 Conversión de voz a texto basada en métodos de aprendizaje profundo 197
12.1.3 Introducción a los Primeros Modelos de Aprendizaje Profundo para Transcripción de Voz 198
12.2 Modelo de Conversión Multimodal Voz-Texto Basado en Arquitectura GLM 202
12.2.1 Introducción al buen modelo de inteligencia artificial ChatGLM 202
12.2.2 Una Arquitectura de Conversión de Voz Multimodal Más Precisa, Eficiente y Generalizable——GLM y GPT2 203
12.3 Entrenamiento del Modelo GPT2 desde Cero y Explicación Detallada de la Entrada/Salida de Datos 205
12.3.1 Comienza a entrenar el modelo GPT2 de bajos recursos de hardware 205
12.3.2 Estructura de Entrada y Salida de GPT2——Autorregresión 206
12.3.3 Implementación del formato de entrada del modelo GPT2 208
12.3.4 Explicación Detallada del Formato de Salida del Modelo GPT2 Clásico e Implementación de Código 210
12.4 Explicación del Código Fuente del Modelo GPT2 Fácil de Aprender 212
12.4.1 La clase principal en el modelo GPT2 212
12.4.2 La Clase Block en el Modelo GPT2 219
12.4.3 La clase Attention en el modelo GPT2 224
12.4.4 La clase MLP en el modelo GPT2 231
Función de generación GPT2 12.5 con generación diversa 232
12.5.1 Uso de Funciones Creativas y Detalles de Código 233
12.5.2 Introducción a los parámetros creativos temperatura y el número de muestras TopK 234
12.6 Resumen del Capítulo 236
Capítulo 13 Arquitectura GLM Práctica de Conversión Multimodal de Voz a Texto 237
13.1 Detalles de la Arquitectura GLM 237
13.1.1 Avance importante en la arquitectura del modelo GLM: Codificación de posición rotatoria 238
13.1.2 Adición de Mecanismo de Atención con Codificación Posicional Rotatoria 239
13.1.3 Explicación Detallada de la Nueva Función de Activación GLU 240
13.1.4 Ajustando el orden de la arquitectura del GLMBlock 240
13.1.5 Modelo GLM Completo Personalizado (Versión de Generación de Texto Único) 243
13.2 Práctica: Generación de texto basada en GLM 247
13.2.1 Preparación del Conjunto de Datos 247
13.2.2 Entrenamiento del Modelo 250
13.2.3 Inferencia del Modelo 252
13.3 Práctica: Conversión de voz a texto basada en GLM 253
13.3.1 Preparación del Conjunto de Datos y Extracción de Características 253
13.3.2 Métodos para Fusionar Características del Habla 255
13.3.3 Diseño de Modelo Multimodal Basado en Fusión de Voz Multimodal 256
13.3.4 Entrenamiento del Modelo 261
13.3.5 Inferencia del Modelo 262
13.3.6 Métodos para mejorar la precisión de los modelos multimodales 263
13.4 Resumen del Capítulo 264

《Reconocimiento de Voz con PyTorch en la Práctica》 utiliza PyTorch 2.0 como el marco básico para el reconocimiento de voz, guiando a los lectores paso a paso desde la configuración del entorno hasta profundizar en las teorías básicas, algoritmos y prácticas de aplicación del reconocimiento de voz. Es un libro relativamente bueno sobre tecnología de reconocimiento de voz. El libro va acompañado de código fuente de ejemplo, conjuntos de datos, material didáctico en PPT y otros recursos.
《Reconocimiento de Voz con PyTorch en la Práctica》 está dividido en 13 capítulos, cubriendo el camino hacia el reconocimiento de voz, configuración del entorno de aprendizaje profundo PyTorch 2.0, teoría y práctica en Python del procesamiento de señales de audio, explicación detallada y práctica del toolkit de procesamiento de audio de uso común Librosa, clasificación y reconocimiento de emociones del habla basado en DNN, algoritmos básicos de aprendizaje profundo fáciles de aprender, clasificación y reconocimiento de emociones del habla basado en capas convolucionales de PyTorch, mapeo de palabras y redes neuronales recurrentes, práctica de conversión de voz a texto basada en Whisper, explicación detallada del mecanismo de atención y el modelo de atención, práctica de clasificación multietiqueta de cantos de aves, fundamentos de los modelos multimodales de conversión de voz a texto, práctica de conversión multimodal de voz a texto basada en la arquitectura GLM.
《Reconocimiento de Voz con PyTorch en la Práctica》 es detallado en contenido y rico en ejemplos, adecuado para principiantes en reconocimiento de voz, principiantes en aprendizaje profundo, etc.

Wang Xiaohua autor

Wang Xiaohua, profesor de informática en una universidad, investiga computación en la nube, big data e inteligencia artificial. Algunos de sus libros incluyen: «Desarrollo y ajuste fino de modelos grandes desde cero: Basado en PyTorch y ChatGLM», «Aprendizaje profundo con PyTorch 2.0 desde cero», «Práctica de aprendizaje automático y análisis de visualización con Python», «Aprendizaje profundo con Google JAX desde cero», «Análisis y minería de big data con Spark 3.0: Basado en aprendizaje automático», «Práctica de aplicación de aprendizaje profundo con TensorFlow», «Práctica de reconocimiento de voz con TensorFlow», «Aprendizaje profundo con TensorFlow 2.0 desde cero», «Principios matemáticos e implementación del aprendizaje profundo».

Total

Entrega

IVA

Otro

Entrega marítima, 90 días