Я покопался в современных генеративных моделях по звуку. И сильно удивился, насколько они продвинулись за прошедшие несколько лет. Про изображения я знал, конечно. Но звук меня поразил.
Еще не так идеально и классно, как у многих артистов, но даже примитивная генерация по тексту без всяких уточнений по особенностям звучания уже лучше примерно трети того, что я обычно слышал.
Дубовый листок (по Лермонтову).wav