ดาวน์โหลดเครื่องสังเคราะห์เสียงพูดที่มีการออกเสียงที่ดี Ivona เป็นนักสังเคราะห์เสียงที่ยอดเยี่ยม เครื่องสังเคราะห์เสียง ReadingBar

ปัจจุบันเราเรียกเทคโนโลยีที่สามารถเปลี่ยนแปลงได้ ข้อมูลข้อความสู่คำพูดธรรมดาๆ ด้วยการพัฒนา "เครื่องจักรอัจฉริยะ" เทคโนโลยีนี้มีความเกี่ยวข้องมากขึ้นเรื่อยๆ และทุกๆ วันก็ต้องการความสมบูรณ์แบบมากขึ้นเรื่อยๆ จริงๆแล้วบน ในขณะนี้มีการพัฒนาวิธีการสังเคราะห์เสียงจำนวนหนึ่งซึ่งเราจะพูดถึง

เครื่องสังเคราะห์เสียงพูดสามารถใช้ได้ในพื้นที่ที่แตกต่างกันโดยสิ้นเชิงและใช้เพื่อแก้ปัญหาต่าง ๆ มากมาย ตั้งแต่หนังสือ "อ่านหนังสือ" ผลิตของเล่นเด็ก "พูดได้" ประกาศหยุดใน การขนส่งสาธารณะหรือในระบบบริการและลงท้ายด้วยการแพทย์ (ที่นี่ควรค่าแก่การจดจำ Stephen Hawking ที่ใช้เครื่องสังเคราะห์เสียงเพื่อสื่อสารกับโลก)

ลองมาดูเทคโนโลยีและวิธีการสังเคราะห์คำพูดให้ละเอียดยิ่งขึ้น ดังที่ได้กล่าวไปแล้ว มีวิธีสังเคราะห์เสียงพูดหลายวิธี ดังนั้นจึงสามารถแยกแยะแนวทางหลักได้หลายประการ:

  • การสังเคราะห์พาราเมตริก
  • การสังเคราะห์แบบต่อกัน (คอมไพล์)
  • การสังเคราะห์ตามกฎ (ตามข้อความที่พิมพ์)

การสังเคราะห์พารามิเตอร์ช่วยให้คุณสามารถบันทึกเสียงพูดสำหรับภาษาใดก็ได้ แต่ไม่สามารถใช้กับข้อความที่ไม่ได้ระบุไว้ล่วงหน้าได้ การสังเคราะห์เสียงพูดแบบพาราเมตริกจะใช้เมื่อมีการจำกัดชุดข้อความ คุณภาพของวิธีการสังเคราะห์นี้อาจสูงมาก

โดยพื้นฐานแล้ว การสังเคราะห์เสียงพูดแบบพาราเมตริกคือการนำหลักการทำงานของโวโคเดอร์ไปใช้ ในกรณีของการสังเคราะห์พาราเมตริก บี๊บแสดงด้วยพารามิเตอร์ที่เปลี่ยนแปลงอย่างต่อเนื่องจำนวนหนึ่ง เครื่องกำเนิดเสียงใช้ในการสร้างเสียงสระ และเครื่องกำเนิดเสียงใช้สำหรับพยัญชนะ แต่วิธีนี้มักจะใช้ในการบันทึกเสียงในการประพันธ์ดนตรี และบ่อยครั้งที่เราไม่ได้พูดถึงการสังเคราะห์เสียงที่บริสุทธิ์ แต่เกี่ยวกับการมอดูเลต

วิธีการสังเคราะห์การคอมไพล์จะขึ้นอยู่กับการคอมไพล์ข้อความจาก "พจนานุกรม" ขององค์ประกอบที่บันทึกไว้ล่วงหน้า ขนาดขององค์ประกอบระบบต้องมีอย่างน้อยหนึ่งคำ โดยปกติแล้ว สต็อกขององค์ประกอบต่างๆ จะจำกัดอยู่ที่หลายร้อยคำ และเนื้อหาของข้อความสังเคราะห์จะจำกัดอยู่ที่ปริมาณของพจนานุกรม วิธีการสังเคราะห์คำพูดนี้ใช้กันอย่างแพร่หลายในชีวิตประจำวัน - ตามกฎแล้วในบริการช่วยเหลือและอุปกรณ์ต่าง ๆ ที่ต้องใช้อุปกรณ์ที่มีระบบตอบสนองคำพูด

การสังเคราะห์เสียงพูดแบบเต็มตามกฎสามารถสร้างเสียงพูดจากข้อความที่ไม่รู้จักก่อนหน้านี้ได้ วิธีนี้ไม่ได้ใช้องค์ประกอบของคำพูดของมนุษย์ แต่ใช้อัลกอริธึมทางภาษาศาสตร์และเสียงที่ตั้งโปรแกรมไว้

นอกจากนี้ยังมีการแบ่งส่วนที่นี่ - สามารถแยกแยะวิธีการสังเคราะห์นี้ได้สองวิธี อย่างแรกคือการสังเคราะห์คำพูดตามรูปแบบตามกฎ และอย่างที่สองคือการสังเคราะห์เสียงที่เปล่งออกมา การสังเคราะห์รูปแบบขึ้นอยู่กับรูปแบบ - เสียงสะท้อนความถี่ของคำพูด ระบบลำโพง- อัลกอริธึมการสังเคราะห์รูปแบบจำลองการทำงานของระบบเสียงของมนุษย์ ซึ่งทำงานเป็นชุดเครื่องสะท้อนเสียง ในปัจจุบัน น่าเสียดายที่ซินธิไซเซอร์ส่วนใหญ่ที่ทำงานเกี่ยวกับการสังเคราะห์รูปแบบเฉพาะเป็นเรื่องยากที่จะเข้าใจโดยไม่ต้องเตรียมการ แต่ไม่ต้องสงสัยเลยว่า นี่เป็นเทคโนโลยีที่เป็นสากลและมีแนวโน้ม วิธีการออกเสียงพยายามที่จะปรับปรุงข้อบกพร่องของวิธีการจัดรูปแบบโดยการเพิ่มคุณสมบัติการออกเสียงของการออกเสียงของแต่ละเสียงให้กับแบบจำลอง

นอกจากนี้ยังมีเทคโนโลยีการสังเคราะห์เสียงพูดตามกฎซึ่งใช้ส่วนของเสียงพูดที่เป็นธรรมชาติที่บันทึกไว้ เนื่องจากวิธีการคอมไพล์ยังคงใช้บ่อยที่สุด ลองพูดรายละเอียดเพิ่มเติมสักสองสามคำเกี่ยวกับวิธีเหล่านี้

ขึ้นอยู่กับว่า "ข้อความที่ตัดตอนมา" ของคำพูดที่ใช้สำหรับการสังเคราะห์มีขนาดใหญ่เพียงใด การสังเคราะห์ประเภทต่อไปนี้มีความโดดเด่น:

  • ไมโครเซกเมนต์ (ไมโครเวฟ);
  • อัลโลโฟนิก;
  • ไดโฟนิก;
  • กึ่งพยางค์;
  • พยางค์;
  • การสังเคราะห์จากหน่วยขนาดใดก็ได้

วิธีที่ใช้กันมากที่สุดคือวิธี allophonic และ diphonic สำหรับวิธีการสังเคราะห์เสียงพูดแบบไดโฟนิก องค์ประกอบพื้นฐานคือการรวมกันของหน่วยเสียงทวินามทุกประเภท และสำหรับวิธีอัลโลโฟน - การรวมกันของบริบทด้านซ้ายและขวา (อัลโลโฟนเป็นตัวแปรของหน่วยเสียงซึ่งถูกกำหนดโดยสภาพแวดล้อมการออกเสียงเฉพาะของมัน ). ในเวลาเดียวกัน ประเภทต่างๆบริบทจะถูกรวมเข้าเป็นคลาสตามระดับความใกล้เคียงทางเสียง

ข้อดีของระบบดังกล่าวคือทำให้สามารถสังเคราะห์ข้อความจากข้อความที่ไม่ได้ระบุไว้ล่วงหน้าได้ แต่ข้อเสียคือคุณภาพของคำพูดสังเคราะห์นั้นเทียบไม่ได้กับคุณภาพของคำพูดตามธรรมชาติ (อาจเกิดการบิดเบือนที่ขอบเขต ขององค์ประกอบการเย็บ) นอกจากนี้ยังเป็นเรื่องยากมากที่จะควบคุมลักษณะน้ำเสียงของคำพูด เนื่องจากลักษณะของคำแต่ละคำสามารถเปลี่ยนแปลงได้ขึ้นอยู่กับบริบทหรือประเภทของวลี

อย่างไรก็ตามทั้งหมดนี้เป็นเพียงทฤษฎีเท่านั้น ในทางปฏิบัติในขั้นตอนปัจจุบันของการพัฒนาแม้จะมีความก้าวหน้าอย่างแข็งขันในด้านนี้นักพัฒนาเทคโนโลยีการสังเคราะห์เสียงพูดยังคงประสบปัญหาบางอย่างซึ่งส่วนใหญ่เกี่ยวข้องกับการประดิษฐ์คำพูดที่สังเคราะห์ขึ้นการขาดการระบายสีทางอารมณ์และภูมิคุ้มกันเสียงรบกวนต่ำ

ความจริงก็คือว่าตามกฎแล้วคำพูดสังเคราะห์ใด ๆ นั้นเป็นเรื่องยากสำหรับบุคคลที่จะรับรู้ นี่เป็นเพราะความจริงที่ว่าช่องว่างในข้อความสังเคราะห์นั้นเต็มไปด้วยสมองของมนุษย์ซึ่งใช้ทรัพยากรเพิ่มเติมสำหรับสิ่งนี้ และโดยปกติแล้วบุคคลสามารถรับรู้คำพูดสังเคราะห์ได้เพียงประมาณ 20 นาทีเท่านั้น

การรับรู้คำพูดยังได้รับอิทธิพลจากการใช้สีทางอารมณ์ด้วย ในกรณีของคำพูดสังเคราะห์จะขาดไป แม้ว่าจะเป็นที่น่าสังเกตว่าอัลกอริธึมบางตัวยังคงทำให้สามารถเลียนแบบสีอารมณ์ของคำพูดได้ในระดับหนึ่งโดยการเปลี่ยนระยะเวลาของหน่วยเสียงการหยุดชั่วคราวและการปรับเสียงต่ำ แต่จนถึงขณะนี้งานของพวกเขายังห่างไกลจากอุดมคติ

สำหรับปัญหาที่มีชื่อที่สาม - ภูมิคุ้มกันสัญญาณรบกวนต่ำ การทดลองแสดงให้เห็นว่าการรับรู้ของข้อความสังเคราะห์ถูกรบกวนโดยสิ่งใด ๆ แม้แต่ข้อความที่เล็กที่สุด เสียงภายนอก- นี่เป็นอีกครั้งเนื่องจากในการประมวลผลคำพูดสังเคราะห์ สมองของมนุษย์ใช้จุดศูนย์กลางเพิ่มเติมที่ไม่ได้ใช้เมื่อรับรู้คำพูดตามธรรมชาติ

ในตอนท้ายของบทความนี้ ฉันอยากจะยกตัวอย่างบางส่วนของเครื่องสังเคราะห์เสียงพูดที่มีอยู่

ทุกคนรู้จักสิ่งที่เรียกว่า "ผู้อ่าน" - โปรแกรมสำหรับการอ่านข้อความจากจอภาพได้สะดวกยิ่งขึ้น พวกเราหลายคนใช้โปรแกรมสังเคราะห์เสียงเพื่อแปลงข้อความเป็นเสียง เช่น Balabolka และ Govorilka

เพื่อให้โปรแกรมดังกล่าวอ่านข้อความได้ คุณต้องติดตั้งไลบรารี SAPI (Speech API) และโปรแกรมเสียงด้วย ที่พบบ่อยที่สุดคือ Speech API สองเวอร์ชัน: SAPI4 และ SAPI5 ไลบรารีทั้งสองสามารถทำงานได้บนคอมพิวเตอร์เครื่องเดียวกัน ใน ระบบปฏิบัติการอ่า Windows XP, Windows Vista และ Windows 7 ได้ติดตั้งไลบรารี SAPI5 ไว้แล้ว

นอกจาก e-reader แล้ว โปรแกรมเข้าถึงหน้าจอก็เป็นเรื่องปกติ ตัวอย่างของโปรแกรมดังกล่าวได้แก่:

ราศีกันย์ 4. โปรแกรมนี้ถูกสร้างขึ้นเพื่อความสะดวกสบายของผู้ใช้ที่ตาบอดและผู้พิการทางสายตาด้วย Windows ช่วยให้คุณสามารถเลือกข้อมูลที่จะพูดด้วยเสียงและข้อมูลที่จะแสดงบนจอแสดงผลอักษรเบรลล์ สำหรับผู้ใช้ที่มีความบกพร่องทางการมองเห็น มีระบบขยายหน้าจอกาลิเลโอมาให้

Cobra 9.1 ยังทำให้การทำงานกับ Windows ง่ายขึ้นสำหรับผู้ใช้ที่ตาบอดและผู้พิการทางสายตา โปรแกรมนี้สามารถแสดงข้อมูลจากจอคอมพิวเตอร์โดยใช้เสียงพูด จอแสดงผลอักษรเบรลล์ และมีฟังก์ชันการขยายหน้าจอ

แอบซินเธียม

หมวดหมู่:

แท็ก:

สังเกตเห็นข้อผิดพลาด? เลือกด้วยเมาส์แล้วกด Ctrl+Enter!

ความคิดเห็น

กับ จุดทางเทคนิคฉันคิดว่าบทความนี้ถูกต้อง แต่เมื่อผู้เขียนกล่าวเสริมด้วยตนเอง ปัญหาก็เริ่มต้นขึ้น เห็นได้ชัดว่าเป็นเรื่องยากสำหรับคนที่เพิ่งเคยได้ยินเรื่องนี้และไม่ได้ใช้ตัดสินเป็นประจำ ดังนั้นอย่าถือเป็นการร้องเรียน ฉันแค่อยากจะชี้แจงอะไรบางอย่าง

ในความเป็นจริงระดับของการสังเคราะห์เสียงพูดนั้นค่อนข้างยอมรับได้ แม้ว่าแน่นอนว่าสิ่งที่ได้รับการพัฒนาเมื่อ 10 - 15 ปีที่แล้วยังคงมีอยู่และเป็นพวกเขาที่เจอเครือข่ายด้วยความคุ้นเคยกับหัวข้อนี้อย่างผิวเผิน แต่มีคนอื่นที่มีสติมากกว่า ใน 20 นาที คนๆ หนึ่งจะไม่เบื่อซินธิไซเซอร์ - ฉันทำงานกับซินธิไซเซอร์ 15 ชั่วโมงต่อวัน และมีหลายคนเหมือนฉัน แต่ถึงแม้คนที่ไม่เหมือนฉันและเพื่อนร่วมงานของฉันแต่เหมือนคนส่วนใหญ่ก็ยังสนุกกับการฟังเช่นหนังสือเสียงที่บันทึกจาก ไฟล์ข้อความโดยใช้เครื่องสังเคราะห์เสียงพูด บ่อยครั้งที่นักแสดงที่อ่านหนังสือเสียงทำให้คนดูเบื่อหน่ายเร็วกว่า 20 นาที ดังนั้นซินธิไซเซอร์ที่มีความตรงเหมือนเครื่องจักรและความแน่วแน่จึงมีแนวโน้มที่จะชนะใจคุณมากกว่า โดยเฉพาะอย่างยิ่งหากคุณไม่ใช่คนที่มีความสวยงาม แต่เป็นเพียงการรับข้อมูลเท่านั้น และโปรแกรมที่อยู่ในรายการตอนท้าย โดยเฉพาะราศีกันย์และงูเห่า ยังไม่เป็นที่รู้จักมากนักในละติจูดของเรา แม้แต่ในกลุ่มที่โปรแกรมเหล่านั้นพัฒนาขึ้นมาเพื่อพวกเขาก็ตาม โปรแกรมอ่านหน้าจอที่มีชื่อเสียงที่สุดคือ Jaw สำหรับ Windows โปรแกรมนี้เป็นผู้นำเหนือโซลูชันอื่นๆ โปรแกรมอ่านหน้าจอ nvda ก็ได้รับความนิยมในหมู่พวกเราและสมควรได้รับความสนใจอย่างไม่ต้องสงสัย ช่วยให้คนตาบอดสามารถแก้ไขปัญหาส่วนใหญ่ในชีวิตประจำวันและแจกจ่ายได้อย่างอิสระ

เทคโนโลยีสมัยใหม่ช่วยให้คุณสร้างคำพูดได้โดยตรงจากข้อความที่พิมพ์ ลองจินตนาการว่าคุณสามารถพิมพ์ข้อความได้ จากนั้นระบบจะพูดด้วยเสียงที่คุณเลือก ด้วยน้ำเสียงและความเร็วที่คุณเลือก และนี่ไม่ใช่นิยาย นี่คือความจริง

เครื่องสังเคราะห์เสียงพูดคืออะไร?

เครื่องสังเคราะห์เสียงพูด Text to Speech (TTS) - โปรแกรมพิเศษช่วยให้สามารถสร้างสัญญาณเสียงพูด (คำพูดเสียง) จากข้อความที่พิมพ์ได้ การกล่าวถึงการสังเคราะห์เสียงพูดครั้งแรกเกิดขึ้นตั้งแต่ศตวรรษที่ 10 ในตอนท้ายของศตวรรษที่ 18 นักวิทยาศาสตร์ Christian Kratzenstein ได้สร้างแบบจำลองระบบเสียงของมนุษย์ที่สามารถออกเสียงสระได้ห้าเสียง (a, e, i, o, u)

เครื่องสังเคราะห์เสียงพูดที่ใช้คอมพิวเตอร์เครื่องแรกปรากฏขึ้นในช่วงปลายทศวรรษ 1950 พวกเขาฟังดูค่อนข้างดั้งเดิมและคำพูดดังกล่าวสามารถเข้าใจได้ด้วยความยากลำบากอย่างยิ่ง การทำงานเพื่อปรับปรุงคุณภาพของคำพูดสังเคราะห์ยังคงดำเนินต่อไป แล้ววันนี้คำพูดที่สร้างขึ้น ระบบที่ทันสมัยการสังเคราะห์คำพูดบางครั้งไม่สามารถแยกแยะได้จากคำพูดของมนุษย์จริงๆ

ทำไมคุณถึงต้องใช้เครื่องสังเคราะห์เสียงพูด?

เครื่องสังเคราะห์เสียงพูดอาจมีประโยชน์สำหรับคุณในหลายกรณี เช่น:
  • ขณะเดินทาง- เพียงพิมพ์วลีใดก็ได้แล้วโปรแกรมจะออกเสียงเป็นภาษาที่คุณต้องการ
  • เพื่ออ่านหนังสืออิเล็กทรอนิกส์ ข้อความ เอกสาร- คุณไปเกี่ยวกับธุรกิจของคุณและโปรแกรมจะอ่านออกเสียงให้คุณฟัง
  • สำหรับการเรียนรู้ภาษาต่างประเทศ- โอกาสที่ดีในการฝึกทักษะการออกเสียงและการพูดฟรี

เครื่องสังเคราะห์เสียงพูด A1 SpeechTRON

A1 สุนทรพจน์ตรอน- สังเคราะห์เสียงพูดภาษาอังกฤษจากข้อความ สามารถใช้อ่านบันทึกย่อ เอกสารข้อความ, e-booksและสื่อข้อความอื่นๆ (รูปแบบ: ข้อความ, RTF, DOC) สามารถใช้เครื่องสังเคราะห์เสียงพูด (TTS) ในการเรียนภาษาอังกฤษได้ โปรแกรมรองรับ Microsoft TTS SAPI 4.0 อย่างสมบูรณ์ มีอินเทอร์เฟซที่ปรับแต่งได้อย่างเต็มที่ คุณภาพสูงเสียง การตั้งค่าความเร็วในการอ่าน การเขียนลงไฟล์ มีการรองรับพจนานุกรมแบบกำหนดเองและพจนานุกรมเพิ่มเติม

เครื่องสังเคราะห์เสียงพูด ReadPlease

โปรดอ่าน- สังเคราะห์เสียงพูดภาษาอังกฤษจากข้อความ สามารถใช้ในการอ่านข้อความ คลิปบอร์ด เอกสารข้อความ หนังสืออิเล็กทรอนิกส์ และสื่อข้อความอื่นๆ (รูปแบบ: ข้อความ, RTF, DOC) สามารถใช้เครื่องสังเคราะห์เสียงพูด (TTS) ในการเรียนภาษาอังกฤษได้ หลังจากเปิดตัว โปรแกรมจะอยู่ในถาดและควบคุมด้วยปุ่มลัด สามารถเชื่อมต่อกับ windows หรือ desktop ต่างๆ เวอร์ชันที่ต้องชำระเงินรองรับภาษาเพิ่มเติม มาตรฐาน AT&T Natural Voices คุณสมบัติเพิ่มเติม- โปรแกรมมีสองเวอร์ชัน: ฟรีและจ่ายเงิน มีการรองรับพจนานุกรมแบบกำหนดเองและพจนานุกรมเพิ่มเติม

เครื่องสังเคราะห์เสียง ReadingBar

รีดดิ้งบาร์- เครื่องสังเคราะห์เสียงพูดจากหน้าเว็บใดก็ได้ นี่คือแผงเบราว์เซอร์ อินเทอร์เน็ตเอ็กซ์พลอเรอร์ซึ่งหลังจากการติดตั้งจะถูกสร้างขึ้นในเบราว์เซอร์และช่วยให้คุณสามารถอ่านหน้าเว็บใดก็ได้ คุณสามารถบันทึกเสียงของคุณเป็นไฟล์ wav หรือ mp3 นอกเหนือจากการออกเสียงข้อความแล้ว ReadBar ยังช่วยให้คุณเน้นคำศัพท์ แปลเป็น 4 ภาษา และแสดงการตีความคำศัพท์จากพจนานุกรม โปรดระวัง ReadingBar จะไม่ทำงานบนระบบปฏิบัติการ Vista หรือ Internet Explorer 7

เครื่องสังเคราะห์เสียงพูด FlameReader

FlameReaderเป็นเครื่องสังเคราะห์เสียงพูดแบบมัลติฟังก์ชั่นที่ช่วยให้คุณสามารถสร้างเสียงพูดจากข้อความหรือไฟล์ใดก็ได้ เพียงเลือกข้อความในโปรแกรมหรือเอกสารใดก็ได้ จากนั้น FlameReader จะออกเสียงข้อความนั้นทันที โปรแกรมมีความสามารถมากมาย: การบันทึกเสียงเป็นไฟล์ (wav และ mp3), การอ่านอีเมล, เอกสาร, เว็บเพจ, การพากย์เสียงงานนำเสนอ PowerPoint, การแปลข้อความ คุณสามารถกำหนดค่า FlameReader ในวิธีที่สะดวกสำหรับคุณได้ตลอดเวลาโดยการเลือก เครื่องยนต์เสียงความเร็วในการเล่น และพารามิเตอร์อื่นๆ FlameReader เพิ่มแถบนำทางให้กับชุดซอฟต์แวร์ ไมโครซอฟต์ ออฟฟิศทำให้ง่ายต่อการทำงานด้วย มาพร้อมโปรแกรม บรรณาธิการที่สะดวกไฟล์เสียง

เครื่องสังเคราะห์เสียงพูด Alive Text to Speech

ข้อความเป็นคำพูดที่มีชีวิตชีวา- เครื่องสังเคราะห์เสียงพูดแบบมัลติฟังก์ชั่นที่ช่วยให้คุณไม่เพียงแต่ออกเสียงคำ ข้อความ และไฟล์เท่านั้น แต่ยังบันทึก (แปลง) เป็นไฟล์เสียง (MP3, WAV, OGG, VOX) ในชุดประกอบด้วยแผงสำหรับ อินเทอร์เน็ตเบราว์เซอร์ Explorer ซึ่งช่วยให้คุณสามารถส่งเสียงหน้าเว็บใด ๆ และแปลงเป็นไฟล์เสียงได้

เครื่องสังเคราะห์เสียงพูด YeoSoft Text to MP3 Speaker

YeoSoft ข้อความเป็นลำโพง MP3- เครื่องสังเคราะห์เสียงพูดแบบมัลติฟังก์ชั่นที่ให้คุณบันทึกเสียงข้อความและสร้างหนังสือเสียงได้หลากหลาย รูปแบบเสียง- นี่เป็นเครื่องมือที่มีประสิทธิภาพสำหรับการเรียนรู้ภาษาต่างประเทศ รองรับเทคโนโลยี SAPI 4 และ 5 ไฟล์ DOCและ PDF 10 ภาษา ทำงานกับหลายไฟล์พร้อมกัน ความสามารถในการเพิ่มแท็ก xml ให้กับข้อความเพื่อควบคุมการออกเสียง การตั้งค่าเสียง: ระดับเสียง ความเร็ว ตัวเลือกโปรแกรมเสียง

โปรแกรมสังเคราะห์เสียงพูด TextAloud

ข้อความAloud- โปรแกรมสำหรับสร้างคำพูดจากข้อความและไฟล์ เสียงพูดที่สร้างขึ้นสามารถฟังโดยใช้คอมพิวเตอร์หรือบันทึกเป็นไฟล์ MP3 หรือ WMA ซินธิไซเซอร์รองรับไฟล์ประเภทต่อไปนี้: DOC, PDF และ HTML โปรแกรมยังมีแถบเครื่องมือสำหรับ Internet Explorer, Firefox และ Outlook

เครื่องสังเคราะห์เสียงพูดแบบละเอียด

ข้อความเสียง- แปลงข้อความเป็นไฟล์เสียง (wav และ mp3) โปรแกรมขนาดเล็กนี้จะช่วยให้คุณแปลงข้อความเป็นคำพูดได้อย่างรวดเร็วและบันทึกเป็นไฟล์เสียง โปรแกรมช่วยให้คุณสามารถประมวลผลไฟล์หลายไฟล์พร้อมกันและสร้างรายการงานได้

เราได้เรียนรู้ที่จะจดจำคำพูด แม้ว่าตอนนี้เราจะใช้ภาษาอังกฤษเท่านั้น เราจะไม่หยุดนิ่ง เราจะไปไกลกว่านี้หรือไปในทิศทางตรงกันข้าม - เราจะแปลงข้อความเป็นคำพูดด้วยเสียง

เครื่องสังเคราะห์เสียงพูดที่ได้รับความนิยมและเป็นอิสระที่สุดที่ฉันรู้จักและมีประสบการณ์จริง: งานเทศกาล, eSpeak, โอเพ่นแมรี่.
ลองดูทั้ง 3 รายการตามลำดับ

งานเทศกาล

ระบบปฏิบัติการ:ลินุกซ์
ภาษารัสเซีย:
ใช่ (เสียงผู้ชาย)
เว็บไซต์: http://www.cstr.ed.ac.uk/projects/festival/

ซินธิไซเซอร์ที่ค่อนข้างสูงมาพร้อมกับชุดภาษาต่อไปนี้: อังกฤษ (ในการออกเสียงภาษาอังกฤษและอเมริกัน) ภาษาเวลส์และภาษาสเปน นอกจากนี้ยังมีแพ็คเกจอื่นๆ เช่น สเปน Castilian, เช็ก, ฟินแลนด์, ฮินดี, อิตาลี, มราฐี, โปแลนด์, รัสเซีย และเตลูกู Festival รวมอยู่ในลีนุกซ์หลายรุ่น ซินธิไซเซอร์เข้าใจภาษารัสเซียได้ค่อนข้างดี หากคุณลองใช้การสะกดคำและเครื่องหมายวรรคตอน คุณก็จะสามารถพูดได้อย่างเหมาะสม

การติดตั้ง

มีสื่อมากมายบนเครือข่ายเกี่ยวกับการติดตั้งเทศกาลและเพิ่มภาษารัสเซีย ดังนั้นฉันจะไม่ลงรายละเอียดมากเกินไป ฉันแค่บอกว่าคุณจะต้องติดตั้งเทศกาลเอง (ติดตั้งจากพื้นที่เก็บข้อมูล - เทศกาล) และชุดภาษารัสเซียซึ่งติดตั้งจากพื้นที่เก็บข้อมูลด้วย (festvox-ru) ดังนั้นคุณควรปรับแต่งการกำหนดค่าเล็กน้อย มีบทความดีๆในเรื่องนี้

การใช้งาน

ในคอนโซล:

ก้อง "สวัสดี" | เทศกาล --tts --ภาษารัสเซีย

eSpeak

ระบบปฏิบัติการ:ลินุกซ์, วินโดวส์, Mac OS X, RISC OS
ภาษารัสเซีย:
ใช่ (เสียงผู้ชาย)
เว็บไซต์:

โปรแกรมสังเคราะห์เสียงพูดของซอฟต์แวร์ที่เรียบง่ายและกะทัดรัด จากข้อมูลดังกล่าว eSpeak ใช้ในระบบปฏิบัติการมือถือ ระบบแอนดรอยเริ่มตั้งแต่เวอร์ชั่น 1.6 และ Maemo เวอร์ชันสำหรับ Windows และ Linux ได้รับการอัพเดตเป็นประจำ ซอร์สโค้ดกับแพลตฟอร์มอื่น ๆ สิ่งต่าง ๆ แย่ลง รองรับหลายภาษา เช่น รัสเซีย อังกฤษ ฝรั่งเศส สเปน ฯลฯ หากเราเปรียบเทียบคำพูดของรัสเซีย eSpeak ก็ยังด้อยกว่า Festival, อังกฤษ, ฝรั่งเศส และเยอรมันก็เท่าเทียมกัน

การติดตั้ง

ในบางรุ่น มีการติดตั้ง Linux eSpeak ไว้แล้ว หากไม่เป็นเช่นนั้น ก็สามารถติดตั้งได้ง่ายๆ จากคอนโซล (espeak) หรือโดยการดาวน์โหลด เวอร์ชันที่ต้องการตัวอย่างเช่น ในกรณีของ Windows

การใช้งาน

ในคอนโซล:

Espeak "สวัสดีชาวโลก!" -vru -s 100

ที่ไหน:
-v ภาษา (ru, en, de)
- ความเร็ว (80-450)

โอเพ่นแมรี่

ระบบปฏิบัติการ:ลินุกซ์, วินโดวส์, Mac OS X
ภาษารัสเซีย:
ใช่ (เสียงผู้ชาย)
เว็บไซต์:
http://mary.opendfki.de

ซินธิไซเซอร์อายุน้อยและยังไม่ได้รับความนิยมมากนัก แต่ในขณะเดียวกันก็ใช้งานได้ดีและก้าวหน้ามาก เขียนด้วยภาษา Java ซึ่งช่วยให้เป็นอิสระจากแพลตฟอร์ม มันทำงานบนหลักการไคลเอนต์-เซิร์ฟเวอร์ มีโปรแกรมเสริมคำพูดขั้นสูง ซึ่งคุณสามารถระบุน้ำเสียง เสียงต่ำ และความเร็วสำหรับแต่ละคำได้ มาพร้อมกับไคลเอนต์ที่เขียนด้วย Java เดียวกันพร้อมอินเทอร์เฟซแบบกราฟิก

การติดตั้ง

การติดตั้งค่อนข้างง่ายและไม่ต้องใช้ความพยายามใด ๆ ดาวน์โหลดตัวติดตั้ง Java (อย่าลืมว่าต้องใช้ Java) . เปิดตัวโปรแกรมติดตั้งและทำตามคำแนะนำ ในขั้นตอนหนึ่งของการติดตั้ง คุณจะถูกขอให้เลือกชุดภาษาที่เราจะใช้ , สำหรับตัวฉันเอง ฉันเลือกภาษารัสเซียและภาษาอังกฤษ

การใช้งาน

ไปที่ไดเร็กทอรีการติดตั้งไปที่โฟลเดอร์ ถังขยะและเริ่มเซิร์ฟเวอร์ - แมรี่เซิร์ฟเวอร์ทันทีที่เซิร์ฟเวอร์เริ่มทำงาน ให้เปิดไคลเอนต์ - maryclient.

หากทุกอย่างถูกต้อง หลังจากกดปุ่ม "เล่น" คุณจะได้ยินการออกเสียงของข้อความที่เขียน ในโฟลเดอร์ตัวอย่าง ไดเร็กทอรีด้านบน มีตัวอย่างการใช้งานไคลเอ็นต์สำหรับภาษาต่างๆ

บทสรุป

งานเทศกาล:สำหรับโครงการบ้านและองค์กรโดยเฉลี่ย (แจ้งสภาพอากาศ การอ่านตัวอักษร “ภาษา” สำหรับบอท ฯลฯ)
eSpeak:เพื่อดำเนินงานเล็กๆ น้อยๆ (แจ้งเวลาปัจจุบัน, แจ้งรถติด, จำนวนตัวอักษรเข้า) ตู้ไปรษณีย์, พื้นที่ว่างบนฮาร์ดไดรฟ์ ฯลฯ)
โอเพ่นแมรี่:สำหรับโครงการขนาดใหญ่ (ระบบ” บ้านอัจฉริยะ", พากย์เสียงโปรแกรม, อ่านข้อความขนาดใหญ่)

เครื่องสังเคราะห์เสียงพูดถูกนำมาใช้ในชีวิตประจำวันมากขึ้น เครื่องสังเคราะห์เสียงพูดดังที่เห็นได้จากชื่อเพียงอย่างเดียว ดำเนินการสังเคราะห์เสียงพูด กล่าวคือ จัดรูปแบบข้อความที่เขียนเป็นข้อความพูด

ด้วยเหตุนี้ คุณจึงสามารถเรียนรู้คำศัพท์ภาษาต่างประเทศใหม่ ๆ ที่มีการออกเสียงที่ถูกต้อง อ่านหนังสือโดยไม่เสียสมาธิจากงานของคุณ หรือ เช่น ขณะเดินทาง ในขั้นต้นการพัฒนาโปรแกรมดังกล่าวดำเนินการโดยองค์กรที่เชี่ยวชาญด้านเทคโนโลยีสำหรับผู้ที่มีปัญหาด้านการมองเห็น

ตอนนี้ผู้ใช้สามารถดาวน์โหลดโปรแกรมใดโปรแกรมหนึ่ง ติดตั้งลงในคอมพิวเตอร์หรือโทรศัพท์ และสังเคราะห์เสียงพูด รวมถึงภาษารัสเซียได้ด้วย

เพื่อจุดประสงค์นี้จึงมีการพัฒนาหลายอย่าง โปรแกรมต่างๆที่แนบมาและแม้แต่ทั้งระบบ น่าเสียดายที่ไม่ใช่ทั้งหมดที่มีไว้สำหรับผู้ฟังที่พูดภาษารัสเซีย

1. อะคาเพอลา

Acapela เป็นหนึ่งในเครื่องสังเคราะห์เสียงพูดที่ใช้กันอย่างแพร่หลายทั่วโลก โปรแกรมจดจำและอ่านข้อความได้มากกว่าสามสิบภาษา ภาษารัสเซียรองรับสองเสียง: เสียงผู้ชาย - นิโคไล เสียงผู้หญิง - อเลนา
เสียงผู้หญิงปรากฏช้ากว่าเสียงผู้ชายมากและล้ำหน้ากว่ามาก

การติดตั้งโปรแกรมดำเนินไปได้โดยไม่มีปัญหา มีการพัฒนาเวอร์ชันสำหรับห้องผ่าตัด ระบบวินโดวส์, Linux, Mac รวมถึงระบบปฏิบัติการมือถือ Android และ IOS

ชำระค่าโปรแกรมแล้ว คุณสามารถดาวน์โหลดได้จากเว็บไซต์ทางการของ Acapela

2. โวคาไลเซอร์

อันดับสองในรายการของเรา แต่ไม่ได้รับความนิยมคือเอ็นจิ้น Milena จากผู้พัฒนาโปรแกรม Vocalizer ชื่อ Nuance
น้ำเสียงดูเป็นธรรมชาติมาก คำพูดก็ชัดเจน เป็นไปได้ที่จะติดตั้งพจนานุกรมต่าง ๆ รวมถึงปรับระดับเสียง ความเร็ว และการเน้นซึ่งไม่สำคัญ
เช่นเดียวกับ Acapela โปรแกรมมีเวอร์ชันที่แตกต่างกันสำหรับแอปพลิเคชันบนมือถือ ยานยนต์ และเดสก์ท็อป เหมาะสำหรับการอ่านหนังสือ

คุณสามารถดาวน์โหลด Vokalizer และเครื่องยนต์ Milena ภาษารัสเซียทุกเวอร์ชันได้จากเว็บไซต์อย่างเป็นทางการของผู้ผลิตโปรแกรม

3. อาร์เอชวอยซ์

รหัสซินธิไซเซอร์นั้นเปิดสำหรับทุกคนและโปรแกรมนั้นฟรีอย่างแน่นอน
RHVoice เปิดตัวในสองเวอร์ชัน: เป็นโปรแกรมแยกต่างหากและเป็นแอปพลิเคชันสำหรับ NVDA
สามารถดาวน์โหลดทุกเวอร์ชันได้จากเว็บไซต์อย่างเป็นทางการของผู้พัฒนา

4.ESpeak

eSpeak เครื่องสังเคราะห์เสียงพูดฟรีเวอร์ชันแรกเปิดตัวในปี 2549 ตั้งแต่นั้นมา บริษัทพัฒนาก็ได้ออกเวอร์ชันขั้นสูงมากขึ้นเรื่อยๆ เวอร์ชันล่าสุดถวายในปลายฤดูใบไม้ผลิปีสองพันสิบสาม

eSpeak สามารถติดตั้งได้บนระบบปฏิบัติการต่อไปนี้:

  • ไมโครซอฟต์ วินโดวส์
  • แมคโอเอสเอ็กซ์,
  • ลินุกซ์
  • ระบบปฏิบัติการ RISC

นอกจากนี้ยังสามารถคอมไพล์โค้ดสำหรับ Windows Mobile ได้ แต่คุณจะต้องทำด้วยตัวเอง
แต่ด้วยระบบปฏิบัติการบนมือถือ โปรแกรมแอนดรอยใช้งานได้โดยไม่มีปัญหา แม้ว่าพจนานุกรมภาษารัสเซียจะยังไม่ได้รับการพัฒนาอย่างสมบูรณ์ก็ตาม มีเสียงที่พูดภาษารัสเซียได้มากมาย คุณสามารถเลือกได้ตามรสนิยมของคุณ

5.เทศกาล

Festival คือระบบรู้จำและสังเคราะห์คำพูดทั้งหมดที่พัฒนาขึ้นที่มหาวิทยาลัยเอดินบะระ
โปรแกรมและโมดูลทั้งหมดนั้นฟรีและเผยแพร่ผ่านระบบโอเพ่นซอร์ส คุณสามารถดาวน์โหลดและดูเวอร์ชันสาธิตได้จากเว็บไซต์อย่างเป็นทางการของ University of Edinburgh