- 질문 게시판입니다.
| Date | 26/04/02 17:42:34 |
| Name | *alchemist* |
| Subject | 숫자를 입력하면 읽어주는 PC 프로그램이 필요합니다 |
|
안녕하세요 *alchemist*입니다 아시는 분은 아시겠지만 제가 카페를 열어서 열심히 일을 하고 있는 중입니다 다름이 아니라 최근 바깥 자리에 테이블을 좀 깔았는데 밖에서 주문하신 분들이 본인 주문 나오신 걸 모르시면 직원들이나 제가 큰 소리로 여러번 불러야 하는 때가 있더라구요. 아니면 주문이 여러개 몰려서 기다리실 때 지금 나온 음료가 본인 것이라 가져가도 되는지 구분하시기 어려운 경우도 종종 있구요 바깥에 스피커는 설치되어 있어서 포스 기계(윈도우 사용하는 기계입니다)를 통해 스피커로 ‘00번 주문 음료 가져 가십시오’ 정도만 출력이 되면 될 거 같은데 찾아봐도 그냥 TTS 이야기만 나오고 제가 원하는 정도의 프로그램이 없더라구요. 다른 매장에서는 포스 기계가 아닌 TV를 통해서 출력을 한다고 하는데 비용도 들고 생각보다 가격대비 효용성이 없다고 해서 ㅡ.ㅡ;; 포스기계로 그냥 출력하는게 어떨까 싶거든요 숫자를 키보드로 입력하면 출력은 엔터키 누르면 다시 엔터키(다른 키도 상관없겠지요) 눌러지기 전까지 적당한 간격으로 소리가 반복이 되면 좋을 거 같고… 그러고 나서 숫자 다시 압력해서 소리 출력하고.. 무한 반복.. ㅎㅎ;; 혹시 이런 프로그램 혹시 보신 적 있으신가요? 0
이 게시판에 등록된 *alchemist*님의 최근 게시물
|
|
제가 그 완벽하게 비슷한 프로그램은 아니어도, 나름 꽤 유사한 프로그램을 쓰고 있는데.
say.bat파일입니다.
say.bat라는 파일을 메모장으로 만들고 그 안에
@echo off
powershell -Command "Add-Type -AssemblyName System.Speech; $arg='%*'; $sim = New-Object System.Speech.Synthesis.SpeechSynthesizer; if ($arg -match '^[a-zA-Z]') { $sim.S... 더 보기
say.bat파일입니다.
say.bat라는 파일을 메모장으로 만들고 그 안에
@echo off
powershell -Command "Add-Type -AssemblyName System.Speech; $arg='%*'; $sim = New-Object System.Speech.Synthesis.SpeechSynthesizer; if ($arg -match '^[a-zA-Z]') { $sim.S... 더 보기
제가 그 완벽하게 비슷한 프로그램은 아니어도, 나름 꽤 유사한 프로그램을 쓰고 있는데.
say.bat파일입니다.
say.bat라는 파일을 메모장으로 만들고 그 안에
@echo off
powershell -Command "Add-Type -AssemblyName System.Speech; $arg='%*'; $sim = New-Object System.Speech.Synthesis.SpeechSynthesizer; if ($arg -match '^[a-zA-Z]') { $sim.SelectVoice('Microsoft Zira Desktop') }; $sim.Speak($arg)"
라고 적으신뒤에
커맨드라인(cmd.exe)에서
say 나는 바보입니다.
라고 입력하면 스피커에서 "나는 바보입니다"라는 메세지가 음성으로 출력됩니다.
say.bat파일입니다.
say.bat라는 파일을 메모장으로 만들고 그 안에
@echo off
powershell -Command "Add-Type -AssemblyName System.Speech; $arg='%*'; $sim = New-Object System.Speech.Synthesis.SpeechSynthesizer; if ($arg -match '^[a-zA-Z]') { $sim.SelectVoice('Microsoft Zira Desktop') }; $sim.Speak($arg)"
라고 적으신뒤에
커맨드라인(cmd.exe)에서
say 나는 바보입니다.
라고 입력하면 스피커에서 "나는 바보입니다"라는 메세지가 음성으로 출력됩니다.
https://redtea.kr/pb/download.php?id=mine&no=15863&filenum=1
위 파일인데... 근데 그 머랄까, 생각보다 먼가 그 결과물이 깔쌈한 너낌은 잘 안남......
my게시판에 첨부파일로 올렸는데 다운로드가 될지 모르겠읍니다.
위 파일인데... 근데 그 머랄까, 생각보다 먼가 그 결과물이 깔쌈한 너낌은 잘 안남......
my게시판에 첨부파일로 올렸는데 다운로드가 될지 모르겠읍니다.
일단 Python(Tkinter)로 클로드에게 만들어 달라고 해 보았습니다.
TTS 버전과, 사람이 녹음('일', '이', '삼' 이런 식으로 )해서 이어 붙이는 버전을 만들어 달라고 했는데, 이 화면은 TTS 버전입니다.
윈도우에 내장된 TTS와 gTTS (구글 TTS)를 선택할 수 있습니다.
위의 매뉴물있뉴 님의 "육십 여섯번"을 보고 재빨리 반영하였습니다. : )
코드는 아래에 있습니다.
https://gist.github.com/gitionic/bbc5d9d290648aded19a5678bef99b92
오오옷!!! 일하고 오니 이런 결과물들이 ㅜㅠ 역시 킹차넷이군요 ㅠㅠ 감사합니다. 놋북으로 트라이해서 포스기에서 테스트해보고 쓰겠습니다 감사합니다!
로컬 모델 TTS 들은 너무 부자연스러워서 쓰기가 힘들더라고요.
좀 더 자연스러운 목소리를 원하면 수퍼톤 API를,
가격과 타협한 목소리를 쓰려면 그록 API를 쓰는게 좋겠습니다.
이거는 제가 그록 API로 만들어본 AI 스피커 테스트 버전.
https://www.youtube.com/watch?v=5SOTUurmyGQ
좀 더 자연스러운 목소리를 원하면 수퍼톤 API를,
가격과 타협한 목소리를 쓰려면 그록 API를 쓰는게 좋겠습니다.
이거는 제가 그록 API로 만들어본 AI 스피커 테스트 버전.
https://www.youtube.com/watch?v=5SOTUurmyGQ
https://play.supertone.ai/subscription
여기서 봐바. 구독 모델별로 크레딧 충전량이 표시되어있어.
https://docs.supertoneapi.com/ko/user-guide/welcome
한국어 문서는 여기에 있는데... 문장당 크레딧을 얼마나 쓸지 모르겠네
여기서 봐바. 구독 모델별로 크레딧 충전량이 표시되어있어.
https://docs.supertoneapi.com/ko/user-guide/welcome
한국어 문서는 여기에 있는데... 문장당 크레딧을 얼마나 쓸지 모르겠네
아 내가 썼던 내역이 있다.
평균 내면 대답 한번에 나가는 크레딧 양을 추정할 수 있겠어.
날짜 내용 만료일 크레딧
2026-03-20 Generate TTS API - -23
2026-03-20 Generate TTS API - -37
2026-03-20 Generate TTS API - -16
2026-03-19 Generate TTS API - -8
2026-03-19 Generate TTS API - -140
2026-03-19 Generate TTS API - -80
2026-03-19 Generate TTS API - -8
2026-03-19 Generate TTS API - -44
2026-03-19 Generate TTS API - -40
2026-03-19 Generate TTS API - -8
평균 내면 대답 한번에 나가는 크레딧 양을 추정할 수 있겠어.
날짜 내용 만료일 크레딧
2026-03-20 Generate TTS API - -23
2026-03-20 Generate TTS API - -37
2026-03-20 Generate TTS API - -16
2026-03-19 Generate TTS API - -8
2026-03-19 Generate TTS API - -140
2026-03-19 Generate TTS API - -80
2026-03-19 Generate TTS API - -8
2026-03-19 Generate TTS API - -44
2026-03-19 Generate TTS API - -40
2026-03-19 Generate TTS API - -8
클로드 코드에서 계산돌리니 대충 대답 한 번에 10원씩 나가는 요금이네요.
하지만 모델을 구독해놓고 못쓰고 버리는 크레딧이 있을 수도 있어서... 그런거 계산하면 대답 한번에 30원 정도라고 봐야 할지도?
하지만 모델을 구독해놓고 못쓰고 버리는 크레딧이 있을 수도 있어서... 그런거 계산하면 대답 한번에 30원 정도라고 봐야 할지도?
하이브리드 버전을 추가하였습니다.
다른 TTS나 사람 목소리를 녹음하여 "주문 음료를 가져가십시오" 음성의 wav 파일을 만들면,
번호만 TTS로 재생하고 나머지 "주문 음료를 가져가십시오"는 wav에서 재생할 수 있습니다.
번호가 몇 번 까지 올라가는진 모르겠습니다만, ElevenLabs 같은걸 이용해서 1번부터 대충 100번까지 목소리를 전문 TTS로 생성해놓고 이걸 순서에 맞게 재생해주는 방식도 가능할 것 같습니다.
'번 손님 주문하신 음료 나왔습니다' 를 1개 만들어놓고 '일' '이' '삼' ~~~ '백' 까지만 따로 음성 파일로 만들고 번호에 맞게 '일' '번 손님 ~~~' 과 같이 재생하는 방식으로 하면 로컬 TTS모델이나 API 없이 최초 생성 이후 별도 비용 없이 가능할 것 같습니다.
이정도 규모라면 무료로 제공해주는 1만 토큰 정도로도 충분하지 않나 싶기도 하네요.
'번 손님 주문하신 음료 나왔습니다' 를 1개 만들어놓고 '일' '이' '삼' ~~~ '백' 까지만 따로 음성 파일로 만들고 번호에 맞게 '일' '번 손님 ~~~' 과 같이 재생하는 방식으로 하면 로컬 TTS모델이나 API 없이 최초 생성 이후 별도 비용 없이 가능할 것 같습니다.
이정도 규모라면 무료로 제공해주는 1만 토큰 정도로도 충분하지 않나 싶기도 하네요.
늦었지만 참전해봅니다.
브라우저 TTS를 쓸까하다가 API 를 쓰게 만들었습니다.
취소 [~WASM으로 구현된 TTS가 있어서 자체 엔진으로 가동가능하게~]
그외에⋯
- 현재 상태/설정 저장
- 자동 숫자 올림 기능
- 자릿수별 숫자 추가 단축 버튼
- 안내문구 변경 기능
- 안내 내역 목록 기능
- 지난 안내 재생 기능
- 넓은 화면/좁은 화면 대응
- 안내방송 중 번호를 변경하는 경우 번호추가 기능을 일시중지
- 엔터로 방송 개시
- 냅다 숫자를 입력하면 번... 더 보기
브라우저 TTS를 쓸까하다가 API 를 쓰게 만들었습니다.
취소 [~WASM으로 구현된 TTS가 있어서 자체 엔진으로 가동가능하게~]
그외에⋯
- 현재 상태/설정 저장
- 자동 숫자 올림 기능
- 자릿수별 숫자 추가 단축 버튼
- 안내문구 변경 기능
- 안내 내역 목록 기능
- 지난 안내 재생 기능
- 넓은 화면/좁은 화면 대응
- 안내방송 중 번호를 변경하는 경우 번호추가 기능을 일시중지
- 엔터로 방송 개시
- 냅다 숫자를 입력하면 번... 더 보기
늦었지만 참전해봅니다.
브라우저 TTS를 쓸까하다가 API 를 쓰게 만들었습니다.
취소 [~WASM으로 구현된 TTS가 있어서 자체 엔진으로 가동가능하게~]
그외에⋯
- 현재 상태/설정 저장
- 자동 숫자 올림 기능
- 자릿수별 숫자 추가 단축 버튼
- 안내문구 변경 기능
- 안내 내역 목록 기능
- 지난 안내 재생 기능
- 넓은 화면/좁은 화면 대응
- 안내방송 중 번호를 변경하는 경우 번호추가 기능을 일시중지
- 엔터로 방송 개시
- 냅다 숫자를 입력하면 번호 수정을 시작
- ESC 를 눌러 0으로 리셋
- 만들어진 음성은 캐쉬로 저장
- 캐쉬 export/import 기능
그외 안내음성 출력 중 연타방지나 자잘한 폴리싱에도 신경을 썼습니다.
브라우저 TTS를 쓸까하다가 API 를 쓰게 만들었습니다.
취소 [~WASM으로 구현된 TTS가 있어서 자체 엔진으로 가동가능하게~]
그외에⋯
- 현재 상태/설정 저장
- 자동 숫자 올림 기능
- 자릿수별 숫자 추가 단축 버튼
- 안내문구 변경 기능
- 안내 내역 목록 기능
- 지난 안내 재생 기능
- 넓은 화면/좁은 화면 대응
- 안내방송 중 번호를 변경하는 경우 번호추가 기능을 일시중지
- 엔터로 방송 개시
- 냅다 숫자를 입력하면 번호 수정을 시작
- ESC 를 눌러 0으로 리셋
- 만들어진 음성은 캐쉬로 저장
- 캐쉬 export/import 기능
그외 안내음성 출력 중 연타방지나 자잘한 폴리싱에도 신경을 썼습니다.
음 요새 AI 좋네요 ㅋㅋㅋ
HTML 로 만들어 봤....
기본은 무료 브라우저 TTS 구요.
필요하면 Azure 고음질 / 무료 한도 넘어서 실패 시 자동 fallback (선택 가능)
주문 번호는 수동 입력
로그 기능이랑 호출 횟수(수동 조정 가능) 카운팅 붙여봤습니다.
https://naver.me/xeFHu4iq
(일하기 싫어서 이러고 있,,)
HTML 로 만들어 봤....
기본은 무료 브라우저 TTS 구요.
필요하면 Azure 고음질 / 무료 한도 넘어서 실패 시 자동 fallback (선택 가능)
주문 번호는 수동 입력
로그 기능이랑 호출 횟수(수동 조정 가능) 카운팅 붙여봤습니다.
https://naver.me/xeFHu4iq
(일하기 싫어서 이러고 있,,)
다른 분들이 잘 만들어주셔서 별 의미는 없겠지만..
SAPI 선택시 음성 속도가 너무 느려서 기본을 0으로 하고, 속도 조절이 가능하도록 수정했습니다.
SAPI 선택시 음성 속도가 너무 느려서 기본을 0으로 하고, 속도 조절이 가능하도록 수정했습니다.
https://www.afire.work/utility/neowait/
에 들어가시면 사용하실 수 있습니다.
WASM으로 생성하는 로직을 넣었었는데, 배포에 적합하지 않고 자주 터져서⋯
그냥 Gemini TTS 를 넣었습니다.
접속하시면 기본적으로 브라우저 TTS가 적용되어 있는데,
매우 별로일겁니다 (특히 윈도우)
오른쪽 위 Gemini 버튼을 클릭하시고 API 키를 발급받아 넣으시면 (무료 가능)
Gemini 가 읽어주는 깔끔... 더 보기
에 들어가시면 사용하실 수 있습니다.
WASM으로 생성하는 로직을 넣었었는데, 배포에 적합하지 않고 자주 터져서⋯
그냥 Gemini TTS 를 넣었습니다.
접속하시면 기본적으로 브라우저 TTS가 적용되어 있는데,
매우 별로일겁니다 (특히 윈도우)
오른쪽 위 Gemini 버튼을 클릭하시고 API 키를 발급받아 넣으시면 (무료 가능)
Gemini 가 읽어주는 깔끔... 더 보기
https://www.afire.work/utility/neowait/
에 들어가시면 사용하실 수 있습니다.
WASM으로 생성하는 로직을 넣었었는데, 배포에 적합하지 않고 자주 터져서⋯
그냥 Gemini TTS 를 넣었습니다.
접속하시면 기본적으로 브라우저 TTS가 적용되어 있는데,
매우 별로일겁니다 (특히 윈도우)
오른쪽 위 Gemini 버튼을 클릭하시고 API 키를 발급받아 넣으시면 (무료 가능)
Gemini 가 읽어주는 깔끔한 음성이 생성됩니다.
한 번 생성한 음성은 캐쉬로 저장되어 계속해서 재사용되기 때문에
쓰면 쓸 수록 API 호출 횟수가 줄어들어서 무료 키로도 운영이 가능한 상태가 됩니다.
생성된 음성 캐쉬가 맘에 들지 않으면 해당 항목을 삭제할 수 있습니다.
캐쉬가 없고 API 사용량이 남아 있으면 다시 생성됩니다.
문구도 변경할 수 있습니다.
기본적으로 윈도우Edge TTS 를 고려해서 번호를 읽기 전에 뜸들이는 단어를 넣어두었습니다.
다른 건 먼저 설명 드린 기능들과 같습니다.
제 추천은⋯ (구형) 아이패드 같은 것에 (싼) 블루투스 키보드 (없어도 됨)를 붙여서 운영하는 것입니다.
기본 브라우저 TTS가 그나마 들어줄만 해서 API 사용량이 부족할 때 폴백으로 떨어져도
음성 품질이 크게 나빠지지 않을 겁니다.
나름 업장에서 사용하실 때의 편의성을 고려해서 만들긴 했습니다만,
실제 사용하시면서 불편한 점이 있다면 언제든 말씀해 주십시오.
(선택 받았을 때 이야기지만⋯)
기타 설명은 아래에 있습니다⋯ 그런데 이미 다 설명한 내용입니다. ㅎㅎ
https://www.afire.work/?category=utility/&project=neowait/
에 들어가시면 사용하실 수 있습니다.
WASM으로 생성하는 로직을 넣었었는데, 배포에 적합하지 않고 자주 터져서⋯
그냥 Gemini TTS 를 넣었습니다.
접속하시면 기본적으로 브라우저 TTS가 적용되어 있는데,
매우 별로일겁니다 (특히 윈도우)
오른쪽 위 Gemini 버튼을 클릭하시고 API 키를 발급받아 넣으시면 (무료 가능)
Gemini 가 읽어주는 깔끔한 음성이 생성됩니다.
한 번 생성한 음성은 캐쉬로 저장되어 계속해서 재사용되기 때문에
쓰면 쓸 수록 API 호출 횟수가 줄어들어서 무료 키로도 운영이 가능한 상태가 됩니다.
생성된 음성 캐쉬가 맘에 들지 않으면 해당 항목을 삭제할 수 있습니다.
캐쉬가 없고 API 사용량이 남아 있으면 다시 생성됩니다.
문구도 변경할 수 있습니다.
기본적으로 윈도우Edge TTS 를 고려해서 번호를 읽기 전에 뜸들이는 단어를 넣어두었습니다.
다른 건 먼저 설명 드린 기능들과 같습니다.
제 추천은⋯ (구형) 아이패드 같은 것에 (싼) 블루투스 키보드 (없어도 됨)를 붙여서 운영하는 것입니다.
기본 브라우저 TTS가 그나마 들어줄만 해서 API 사용량이 부족할 때 폴백으로 떨어져도
음성 품질이 크게 나빠지지 않을 겁니다.
나름 업장에서 사용하실 때의 편의성을 고려해서 만들긴 했습니다만,
실제 사용하시면서 불편한 점이 있다면 언제든 말씀해 주십시오.
(선택 받았을 때 이야기지만⋯)
기타 설명은 아래에 있습니다⋯ 그런데 이미 다 설명한 내용입니다. ㅎㅎ
https://www.afire.work/?category=utility/&project=neowait/
| 목록 |
|





