Алексей завершил свой доклад и перешел к вопросам про альтернативы AnyDesk/TeamViewer, которые у многих работают нестабильно: спикер ранее уже советовал уходить от «левых» сервисов в сторону контролируемых схем — VPN + OpenSSH/SSH-туннели, RDP/VNC через доступ по ключам и IP-ограничения, а для централизованного управления — MeshCentral в связке с доменом и политиками. Самое время задать вопросы в чат @miktrain с хэштэгом #вопрос Подключайтесь к записи и обсуждению: https://getnet.pro/it-infrastruktura-dlya-malogo-biznesa.
А Aspia то чем не нравиться?) Свой маленький AnyDesc.
Мужики 3 дня настраиваю себе ИИ ассистента, схема такая: Asterisk (Linux) ↓ AudioSoket Ubuntu ├──→ Детектор прерывания (например barge-in) ├──→ VAD → детектор ├──→ STT (Whisper) → текст ├──→ LLM (Ollama) → ответ └──→ TTS (Silero) → аудио ↓ AudioSoket Asterisk ← воспроизведение ответа
Столкнулся со сложной проблемой, когда говорит ассистент ИИ, особенно на громкой связи, приложение должно слушать всегда что говорит человек и реагировать. И тут нашел 3 способа решения: 1.Barge-in RMS детектор, с калибровкой на лету, по первых 500мс речи эха, и как только появляется пик - голос человека, срабатывает детектор, и включает VAD+ SST. Срабатывания в 80% случаев верные, но бывает и нет, хотя это точно лучше чем вообще без детектора. При срабатывании детектора съедаются первые буквы фразы, и нужно крутить буфер голоса, чтобы потом дополнять съеденные секунды детектором. Решение ну так на коленке, кое как работает. Хочется лучше. 2. Детектор двойной речи (Double-Talk Detector). Сравнивается исходный сигнал TTS и входящий аудиопоток. При наличии эха они будут коррелировать. Если корреляция внезапно падает, а общая громкость растет — это с высокой вероятностью означает, что пользователь начал говорить поверх эха. Как реализовать в связке и синхронизировать входящий и приемный поток, учесть все задержки вообще непонятно…. 3. "Умное" эхоподавление с двумя потоками принцип (Алиса, Siri). Система использует алгоритм акустического эхоподавления (AEC), который "вычитает" известный ему "чистый" сигнал TTS из "смешанного" сигнала (динамик + микрофон) телефона. На выходе этого процесса получается (в идеале) только голос пользователя, без эха от колонок. – По мне так вообще чтото космическое. 4. существуют какие библиотеки WebRTC, которые это умеют делать, тут темная дыра. Может ктото поделиться опытом, как решал проблему ?
«Как построить МОЩНЫЙ прод и что этому может помешать?» — доклад на конференции GetNet
? Спикер Владимир Федорков расскажет, почему даже самая быстрая сеть может стать узким местом для бизнес-приложений, и как избежать типичных ошибок при проектировании инфраструктуры
28 ноября с 11:00 до 19:00 Регистрация на открытую онлайн-конференцию по ссылке
Что интересного в докладе: - Почему быстрая сеть не гарантирует быстрые приложения - Как сеть влияет на отказоустойчивость и стоимость системы - Ошибки при проектировании кросс-региональных и распределённых систем - Как оценить влияние задержек и пропускной способности на бизнес-процессы - Кейсы и советы для сетевиков, DevOps, SRE и архитекторов
Пора пересмотреть подход к сети - не как к «трубе», а как к системе массового обслуживания. Узнайте, как избежать костылей и построить инфраструктуру, которая действительно работает.