18+

Алина Саратова

©  SmartBabr

Наука и технологии, Интернет и ИТ Мир

4130

30.05.2017, 13:54

Там, где машинный интеллект бессилен. Как работают «расшифровщики аудиозаписей»

Машинный интеллект может многое, но не всё. Одна из неподдающихся автоматизации задач — перевод сложных аудиозаписей в текст. Эту работу сегодня поручают фрилансерам и на первый взгляд она кажется лёгкой. Обозреватель SmartBabr рассказывает, каково это — быть «расшифровщиком аудиозаписей», и какие технологии все-таки могут в этом деле пригодиться.


У меня есть любимая работа, которая меня полностью удовлетворяет. Но, как известно, денег много не бывает – и со мной согласятся все, кто ищет дополнительный заработок. Именно поэтому так популярны все эти инфобизнесы, и, наверное, именно это является причиной распространенности и процветания всяких «работ», где нужно отправить предварительно некую сумму «на материалы» или «на документы». Покопавшись на бирже фриланса и пообщавшись с подругами, я наткнулась на вакансию расшифровщика аудиозаписей.

Эту вакансию размещают те, кто занимается социологическими исследованиями. У них есть такая штука, как «фокус-группа», когда собирается несколько человек по определенным параметрам, и проводится беседа на определенную, опять же, тему. Беседа записывается на диктофон, и вот эти-то записи и требуют так называемой расшифровки.

Доверить столь тонкую работу машинам не получается, как бы они не были умны

Причина проста: в самых обычных компьютерах не используются технологии, которые могут распознавать голоса. Машина переводит аудио в текст сплошным потоком, и потом этот поток требуется расшифровывать заново: программа не различает мужские и женские голоса, не может назвать имена и возраст, и не соображает, где вопрос, а где восклицание.

И тут мне, что называется, подфартило. Одна очень хорошая женщина предложила попробовать свои силы в расшифровке бесед. При этом она предлагала в четыре раза больше, чем платят за это дело на биржах. Ну кто от такого откажется? Тем более, имея опыт перевода диктофонных интервью (не своих).

— А тут что делать-то? — думала я. — Сиди себе, наушники в уши, да строчи — дословно же надо, никакой обработки. Ну или почти никакой…

И я согласилась.

После первой расшифровки у меня дрожали руки. После второй начал дергаться глаз. После третьей, кое-как поднявшись от компьютера и разогнув скрюченные пальцы, я поняла, что за последние трое суток я спала три часа, я не помню, как выглядит мой ребенок, а еще не знаю, когда я ела, когда причесывалась и как меня зовут. Я позвонила заказчице и попросила освободить меня от такого «удовольствия».

Эту работу могут делать те, у кого нет семьи, нет другой работы, хорошая память и высочайшая скорость набора текста

Для тех, кто усмехается: «Вот я-то, в отличии от тебя, все смогу и уж такую возможность не упущу!», кратко о работе. Дается аудиофайл, который нужно перевести в текстовый документ дословно. На файле беседа, не менее 8 человек, и очень плотная — никто не задумывается, все говорят по делу. Требуемым шрифтом требуемого размера полуторачасовая беседа занимает не менее 30 страниц. И целый список требований к оформлению: после набора я расставляла скобки, выделяла курсивом и полужирным шрифтом и ставила комментарии к репликам в одном тексте еще 4 часа.

Отказавшись от дальнейшего самоистязания, я проспала 15 часов. А потом, уже приняв ванну и вкусив чашечку чаю (от кофе, думаю, меня еще долго будет тошнить), подумала:

А вдруг меня спасли бы средства голосового набора?

Я бы перевела ручкой на бумажку, с указанием персонажей и выделением вопросов и восклицаний, с выведением эмоций и так далее, а потом аккуратно и вдумчиво, как учитель диктант для только научившихся писать первоклашек, прочитала бы это все в микрофон, а компьютер сам за меня набрал это? Может, так было бы проще и легче? И я полезла искать, пробовать, анализировать и сравнивать программы для голосового набора. Конечно, мне они уже не так уж и нужны — но пригодятся тем, кто пишет дипломы, статьи, лекции и так далее.

Компания Google, которая занимает лидирующие позиции в области машинного обучения и искусственного интеллекта, предлагает сразу несколько приложений для своего браузера. Установив эти приложения и помощники, вы получите тот самый инструмент для набора текстов посредством чтения его в микрофон.

Первое из них – голосовой блокнот. Это бесплатное приложение. Оно есть как в интернет-магазине браузера, так и на конкретном сайте .

Голосовой блокнот может проводить транскрибацию, но потоком. А когда надиктовываешь ему текст, нужно называть словами знаки препинания. Буквально как в том анекдоте:

«Кто там знак вопроса это мы запятая Вася и Петя запятая твои друзья точка»

При очень медленном чтении с выделением голоса блокнот может и сам поставить знаки препинания, но перед тем как брать файл и использовать его нужно проверить: а правильно ли он вас понял.

Второе приложение – это Войснот II . Он работает точно так же, как блокнот, но имеет несколько другой интерфейс и кому-то покажется более удобным.

Сервис Август предлагает не только голосовой блокнот, но ряд других услуг, которые являются платными. А вот запись текста голосом в нем доступна только для браузера Google Chrome. Голосовой помощник сервиса бесплатен и распознает русский, украинский, английский, немецкий, французский и итальянский языки.

Следующий сервис TalkTyper – бесплатный, и удобен тем, что имеет голосовые подсказки и возможности просмотра вариантов распознавания. Также в сервисе есть удобный редактор, с помощью которого довольно просто скопировать полученный текст или сразу с сайта распечатать его на принтере. Также ваш материал с помощью TalkTyper можно сразу перевести, скажем, на английский или французский. Если честно, иностранными владею на уровне «здороваюсь со словарем», поэтому именно эту функцию проверить не смогла. А так – сойдет. Очень удобно, что слова, которые программа не смогла распознать точно, подсвечиваются, и при нажатии на них можно выбрать другие варианты.

Есть программы, которые требуют установки, самые известные – Voco и MSpeech. Первая – платная, ее стоимость от 1690 рублей. Вторая — бесплатная. Voco не только печатает на компьютере и устанавливает знаки препинания, но и умеет транскрибировать аудио (потоком). MSpeech может распознавать голос на 50 языках и имеет горячие клавиши. Можно самому выбирать источник звука, корректировать распознанный текст.

Для всех программ и приложений требуется браузер Google Chrome, практически абсолютная тишина в комнате и очень чувствительный микрофон. Также желательна хорошая дикция – чтобы не пришлось потом много править в готовом документе. Также практически весь софт недостаточно хорошо распознает отдельные слова и приходится четко их проговаривать, а это снижает скорость появления текста.

В принципе, попробовать можно.

Читайте также:

Работа в интернете на дому и без вложений: что скрывается за заманчивыми предложениями

Алина Саратова

©  SmartBabr

Наука и технологии, Интернет и ИТ Мир

4130

30.05.2017, 13:54

URL: https://m.babr24.com/?IDE=272319

Bytes: 7734 / 6789

Скачать PDF

Поделиться в соцсетях:

Также читайте эксклюзивную информацию в соцсетях:
- Телеграм
- ВКонтакте

Связаться с редакцией Бабра:
newsbabr@gmail.com

Другие статьи и новости в рубрике "Наука и технологии"

Ученые СФУ нашли в музее Енисейска уникальные ножи древних кочевников

Исследователи Сибирского федерального университета изучили редкие артефакты из фондов Енисейского музея-заповедника имени Кытманова.

Подводные лабиринты великого озера: итоги викторины Бабра

Берега Байкала в большей части береговой линии переходят в крутые подводные склоны, которые спустя несколько десятков метров резко обрываются вниз.

Автор: Есения Линней.

Источник: Babr24.com.

Наука и технологии, История

Байкал, Бурятия, Иркутск

1976

18.01.2026

Учёные ТГУ: борьба с патогенными бактериями в воздухе станет эффективнее

Учёные ТГУ совместно с коллегами из СО РАН создали нанотермитные системы, способные предотвращать распространение и снижать концентрацию ...

Автор: Андрей Тихонов.

Источник: Babr24.com.

Наука и технологии, Экология

Томск

6934

13.01.2026

В Новосибирской области предпринимателя подключили к электроэнергии после вмешательства прокуратуры

В Новосибирске предпринимателя подключили к электрическим сетям после вмешательства надзорного ведомства.

Горящий лёд Байкала: итоги викторины Бабра

На глубине Байкала находятся загадочные «кристаллы энергии» – твёрдые соединения метана и воды, рождающиеся в холоде и под давлением.

Автор: Есения Линней.

Источник: Babr24.com.

Наука и технологии, Экология

Байкал, Бурятия, Иркутск

11008

07.01.2026

Время наблюдать за светилами

Наступление 2026 года отмечено яркими астрономическими событиями, так что самое время полюбоваться небом.

Автор: Эля Берковская.

Источник: Babr24.com.

Наука и технологии, События

Мир

2610

03.01.2026

Учёные ТГУ: всё о клещах и местах их обитания на новой платформе Ixodecs

Учёным Томского госуниверситета удалось создать открытую интерактивную платформу, которая позволит отслеживать обилие иксодовых клещей на конкретных ...

Автор: Андрей Тихонов.

Источник: Babr24.com.

Наука и технологии, Экология

Томск

15388

29.12.2025

ИИ спасает от рака: в Монголии запустили современную диагностику онкологии

Монголия реализует один из самых амбициозных медицинских проектов последних лет – национальную систему профилактики и раннего выявления ...

Автор: Есения Линней.

Источник: Babr24.com.

Наука и технологии, Здоровье, Экономика

Монголия

3310

24.12.2025

Кибербезопасность как точка сближения: Япония усиливает партнерство с Монголией

Отношения между Японией и Монголией в последние годы постепенно выходят за рамки классического дипломатического и экономического взаимодействия.

Автор: Эрнест Баатырев.

Источник: Babr24.com.

Наука и технологии, Общество, Экономика

Монголия

3340

24.12.2025

От ссылки к открытиям: итоги викторины Бабра

Этот зоолог, исследовавший фауну Байкала в период ссылки, работал вместе с Бенедиктом Дыбовским.

Автор: Есения Линней.

Источник: Babr24.com.

Наука и технологии, История

Байкал, Бурятия, Иркутск

5378

19.12.2025

Перчатки и обувь с датчиками: в СФУ создали тренажеры для больных Паркинсоном

Специалисты Сибирского федерального университета создали уникальный комплекс для реабилитации людей, перенесших инсульт или страдающих болезнью ...

Прорыв в монгольской ботанике: ученые открыли уникальный вид растений

В научном сообществе Монголии произошло событие, которое уже называют одним из самых значимых открытий последних лет.

Автор: Эрнест Баатырев.

Источник: Babr24.com.

Наука и технологии, Общество

Монголия

5101

02.12.2025