Le Pretotyping‎ > ‎

L’expérience Speech-to-Text d’IBM

Il y a quelques décennies, bien avant l'âge de l'Internet et avant l'aube des PC, IBM a été mieux connu pour ses ordinateurs mainframe et les machines à écrire. En ces temps-là, manipuler une machine à écrire était quelque chose qu'une petite minorité de personnes maîtrisaient - souvent c’étaient des secrétaires, des écrivains et des programmeurs en informatique. La plupart des gens tapaient avec un seul doigt - avec lenteur et inefficacité.

IBM était idéalement positionné pour tirer profit  de sa technologie informatique et de ses machines à écrire pour développer un système transformant la  parole en texte. Ce dispositif permettrait aux gens de parler dans un microphone et leurs mots "magiquement" apparaîtraient sur ​​l'écran sans avoir besoin de taper. Il y avait, pour IBM un potentiel pour faire beaucoup d'argent, et pour l'entreprise à faire une grosse mise sur ce projet.

Cependant, il y avait quelques problèmes majeurs. Les ordinateurs de cette époque étaient beaucoup moins puissants et plus chers qu'aujourd'hui, et le Speech-to-Text exige beaucoup de puissance de calcul. En outre, même avec une puissance de traitement suffisante, la transformation Speech-to-Texte a été (et reste encore) un problème dans l’industrie des logiciels. Vouloir résoudre ces deux problèmes aurait demandé  un investissement massif - même pour IBM - et plusieurs  années de recherche. Mais est-ce que  tout le monde voudraient d’un tel dispositif. Recevrait-il un succès fulgurant? 

Certaines personnes chez IBM n'étaient pas convaincues que toutes les personnes et entreprises qui avaient déclaré qu'ils" en voulaient et certainement achèteraient et utiliseraient les Speech-to-text machines", finiraient  effectivement par les acheter.  Ils craignaient qu’ IBM passe des années de recherche et dépense beaucoup d'argent à développer quelque chose que très peu de gens achèteraient réellement: une affaire désastreuse. Dans le jargon du  Prétotyping: Les gens de chez IBM  n'étaient pas sûrs que le Speech-to-Texte soit le bon produit. Après tout, les gens n'avaient jamais utilisé un système Speech-to-Texte, alors comment pourraient-ils savoir à coup sûr que les gens en voudront? IBM a voulu tester la viabilité “business”  d'un tel dispositif, mais puisque même un prototype de base leur a fallu des années, ils ont imaginé une expérience ingénieuse.

Ils ont mis des clients potentiels qui ont exprimé leur intérêt pour la machine Speech-to-Text, des personnes qui ont dit qu'ils allaient l'acheter définitivement, dans une salle avec un ordinateur, un écran et un microphone - mais pas de clavier. Ils leur ont dit qu'ils avaient conçu un système qui transforme la parole en  texte et qu’IBM souhaite le tester pour savoir si les gens l’apprécient ou non. Quand les utilisateurs ont commencé à parler dans le microphone et que leurs mots apparurent sur ​​l'écran: presque immédiatement et sans erreurs!, ils ont été impressionnés: c’était trop beau pour être vrai.

Ce qui s’est pasé réellement, et ce qui a rendu cette expérience si ingénieuse, c'est qu'il n'y avait pas de machine qui transformait la parole en texte, pas même un prototype. L’ordinateur de la salle  était un faux. Dans la pièce voisine il y avait une dactylographe qualifiée qui écoutait les mots prononcés  par le participant du test au travers le microphone et qui transcrivait manuellement et immédiatement les mots entendus à l'aide d'un clavier: à l’ancienne. Dès que la dactylo tapait des mots sur son clavier, ils  apparaissaient instantanément sur l'écran de l'utilisateur. Le mécanisme était tellement  rodé qu’il ne laissait aucun doute à l’utilisateur que c’était bien ses propres mots qui apparaissaient sur son écran. Alors, qu'est-ce qu’IBM a appris de cette expérience?

Voici ce que j'ai entendu: Après avoir été initialement impressionné par la "technologie", la plupart des gens qui ont dit qu'ils achèteraient et utiliseraient une machine Speech-to-Text ont changé leur avis après avoir utilisé le système pendant quelques heures. Même avec la transcription rapide et parfaitement près simulée par un humain dactylographe, utiliser la parole pour entrer quelques lignes de texte dans un ordinateur avait  trop de problèmes, parmi eux: les personnes avaient mal à la gorge à la fin de la journée, il a créé un environnement de travail bruyant, et il n'était pas adapté à des informations confidentielles.

Sur la base des résultats de cette expérience, IBM a continué à investir dans la technologie Speech-to-Text, mais à une échelle beaucoup plus petite - ils n'ont pas miser  la société sur ce produit.

Il s'est avéré plus tard que c'était la bonne décision en terme business. Les claviers s'avèrent difficile à battre lorsqu’il s’agit des tâches de saisie de texte. Il y a trente ans, les gens ne pouvaient pas taper, mais cherchez aujourd'hui dans n'importe quel bureau (ou café) et vous verrez des gens de tout âge et de toute profession taper sur leurs ordinateurs portables. Dans les devices où un clavier de taille réelle n'est pas possible, comme les téléphones, le Speech-to-Text peut être le bon produit, mais sinon, le clavier reste imbattable. Dans ce cas, le clavier est sans aucun doute le bon produit.

L'approche d'IBM était ingénieuse, mais comment appelleriez-vous un système transformant la parole en texte à l’aide d’un  dactylo qui n'était pas celui que l'on envisageait un "Prototype approprié" ?- pas moins qu'ils avaient l'intention de cacher réellement un dactylos humain dans les ordinateurs. Ils n'ont pas prototypé un système Speech-to-text, ils ont fait semblant d'avoir mis au point un prototype capable de transformer la parole en texte, et l’ont utilisé pour tester la réaction des clients potentiels vis-a-vis du  produit. De cette façon, ils étaient en mesure de recueillir des données précieuses du marché basées sur l'utilisation réelle du produit au lieu des opinions, et ils l'ont fait avec un très petit investissement de temps et d'argent.

Cette expérience est intéressante et utile à la fois. Elle est très différente de prototypage pour mériter son propre nom (je reviens sur ce point un peu plus tard) et une étude plus approfondie. C’est ainsi que je me suis mis à la recherche des histoires similaires et j'ai découvert un autre exemple brillant.