Nu kan du testa själv! Diane finns för iPhone och iOS! Kodad helt av ChatGPT

Då var det dags! Diane finns nu att testa för iOS, det vill säga iPhone, iPad och för Mac med M1 och M2. Appen är först och främst byggd för iPhone, så användargränssnittet på övriga enheter lämnar en del att önska. Det enda du behöver är en API-nyckel från OpenAI för att komma igång med denna nästintill 100% ChatGPT-kodade app.

Intresset för att testa Diane har varit stort, men jag vet också att många av er har känt att tröskeln för att testa den första versionen som jag skrev i programmeringsspråket Python har varit för hög. Därav föddes tanken om ChatGPT faktiskt kunde konvertera min prototyp till en färdig iOS-app. Eftersom jag själv inte kan koda i Swift, som är programmeringsspråket för iOS, så var jag tvungen att förlita mig helt och hållet på ChatGPT. Hur det samarbetet mellan analog och artificiell intelligens gick till tar vi i en senare artikel. Ni är ju här för att testa Diane.

Vad är Diane?

Diane är en app som syr ihop ett par AI-tjänster till ett flöde. Du klickar på ”Spela in”, för att spela in din röst eller ett möte. Därefter väljer du en mall, till exempel ”Generellt möte” och klickar på ”Bearbeta text”. Då skickas din röstinspelning till Whisper, som är en transkriberingstjänst från OpenAI, och därefter så skickas den texten till GPT-3.5 (som ChatGPT bygger på, också från OpenAI) för bearbetning. Den bearbetade texten kommer tillbaka till appen och nu kan du välja att spara den, kopiera eller skicka till någon annan app.

1. Ladda ned Diane

Diane är nu i testfasen, så den finns inte i App Store, utan man testar den via Apples Testflight. Klicka på länken nedan så kommer du till en sida där du kan (Steg 1) ladda ned Testflight från App Store. När det är klart installerar du appen från Testflight. Hittar du inte, så går du tillbaka till länken och klickar på (Steg 2) ”Start testing”, så laddas Diane ned till din enhet.

https://testflight.apple.com/join/zSpWn6S0

2. API-nyckel? OpenAI?

För att kunna använda AI-tjänsterna från OpenAI, så måste du ha en API-nyckel / API key. Om du redan har ett OpenAI-konto (om du till exempel använder ChatGPT) kan du gå direkt till https://platform.openai.com och skapa en nyckel.

Om du vill ha en steg-för-steg-guide så hittar du en här howtogeek.com/885918/how-to-get-an-openai-api-key

OBServera! Om du redan haft en API-nyckel hos OpenAI i mer än 3 månader, men inte har något betalkort registrerat kommer det inte att fungera.
Du måste alltså registrera ditt betalkort.

När du har skapat din API-nyckel (Secret Key) så ska det se ut så här (fast med din nyckel)

Observera att det kostar att använda OpenAI’s tjänster. Du betalar endast per hur mycket du använder tjänsterna och det går att sätta maxgränser för hur mycket du vill betala per månad. Jag har hamnat som mest på 15 dollar då jag byggde denna app.

3. Hur fungerar appen?

Nu när du laddat ned appen och öppnat den, så klickar du på ikonen som ser ut som ett kugghjul längst upp till höger, skriver in / klistrar in din OpenAI API-nyckel och klickar på ”Spara”.

GDPR / Schrems

Tänk på att även röst är en personuppgift, så ha det i bakhuvudet när ni använder appen. Och prata inte in några företagshemligheter. 🙂

Appen skickar ju som tidigare beskrivet det du spelat in för transkribering till OpenAI, som har sina servrar i USA. Detsamma gäller GPT-3.5.

Hjälp till att göra appen bättre

  • Rapportera gärna knasigheter eller möjligheter till förbättring, så ska jag se vad jag (eller ChatGPT) kan göra åt det.
  • Hör gärna av er kring om ni vill se fler mallar, och hur dessa i så fall skulle kunna se ut.
  • Framöver kommer även möjlighet till att välja mellan GPT-3.5 och GPT-4. Just nu är det GPT-3.5, eftersom alla inte har tillgång till GPT-4 via API.
  • Framöver kommer jag även försöka minska storleken på det inspelade ljudet. Whisper har en storleksgräns på 25 MB, så är ljudfilen större än så kommer det inte att fungera.

Support och frågor

Hör av er om ni undrar något. Jag har begränsat med tid, men gör givetvis vad jag kan för att hjälpa er.

Versionshistorik

Det här är saker som är fixade eller tillagda till appen sedan jag släppte den.

Version 1.0 (15)

  • Mindre buggfixar

Version 1.0 (14)

  • Allmän fix av promptar till mallarna

Version 1.0 (13)

  • Fummelfunktion – Varnar innan du gör en ny inspelning, så att du inte av misstag påbörjar en ny inspelning och tappar den tidigare

Version 1.0 (12)

  • Ny mall – ”Skriv artikel”

Version 1.0 (11)

  • Strömning av text från GTP. Istället för att du får vänta ända tills texten är klar från GPT, så strömmas texten till din telefon ord för ord
  • API-nyckeln i inställningar tas bort när du vill redigera den. Detta för att nyckeln inte ska vara synlig för andra

Version 1.0 (10)

  • Nu kan du ställa in om du vill använda GPT-3 eller GPT-4 i inställningar
  • Uppdatering av promptarna i mallarna

Version 1.0 (9)

  • Stängt av strömsparläge när inspelning är igång. Problemet var att när din telefon gick ned i strömsparläge, så stoppade inspelningen. Det är nu fixat

Version 1.0 (8)

  • Ljudkvaliteten på inspelning har sänkts, så att ljudfilen du spelar in blir mindre. Då tar det kortare tid att skicka den till Whisper och du kan även göra längre inspelningar

Version 1.0 (7)

  • Förbättring av felmeddelande från OpenAI

Version 1.0 (6)

  • Felmeddelande visas om det är något strul med din API-nyckel från OpenAI

Version 1.0 (5)

  • Skruvat ned ”kreativitet” på GTP-3, så att det inte blir för ”konstnärliga” svar. Temperature är nu på 0.5
  • Tagit bort formattering i mallarna för Obsidian, som var en rest från min prototyp
  1. Jag tog och laddade ner Diane, hade problem med API-nyckel till att börja med… läste instruktionerna lite bättre. La in betalkort och då funkade det toppen.

    Ge mig gärna lite idéer vad jag kan använda appen till.

    1. Härligt att du fick det att fungera! Hmmm… Du skulle kunna använda appen till (mall);
      * Spela in föreläsningar och transkribera (Endast transkribering)
      * Spela in möten och sammanfatta (Generellt möte)
      * Spela in dina tankar som du kommer på när du är ute och promenerar och få dessa sammanfattade (Tankar och idéer)
      * Ställa öppna frågor till GPT (Ställ fråga)
      * Fuska på quiz genom att smyg-spela-in frågan som ställs och ha mallen (Ställ fråga)
      * Spela in och transkribera bra videos eller smarta saker som sägs i poddar (Endast transkribering)
      Allt detta kan du sedan välja att skicka till i stort sätt vilken app som helst. Spara i anteckningar, skicka som en tweet mm.
      Om du kommer på fler saker får du gärna tipsa! 🙂

  2. Hej,

    Man behöver en inbjudningskod för att starta Testflight. Är det du som delger en sån kod?

    1. Svårt att svara på. Jag äger ingen Android-telefon så jag skulle inte kunna testa appen i nuläget. Men vem vet i framtiden? 🙂

  3. Hej Micke!
    Galet cool app! Har du någon känsla för hur långa inspelningar den klarar. Har testat med ett 45 minuter långt möte, men det vill sig inte riktigt. Kanske rimligt, eller?

    1. Hej hej! Jag har transkriberat föreläsningar på runt 40-50 minuter, men utöver det så är det hela osäkert. Testade en lite längre häromdagen på en timme, men den gör time out. Det funkar på dator, så frågan är om jag behöver göra något i appen. Det kan ju vara någon funktion som tror att något är trasigt när den får vänta för länge. Jag har det på min att-göra-lista i alla fall. 🙂

Kommentarer är stängda.