Nu kan du testa själv! Diane finns för iPhone och iOS! Kodad helt av ChatGPT

Micke Kring
Micke Kring 4k visningar
7 minuters läsning
Diane finns nu tillgänglig att testa på iOS

Då var det dags! Diane finns nu att testa för iOS, det vill säga iPhone, iPad och för Mac med M1 och M2. Appen är först och främst byggd för iPhone, så användargränssnittet på övriga enheter lämnar en del att önska. Det enda du behöver är en API-nyckel från OpenAI för att komma igång med denna nästintill 100% ChatGPT-kodade app.

Intresset för att testa Diane har varit stort, men jag vet också att många av er har känt att tröskeln för att testa den första versionen som jag skrev i programmeringsspråket Python har varit för hög. Därav föddes tanken om ChatGPT faktiskt kunde konvertera min prototyp till en färdig iOS-app. Eftersom jag själv inte kan koda i Swift, som är programmeringsspråket för iOS, så var jag tvungen att förlita mig helt och hållet på ChatGPT. Hur det samarbetet mellan analog och artificiell intelligens gick till tar vi i en senare artikel. Ni är ju här för att testa Diane.

Vad är Diane?

Diane är en app som syr ihop ett par AI-tjänster till ett flöde. Du klickar på ”Spela in”, för att spela in din röst eller ett möte. Därefter väljer du en mall, till exempel ”Generellt möte” och klickar på ”Bearbeta text”. Då skickas din röstinspelning till Whisper, som är en transkriberingstjänst från OpenAI, och därefter så skickas den texten till GPT-3.5 (som ChatGPT bygger på, också från OpenAI) för bearbetning. Den bearbetade texten kommer tillbaka till appen och nu kan du välja att spara den, kopiera eller skicka till någon annan app.

1. Ladda ned Diane

Diane är nu i testfasen, så den finns inte i App Store, utan man testar den via Apples Testflight. Klicka på länken nedan så kommer du till en sida där du kan (Steg 1) ladda ned Testflight från App Store. När det är klart installerar du appen från Testflight. Hittar du inte, så går du tillbaka till länken och klickar på (Steg 2) ”Start testing”, så laddas Diane ned till din enhet.

https://testflight.apple.com/join/zSpWn6S0

2. API-nyckel? OpenAI?

För att kunna använda AI-tjänsterna från OpenAI, så måste du ha en API-nyckel / API key. Om du redan har ett OpenAI-konto (om du till exempel använder ChatGPT) kan du gå direkt till https://platform.openai.com och skapa en nyckel.

Om du vill ha en steg-för-steg-guide så hittar du en här howtogeek.com/885918/how-to-get-an-openai-api-key

OBServera! Om du redan haft en API-nyckel hos OpenAI i mer än 3 månader, men inte har något betalkort registrerat kommer det inte att fungera.
Du måste alltså registrera ditt betalkort.

När du har skapat din API-nyckel (Secret Key) så ska det se ut så här (fast med din nyckel)

Observera att det kostar att använda OpenAI’s tjänster. Du betalar endast per hur mycket du använder tjänsterna och det går att sätta maxgränser för hur mycket du vill betala per månad. Jag har hamnat som mest på 15 dollar då jag byggde denna app.

3. Hur fungerar appen?

Nu när du laddat ned appen och öppnat den, så klickar du på ikonen som ser ut som ett kugghjul längst upp till höger, skriver in / klistrar in din OpenAI API-nyckel och klickar på ”Spara”.

GDPR / Schrems

Tänk på att även röst är en personuppgift, så ha det i bakhuvudet när ni använder appen. Och prata inte in några företagshemligheter. 🙂

Appen skickar ju som tidigare beskrivet det du spelat in för transkribering till OpenAI, som har sina servrar i USA. Detsamma gäller GPT-3.5.

Hjälp till att göra appen bättre

  • Rapportera gärna knasigheter eller möjligheter till förbättring, så ska jag se vad jag (eller ChatGPT) kan göra åt det.
  • Hör gärna av er kring om ni vill se fler mallar, och hur dessa i så fall skulle kunna se ut.
  • Framöver kommer även möjlighet till att välja mellan GPT-3.5 och GPT-4. Just nu är det GPT-3.5, eftersom alla inte har tillgång till GPT-4 via API.
  • Framöver kommer jag även försöka minska storleken på det inspelade ljudet. Whisper har en storleksgräns på 25 MB, så är ljudfilen större än så kommer det inte att fungera.

Support och frågor

Hör av er om ni undrar något. Jag har begränsat med tid, men gör givetvis vad jag kan för att hjälpa er.

Versionshistorik

Det här är saker som är fixade eller tillagda till appen sedan jag släppte den.

Version 1.0 (15)

  • Mindre buggfixar

Version 1.0 (14)

  • Allmän fix av promptar till mallarna

Version 1.0 (13)

  • Fummelfunktion – Varnar innan du gör en ny inspelning, så att du inte av misstag påbörjar en ny inspelning och tappar den tidigare

Version 1.0 (12)

  • Ny mall – ”Skriv artikel”

Version 1.0 (11)

  • Strömning av text från GTP. Istället för att du får vänta ända tills texten är klar från GPT, så strömmas texten till din telefon ord för ord
  • API-nyckeln i inställningar tas bort när du vill redigera den. Detta för att nyckeln inte ska vara synlig för andra

Version 1.0 (10)

  • Nu kan du ställa in om du vill använda GPT-3 eller GPT-4 i inställningar
  • Uppdatering av promptarna i mallarna

Version 1.0 (9)

  • Stängt av strömsparläge när inspelning är igång. Problemet var att när din telefon gick ned i strömsparläge, så stoppade inspelningen. Det är nu fixat

Version 1.0 (8)

  • Ljudkvaliteten på inspelning har sänkts, så att ljudfilen du spelar in blir mindre. Då tar det kortare tid att skicka den till Whisper och du kan även göra längre inspelningar

Version 1.0 (7)

  • Förbättring av felmeddelande från OpenAI

Version 1.0 (6)

  • Felmeddelande visas om det är något strul med din API-nyckel från OpenAI

Version 1.0 (5)

  • Skruvat ned ”kreativitet” på GTP-3, så att det inte blir för ”konstnärliga” svar. Temperature är nu på 0.5
  • Tagit bort formattering i mallarna för Obsidian, som var en rest från min prototyp
Dela den här artikeln
Följ:
Fixar och trixar med tekniska lösningar och mycket mer. Ser till att användarna förstår systemen och att systemen förstår användarna. Har mina rötter i musiken och kombinerar konstnärlighet med teknik.